La fusion de la technologie de traitement du langage naturel et de la vision par ordinateur
Le lancement conjoint de ChatGPT et GPT-Vision marque une avancée majeure dans le domaine de l’intelligence artificielle. Cette fusion de la technologie de traitement du langage naturel et de la vision par ordinateur ouvre de nouvelles perspectives et offre des applications variées et profondes. Découvrez comment ces technologies transforment notre manière d’interagir avec les données visuelles et textuelles.
Exploration des Applications
La synergie entre ChatGPT et GPT-Vision permet de débloquer des fonctionnalités inédites. Voici quelques exemples captivants qui illustrent la diversité des applications possibles.
- Modélisation à partir d’une image
Une simple image peut être transformée en une modélisation 3D impressionnante grâce à ces technologies, comme le montre cet exemple :
ChatGPT Vision starting to write Gcode (for a Haas) from prints pic.twitter.com/IgXeMEAS8e
— Aaron Slodov (@aphysicist) October 10, 2023
- Programme de musculation personnalisé selon votre équipement
Grâce à ChatGPT Vision, il est possible d’obtenir un programme de musculation sur-mesure en fonction de votre équipement disponible, comme le montre cet exemple :
ChatGPT Vision turned a picture of my home gym equipment into a full 8-week workout program.
This is better than 99% of any programs I’ve ever bought. pic.twitter.com/ToACYgzTyf
— Rowan Cheung (@rowancheung) October 11, 2023
Vous pouvez également trouver d’autres idées de programme ici :
ChatGPT Vision:
Fitness plan ideas based on limited equipment.
Adjust prompt, if you see mistakes in the recognition. pic.twitter.com/LslHBeDFlX
— Borriss (@_Borriss_) October 12, 2023
- Analyse et décodage de documents floutés
Grâce à ChatGPT-4V Multimodal, il est possible de révéler les secrets d’un document flouté grâce à une analyse approfondie, comme le montre cet exemple :
ChatGPT-4V Multimodal decodes a Redacted government document on a UFO sighting released by NASA.
I have tested this on 100s of redacted documents and I can say we are in a new world. pic.twitter.com/aCKOm577TO
— Brian Roemmele (@BrianRoemmele) October 6, 2023
- Conversion de photos en texte pour une lettre complexe
Ces technologies permettent de transformer une image de lettre en texte éditable, comme le montre cet exemple :
???? ChatGPT Vision is fk’in nuts lol pic.twitter.com/Ccsl7tFgkD
— peter! ???? (@pwang_szn) October 4, 2023
- Récupération d’objets complexes dans une image
La technologie permet d’identifier et de récupérer des objets complexes dans une image, comme le montre cet exemple :
Power of ChatGPT vision capability ???? pic.twitter.com/cr1izVP9df
— Kashan Ahmed???????????? (@KashanAhmed) October 6, 2023
- Détection d’images issues de Google Street View ou de satellites
Grâce à ChatGPT Vision, il est possible de détecter précisément des images provenant de Google Street View ou de satellites, comme le montre cet exemple :
ChatGPT Vision pic.twitter.com/X619nlCdBW
— Anu Aakash (@anukaakash) October 11, 2023
- Analyse détaillée d’une radiographie
Grâce à ChatGPT, il est possible d’analyser rapidement et précisément une radiographie, comme le montre cet exemple :
ChatGPT: The doctor in your pocket ????
ChatGPT can now look at X-rays, prescriptions, or medical reports and answer any question in a matter of seconds.
Future of health talk – simple, snappy, and AI! pic.twitter.com/nXgEfEvEsn
— Shubham Saboo (@Saboo_Shubham_) October 6, 2023
- Analyse d’images complexes
Plongez dans l’analyse d’une image hautement complexe grâce à ces technologies, comme le montre cet exemple :
ChatGPT-4V Multimodal please decode this.
Thank you. pic.twitter.com/seOuma96QO
— Brian Roemmele (@BrianRoemmele) October 2, 2023
- Création de scénarios à partir de l’analyse de plusieurs images
Grâce à ces technologies, quatre images distinctes peuvent être transformées en un scénario cohérent, comme le montre cet exemple :
I gave GPT-4V four « movie stills » I generated with Midjourney and asked it to construct a plotline tying them together.
A good example of how AI is more « creative » and surprising when given constraints, much like humans. Its not as creative as the best people, but interesting. pic.twitter.com/tzYJmMChsn
— Ethan Mollick (@emollick) October 2, 2023
- Analyse d’un moteur de voiture
Grâce à ChatGPT, il est possible d’analyser minutieusement un moteur de voiture. Cependant, il est recommandé de consulter un professionnel pour toute réparation :
6. Car Maintenance
Prompt: « Analyze the issue shown in this car photo, explain likely causes, and provide actionable DIY repairs or professional servicing recommendations. » pic.twitter.com/mSfUTp0j5n
— Bryan Marley (@_bryanmarley) October 9, 2023
- Optimisation de code
ChatGPT peut également être utilisé pour optimiser du code, en proposant des suggestions d’amélioration de performance, d’efficacité et de respect des bonnes pratiques, comme le montre cet exemple :
8. Code Optimization
Prompt: « Analyze this code and suggest ways to improve performance, efficiency, conciseness, and adherence to best practices. » pic.twitter.com/4leeDoVf53
— Bryan Marley (@_bryanmarley) October 9, 2023
Limitations Notables
Malgré les avancées réalisées, certaines limitations sont à prendre en compte. Il est important de noter que la lecture des QR Codes et le partage des conversations restent pour le moment impossibles avec ces technologies.
Si vous ne voyez pas les nouvelles fonctionnalités, il peut être nécessaire de rafraîchir la page ou de vous déconnecter/reconnecter. Si le problème persiste, vous pouvez essayer de vider le cache lié à openai.com.
Voici une capture d’écran illustrant l’une des interfaces utilisateur de ces nouvelles fonctionnalités :
Vidéo GPT-Vision
Je tiens à créditer la chaîne YouTube d’Emile Dev (à suivre pour rester informé sur l’actualité de l’intelligence artificielle) qui a inspiré cet article. Voici la vidéo de présentation :
