La fusión de la tecnología de procesamiento del lenguaje natural y la visión por computadora
El lanzamiento conjunto de ChatGPT y GPT-Vision marca un gran avance en el campo de la inteligencia artificial. Esta fusión de tecnología de procesamiento del lenguaje natural y visión por computadora abre nuevas perspectivas y ofrece aplicaciones variadas y profundas. Descubra cómo estas tecnologías están transformando la forma en que interactuamos con datos visuales y textuales.
Explorando aplicaciones
La sinergia entre ChatGPT y GPT-Vision desbloquea nuevas funciones. A continuación se muestran algunos ejemplos cautivadores que ilustran la diversidad de posibles aplicaciones.
- Modelado a partir de una imagen
Una imagen simple se puede transformar en un impresionante modelo 3D utilizando estas tecnologías, como se muestra en este ejemplo:
ChatGPT Vision comienza a escribir Gcode (para Haas) a partir de impresiones pic.twitter.com/IgXeMEAS8e
– Aaron Slodov (@aphysicist) 10 de octubre de 2023
- Programa de entrenamiento de fuerza personalizado según tu equipamiento
Gracias a ChatGPT Vision, es posible obtener un programa de entrenamiento de fuerza hecho a medida según el equipo disponible, como se muestra en este ejemplo:
ChatGPT Vision convirtió una imagen del equipo de mi gimnasio en casa en un programa de entrenamiento completo de 8 semanas.
Esto es mejor que el 99% de todos los programas que he comprado. pic.twitter.com/ToACYgzTyf
—Rowan Cheung (@rowancheung) 11 de octubre de 2023
También puede encontrar otras ideas de programas aquí:
Visión de ChatGPT:
Ideas de planes de acondicionamiento físico basados en equipos limitados.
Ajuste el mensaje si ve errores en el reconocimiento. pic.twitter.com/LslHBeDFlX
– Borriss (@_Borriss_) 12 de octubre de 2023
- Análisis y decodificación de documentos borrosos.
Gracias a ChatGPT-4V Multimodal, es posible revelar los secretos de un documento borroso mediante un análisis en profundidad, como se muestra en este ejemplo:
ChatGPT-4V Multimodal decodifica un documento gubernamental redactado sobre un avistamiento de ovnis publicado por la NASA.
He probado esto en cientos de documentos redactados y puedo decir que estamos en un mundo nuevo. pic.twitter.com/aCKOm577TO
– Brian Roemmele (@BrianRoemmele) 6 de octubre de 2023
- Convertir fotos en texto para una letra compleja
Estas tecnologías permiten transformar la imagen de una carta en texto editable, como se muestra en este ejemplo:
???? ChatGPT Vision está jodidamente loco jajaja pic.twitter.com/Ccsl7tFgkD
– ¡tirarse un pedo! ???? (@pwang_szn) 4 de octubre de 2023
- Recuperar objetos complejos en una imagen
La tecnología permite identificar y recuperar objetos complejos en una imagen, como se muestra en este ejemplo:
¿Poder de la capacidad de visión ChatGPT? pic.twitter.com/cr1izVP9df
— Kashan Ahmed????????????? (@KashanAhmed) 6 de octubre de 2023
- Detección de imágenes de Google Street View o satélites
Gracias a ChatGPT Vision, es posible detectar con precisión imágenes de Google Street View o satélites, como se muestra en este ejemplo:
Visión ChatGPT pic.twitter.com/X619nlCdBW
—Anu Aakash (@anukaakash) 11 de octubre de 2023
- Análisis detallado de una radiografía.
Gracias a ChatGPT, es posible analizar de forma rápida y precisa una radiografía, como se muestra en este ejemplo:
ChatGPT: ¿El médico en tu bolsillo????
ChatGPT ahora puede consultar radiografías, recetas o informes médicos y responder cualquier pregunta en cuestión de segundos.
Charla sobre el futuro de la salud: ¡sencilla, ágil y con IA! pic.twitter.com/nXgEfEvEsn
– Shubham Saboo (@Saboo_Shubham_) 6 de octubre de 2023
- Análisis de imágenes complejas
Sumérjase en el análisis de una imagen altamente compleja utilizando estas tecnologías, como se muestra en este ejemplo:
ChatGPT-4V Multimodal, decodifique esto.
Gracias. pic.twitter.com/seOuma96QO
– Brian Roemmele (@BrianRoemmele) 2 de octubre de 2023
- Creación de escenarios a partir del análisis de varias imágenes.
Usando estas tecnologías, cuatro imágenes separadas se pueden transformar en una historia coherente, como se muestra en este ejemplo:
Le di a GPT-4V cuatro “fotos de película” que generé con Midjourney y le pedí que construyera una trama que las uniera.
Un buen ejemplo de cómo la IA es más “creativa” y sorprendente cuando se le imponen limitaciones, al igual que los humanos. No es tan creativo como las mejores personas, pero es interesante. pic.twitter.com/tzYJmMChsn
– Ethan Mollick (@emollick) 2 de octubre de 2023
- Análisis del motor de un coche.
Gracias a ChatGPT es posible analizar en profundidad el motor de un coche. No obstante, se recomienda consultar a un profesional para cualquier reparación:
6. Mantenimiento del coche
Mensaje: “Analice el problema que se muestra en esta fotografía del automóvil, explique las causas probables y proporcione reparaciones de bricolaje viables o recomendaciones de servicio profesional”. pic.twitter.com/mSfUTp0j5n
—Bryan Marley (@_bryanmarley) 9 de octubre de 2023
- Optimización de código
ChatGPT también se puede utilizar para optimizar el código y ofrecer sugerencias para mejorar el rendimiento, la eficiencia y el cumplimiento de las mejores prácticas, como se muestra en este ejemplo:
8. Optimización del código
Mensaje: “Analice este código y sugiera formas de mejorar el rendimiento, la eficiencia, la concisión y el cumplimiento de las mejores prácticas”. pic.twitter.com/4leeDoVf53
—Bryan Marley (@_bryanmarley) 9 de octubre de 2023
Limitaciones notables
A pesar de los avances realizados, es necesario tener en cuenta ciertas limitaciones. Es importante señalar que leer códigos QR y compartir conversaciones actualmente sigue siendo imposible con estas tecnologías.
Si no ve nuevas funciones, es posible que deba actualizar la página o cerrar sesión/iniciar sesión. Si el problema persiste, puede intentar borrar el caché relacionado con openai.com.
Aquí hay una captura de pantalla que muestra una de las interfaces de usuario para estas nuevas funciones:
Vídeo de GPT-Vision
Me gustaría darle crédito al canal de YouTube de Emile Dev (a seguir para mantenerse informado sobre las noticias sobre inteligencia artificial) que inspiró este artículo. Aquí tenéis el vídeo de presentación: