LLaVA 1.5: una alternativa de código abierto a GPT-4 Vision
El campo de la inteligencia artificial generativa está en auge con la aparición de grandes modelos multimodales (LMM) como GPT-4 Vision de OpenAI. Estos modelos revolucionan nuestra interacción con los sistemas de IA al integrar texto e imágenes.
Sin embargo, la naturaleza cerrada y comercial de algunas de estas tecnologías puede obstaculizar su adopción universal. Aquí es donde entra en juego la comunidad de código abierto, impulsando el modelo LLaVA 1.5 como una alternativa prometedora a GPT-4 Vision.
La mecánica de LMM
Los LMM funcionan utilizando una arquitectura multicapa. Combinan un modelo previamente entrenado para codificar elementos visuales, un modelo de lenguaje grande (LLM) para descifrar y responder a las instrucciones del usuario, y un conector multimodal para conectar la visión y el lenguaje.
Su entrenamiento se lleva a cabo en dos etapas: una primera fase de alineación visión-lenguaje, seguida de un ajuste fino para responder a las solicitudes visuales. Este proceso, aunque eficiente, suele requerir un uso intensivo de recursos computacionales y requiere una base de datos rica y precisa.
Las ventajas de LLaVA 1.5
LLaVA 1.5 se basa en el modelo CLIP para la codificación visual y Vicuña para el lenguaje. A diferencia del modelo original, LLaVA, que utilizaba las versiones de texto de ChatGPT y GPT-4 para el ajuste visual, LLaVA 1.5 va más allá al conectar el modelo de lenguaje y el codificador visual a través de un perceptrón multicapa (MLP). Esto enriquece su base de datos de capacitación con preguntas y respuestas visuales. Esta actualización, que incluye aproximadamente 600.000 ejemplos, permitió a LLaVA 1.5 superar a otros LMM de código abierto en 11 de 12 puntos de referencia multimodales.
El futuro de los LMM de código abierto
La demostración online de LLaVA 1.5, accesible a todos, muestra resultados prometedores incluso con un presupuesto limitado. Sin embargo, queda una advertencia: el uso de los datos generados por ChatGPT limita su uso a fines no comerciales.
A pesar de esta limitación, LLaVA 1.5 abre una perspectiva sobre el futuro de los LMM de código abierto. Su rentabilidad, su capacidad para generar datos de entrenamiento escalables y su eficiencia a la hora de ajustar las instrucciones visuales lo convierten en un preludio de futuras innovaciones.
LLaVA 1.5 es sólo el primer paso de una melodía que resonará al ritmo del progreso de la comunidad de código abierto. Al anticipar modelos más eficientes y accesibles, podemos imaginar un futuro en el que la tecnología de IA generativa esté al alcance de todos, revelando el potencial ilimitado de la inteligencia artificial.