
updated at: September 2024
Un modelo de IA multimodal potente y de código abierto que revoluciona la comprensión visual
Molmo es un modelo de IA multimodal de vanguardia desarrollado por el Instituto Allen de Inteligencia Artificial (Ai2). Va más allá de la comprensión visual tradicional para proporcionar información práctica mediante la interpretación de las imágenes y la posibilidad de interactuar con el mundo real. La familia Molmo incluye varios modelos, siendo el más grande, la versión con 72 parámetros, que funciona a la par de los modelos patentados como el GPT-4V y el Gemini 1.5.
AI Collection Mejores opciones:
Robot de chat Selecciones de categoría:
información adicional
Presentamos Molmo: una nueva era en la IA multimodal
Molmo es un modelo de IA multimodal de vanguardia desarrollado por el Instituto Allen de Inteligencia Artificial (Ai2). Va más allá de la comprensión visual tradicional para proporcionar información práctica mediante la interpretación de las imágenes y la posibilidad de interactuar con el mundo real. La familia Molmo incluye varios modelos, siendo el más grande, la versión con 72 parámetros, que funciona a la par de los modelos patentados como el GPT-4V y el Gemini 1.5. Sin embargo, Molmo destaca por su accesibilidad, ya que es totalmente de código abierto y lo suficientemente eficiente como para funcionar en dispositivos personales.
Las excepcionales capacidades visuales de Molmo le permiten entender imágenes, diagramas e interfaces de usuario complejos. Puede señalar con precisión elementos específicos de estas imágenes, lo que la convierte en una herramienta sólida para aplicaciones como agentes web y robótica. Lo que diferencia a Molmo es su capacidad para tomar acciones en el mundo real basándose en su comprensión visual, lo que abre una nueva generación de posibilidades en el desarrollo de la IA.
Características principales de Molmo
Molmo ofrece funciones de última generación que la convierten en una herramienta potente para desarrolladores e investigadores. Una de sus características más destacadas es su excepcional comprensión de las imágenes, que le permite interpretar con precisión los datos visuales, que van desde objetos simples hasta gráficos y menús complejos. El modelo también puede identificar los elementos de la interfaz de usuario e interactuar con ellos, lo que lo convierte en un valioso recurso para los desarrolladores que crean agentes web o herramientas de automatización.
Otra característica importante de Molmo es su eficiencia. A diferencia de muchos otros modelos grandes que requieren enormes cantidades de datos y recursos computacionales, Molmo se basa en un conjunto de datos muy seleccionado de menos de un millón de imágenes. Este enfoque centrado, combinado con su naturaleza de código abierto, permite a Molmo ofrecer un rendimiento potente y, al mismo tiempo, ser accesible para la comunidad de IA en general.
Cerrar la brecha entre los modelos de IA abiertos y cerrados
Molmo es un claro ejemplo de cómo los modelos de IA de código abierto pueden competir con las soluciones patentadas. El modelo de 72 B parámetros no solo coincide con las capacidades de los sistemas cerrados más caros, sino que también los supera en algunos puntos de referencia. Esto demuestra que los modelos más pequeños y eficientes, como Molmo, pueden ofrecer resultados de alta calidad sin los enormes costes y requisitos de datos que normalmente se asocian al desarrollo de la IA patentada.
Al hacer que Molmo sea de código abierto, Ai2 cierra la brecha entre los modelos de IA abiertos y cerrados. Los desarrolladores, los investigadores y los entusiastas de la IA ya pueden acceder al código fuente, a los datos de entrenamiento y a las pesas de los modelos de Molmo, lo que les permite contribuir a sus capacidades y desarrollarlas. Esta medida fomenta la innovación en la comunidad de IA y garantiza que las potentes herramientas de IA sigan siendo accesibles para todos.
Utilización eficiente de los datos para un rendimiento superior
Una de las principales innovaciones de Molmo es el uso eficiente de los datos. En lugar de confiar en enormes conjuntos de datos con miles de millones de imágenes, Ai2 se centró en la calidad más que en la cantidad, utilizando un conjunto de datos de solo 600 000 imágenes. Este conjunto de datos fue seleccionado y anotado meticulosamente por anotadores humanos, lo que produjo descripciones de imágenes muy precisas y conversacionales. Este enfoque permite a Molmo realizar tareas tan complejas como contar objetos o identificar los estados emocionales con precisión, a la vez que se entrena de forma más rápida y económica que sus competidores.
La novedosa habilidad de Molmo para señalar partes específicas de las imágenes mejora aún más su utilidad. Por ejemplo, puede contar los objetos de una foto e indicar visualmente cada uno de ellos poniendo un punto en los elementos pertinentes. Esta capacidad de acción inmediata abre nuevas posibilidades para las aplicaciones de IA, desde simples tareas de recuento hasta navegar por las interfaces web sin necesidad de analizar el código subyacente.
Potenciar a la comunidad de la IA con el acceso abierto
Molmo es más que un modelo de IA potente, representa un cambio en la forma en que se desarrollan y comparten las herramientas de IA. La decisión de Ai2 de dar a conocer al público las ponderaciones, el código y los conjuntos de datos de los modelos de Molmo marca un importante paso adelante en la democratización del acceso a la tecnología de IA más avanzada. Este nivel de apertura permite a los desarrolladores de todos los orígenes aprovechar las capacidades de Molmo en sus propios proyectos sin necesidad de invertir en costosos sistemas propietarios.
Al hacer que Molmo sea accesible para todo el mundo, Ai2 fomenta un entorno colaborativo en el que los desarrolladores e investigadores puedan innovar libremente. Ya sea que estés creando un agente web, creando una nueva aplicación basada en la IA o realizando una investigación, Molmo ofrece las herramientas y los recursos para ampliar los límites de lo que es posible en la IA. Este modelo de código abierto no es solo un avance tecnológico, sino una herramienta poderosa para el futuro del desarrollo de la IA.





