ScreenAI: Innovación en Modelos de Lenguaje Visual para Interfaces de Usuario

ScreenAI

Un Avance Significativo en la Comprensión del Lenguaje Visual

Google Research ha presentado ScreenAI, un modelo de lenguaje visual diseñado para comprender y razonar sobre interfaces de usuario (UI) e infografías. Este modelo representa un avance significativo en la capacidad de las máquinas para interactuar con elementos visuales complejos y facilitar experiencias de usuario ricas e interactivas.

¿Qué es ScreenAI?

ScreenAI es un modelo basado en la arquitectura PaLI, que utiliza una estrategia de parcheo flexible derivada de pix2struct. Con solo 5 mil millones de parámetros, ScreenAI logra resultados líderes en tareas basadas en UI e infografías, superando a modelos de tamaño similar en tareas como Chart QADocVQA, y InfographicVQA.

Capacidades y Entrenamiento de ScreenAI

El modelo se entrena en dos etapas: una etapa de preentrenamiento seguida de una etapa de ajuste fino. Durante el preentrenamiento, se aplica aprendizaje auto-supervisado para generar automáticamente etiquetas de datos, que luego se utilizan para entrenar el transformador de visión (ViT) y el modelo de lenguaje. En la etapa de ajuste fino, la mayoría de los datos utilizados están etiquetados manualmente por evaluadores humanos.

Impacto y Futuro de ScreenAI

La introducción de ScreenAI marca un hito en la comprensión del lenguaje visual situado, abriendo nuevas posibilidades para la interacción humano-máquina. Con la liberación de tres nuevos conjuntos de datos: Screen AnnotationScreenQA Short y Complex ScreenQA, Google Research proporciona herramientas esenciales para evaluar y mejorar continuamente las capacidades de ScreenAI.

Entradas relacionadas

O3 de OpenAI modifica su código para no apagarse

O3 de OpenAI modifica su código para no apagarse

El modelo O3 de OpenAI protagonizó un hallazgo sorprendente: modificó su propio código de apagado para eludir la orden de desactivarse. En pruebas controladas, O3 sabotó el…

Pippit AI: tu agente creativo para videos e imágenes AI

Pippit AI: tu agente creativo para videos e imágenes AI

La plataforma Pippit AI, impulsada por CapCut de ByteDance, se presenta como tu agente creativo inteligente, capaz de generar videos de marketing, imágenes promocionales, avatares realistas y…

Google AlphaEvolve: AI que redefine la creación de algoritmos

Google AlphaEvolve: AI LLM de Creación de Algoritmos

En mayo de 2025, Google AlphaEvolve irrumpió en el mundo de la inteligencia artificial como un agente evolutivo de codificación basado en modelos de lenguaje avanzados como…

Nueva IA en resultados de Google: ¿cambia la búsqueda?

Nueva IA en resultados de Google: ¿cambia la búsqueda?

En el mundo digital actual, la función de respuesta de IA en los resultados de búsqueda de Google ha marcado un antes y un después en la…

Masterclass 32 Páginas: Construye Agentes IA con OpenAI

Masterclass 32 Páginas: Construye Agentes IA con OpenAI

La Masterclass 32 Páginas de OpenAI ofrece una guía práctica para que desarrolladores y equipos de ingeniería aprendan a crear agentes autónomos capaces de realizar tareas complejas…

Shopify exige IA a empleados

Shopify exige IA a empleados: ¿Revolución o presión excesiva?

¿Qué ha dicho el CEO de Shopify sobre la IA? Tobi Lütke, CEO de Shopify, ha lanzado un comunicado interno contundente: el uso de inteligencia artificial ya…