ScreenAI: Innovación en Modelos de Lenguaje Visual para Interfaces de Usuario

ScreenAI

Un Avance Significativo en la Comprensión del Lenguaje Visual

Google Research ha presentado ScreenAI, un modelo de lenguaje visual diseñado para comprender y razonar sobre interfaces de usuario (UI) e infografías. Este modelo representa un avance significativo en la capacidad de las máquinas para interactuar con elementos visuales complejos y facilitar experiencias de usuario ricas e interactivas.

¿Qué es ScreenAI?

ScreenAI es un modelo basado en la arquitectura PaLI, que utiliza una estrategia de parcheo flexible derivada de pix2struct. Con solo 5 mil millones de parámetros, ScreenAI logra resultados líderes en tareas basadas en UI e infografías, superando a modelos de tamaño similar en tareas como Chart QADocVQA, y InfographicVQA.

Capacidades y Entrenamiento de ScreenAI

El modelo se entrena en dos etapas: una etapa de preentrenamiento seguida de una etapa de ajuste fino. Durante el preentrenamiento, se aplica aprendizaje auto-supervisado para generar automáticamente etiquetas de datos, que luego se utilizan para entrenar el transformador de visión (ViT) y el modelo de lenguaje. En la etapa de ajuste fino, la mayoría de los datos utilizados están etiquetados manualmente por evaluadores humanos.

Impacto y Futuro de ScreenAI

La introducción de ScreenAI marca un hito en la comprensión del lenguaje visual situado, abriendo nuevas posibilidades para la interacción humano-máquina. Con la liberación de tres nuevos conjuntos de datos: Screen AnnotationScreenQA Short y Complex ScreenQA, Google Research proporciona herramientas esenciales para evaluar y mejorar continuamente las capacidades de ScreenAI.

Entradas relacionadas

Un solo QR para viajar por Europa: ¿avance digital o riesgo para la privacidad?

La Unión Europea quiere simplificar los viajes en tren con una nueva propuesta que permitiría utilizar un único billete digital para cruzar varios países y operadores ferroviarios….

DoorDash responde a fraude con IA: usuarios manipulan imágenes para obtener reembolsos

La inteligencia artificial está abriendo nuevas oportunidades… pero también nuevos problemas. Un caso reciente lo demuestra: una usuaria logró obtener un reembolso de DoorDash tras editar con…

Niños en Reino Unido burlan la verificación de edad con IA: el fallo que preocupa a la industria

Un nuevo problema está emergiendo en el uso de inteligencia artificial para seguridad online: niños en Reino Unido están logrando burlar sistemas de verificación de edad simplemente…

China: educación obligatoria de IA en las escuelas.

China hace obligatoria la educación en IA desde los 6 años: ¿ventaja global a largo plazo?

China vuelve a marcar el ritmo en la carrera tecnológica global. A partir de septiembre de 2025, el país ha decidido hacer obligatoria la enseñanza de inteligencia…

Google impulsa Gemini: la IA que crea archivos completos en segundos

Google acaba de dar un paso clave en la evolución de la inteligencia artificial con una actualización que transforma a Gemini en mucho más que un simple…

China made it illegal for companies to replace humans with AI systems.

China prohíbe reemplazar trabajadores con IA: ¿un nuevo modelo laboral global?

La decisión de China de limitar que las empresas reemplacen trabajadores con inteligencia artificial marca un punto de inflexión en el debate global sobre automatización. En un…