ScreenAI: Innovación en Modelos de Lenguaje Visual para Interfaces de Usuario

ScreenAI

Un Avance Significativo en la Comprensión del Lenguaje Visual

Google Research ha presentado ScreenAI, un modelo de lenguaje visual diseñado para comprender y razonar sobre interfaces de usuario (UI) e infografías. Este modelo representa un avance significativo en la capacidad de las máquinas para interactuar con elementos visuales complejos y facilitar experiencias de usuario ricas e interactivas.

¿Qué es ScreenAI?

ScreenAI es un modelo basado en la arquitectura PaLI, que utiliza una estrategia de parcheo flexible derivada de pix2struct. Con solo 5 mil millones de parámetros, ScreenAI logra resultados líderes en tareas basadas en UI e infografías, superando a modelos de tamaño similar en tareas como Chart QADocVQA, y InfographicVQA.

Capacidades y Entrenamiento de ScreenAI

El modelo se entrena en dos etapas: una etapa de preentrenamiento seguida de una etapa de ajuste fino. Durante el preentrenamiento, se aplica aprendizaje auto-supervisado para generar automáticamente etiquetas de datos, que luego se utilizan para entrenar el transformador de visión (ViT) y el modelo de lenguaje. En la etapa de ajuste fino, la mayoría de los datos utilizados están etiquetados manualmente por evaluadores humanos.

Impacto y Futuro de ScreenAI

La introducción de ScreenAI marca un hito en la comprensión del lenguaje visual situado, abriendo nuevas posibilidades para la interacción humano-máquina. Con la liberación de tres nuevos conjuntos de datos: Screen AnnotationScreenQA Short y Complex ScreenQA, Google Research proporciona herramientas esenciales para evaluar y mejorar continuamente las capacidades de ScreenAI.

Entradas relacionadas

¿Quieres aprobar más fácil? Esta IA te guía paso a paso

¿Quieres aprobar más fácil? Esta IA te guía paso a paso

¿Qué es Guided Learning en Gemini? Guided Learning de Gemini es un modo educativo desarrollado por Google que transforma la forma de aprender con inteligencia artificial. A…

China propone organismo global de IA: ¿cooperación o poder?

¿Por qué China quiere liderar la gobernanza de la inteligencia artificial? La inteligencia artificial (IA) se ha convertido en el nuevo campo de batalla económico y geopolítico….

Impulsar la tecnología y los negocios desde Girona

Tras más de 25 años de experiencia tecnológica, Jordi Camps presenta un completo estudio sobre estrategias y herramientas de IA para digitales sin conocimientos técnicos, útiles para…

Google Genie 3: Descubre la IA que crea mundos 3D en segundos

Google Genie 3: Descubre la IA que crea mundos 3D en segundos

¿Qué es Google Genie 3 y por qué está causando tanto impacto? Google Genie 3 es la última creación de Google DeepMind y promete revolucionar la forma…

Sam Altman: La era dorada para crear tu propio negocio

Sam Altman: La era dorada para crear tu propio Negocio

¿Por qué Sam Altman dice que este es el mejor momento para emprender? Sam Altman, CEO de OpenAI, ha afirmado recientemente que nunca ha existido un momento…

GPT‑5 ya está aquí: descubre sus mejores novedades

GPT‑5 ya está aquí: descubre sus mejores novedades

GPT‑5 es el nuevo modelo de inteligencia artificial de OpenAI, presentado el 7 de agosto de 2025. Esta versión representa una evolución notable respecto a GPT‑4 y…