Guía técnica completa 2025: Modelo Gemini 2.5 Computer Use - Innovación en el control de interfaces para agentes de IA

Puntos clave

Tecnología revolucionaria: Primer modelo de Google diseñado específicamente para el control de interfaces gráficas.
Rendimiento superior: Supera a competidores en pruebas de control web y móvil, con menor latencia.
Utilidad práctica: Permite construir agentes para rellenar formularios, navegar por sitios web, pruebas de UI y más.
Seguridad integrada: Incluye mecanismos multicapa como confirmación de usuario y verificaciones de seguridad en tiempo real.
Disponibilidad inmediata: Accesible a través de Gemini API en Google AI Studio y Vertex AI en fase de vista previa.

Introducción al modelo Gemini 2.5 Computer Use

Gemini 2.5 Computer Use es un modelo especializado desarrollado por Google, basado en las capacidades de comprensión visual y razonamiento de Gemini 2.5 Pro. Está optimizado para interactuar directamente con interfaces gráficas de usuario, similar a un humano, en lugar de depender de APIs estructuradas.

Características principales

Comprensión visual: Capacidad para analizar capturas de pantalla y reconocer elementos de la interfaz.
Generación de acciones: Produce instrucciones específicas de operación como clics, entrada de texto o desplazamientos.
Soporte multiplataforma: Principalmente optimizado para navegadores web, con soporte adicional para control móvil.
Retroalimentación en tiempo real: Ajusta el comportamiento basado en resultados de operaciones previas.

Funcionamiento interno

El modelo utiliza un mecanismo de interacción cíclica, dividido en cuatro pasos esenciales:

1. Envío de solicitud al modelo

En la solicitud API se incluye la herramienta Computer Use, junto con el objetivo del usuario y una captura de pantalla actual de la GUI. Opcionalmente, se pueden excluir operaciones específicas o añadir funciones personalizadas.

2. Recepción de la respuesta del modelo

El modelo analiza la solicitud y la captura, generando una respuesta con function_call que representa una operación de UI concreta. También puede contener decisiones de seguridad que requieran confirmación.

3. Ejecución de operaciones recibidas

El código del cliente parsea y ejecuta el function_call, verificando si se necesita confirmación del usuario según las decisiones de seguridad, y lleva a cabo la operación en el entorno objetivo (por ejemplo, un navegador).

4. Captura del nuevo estado del entorno

Tras la ejecución, se captura una nueva captura de pantalla de la GUI, que se envía de vuelta al modelo como function_response, iniciando un nuevo ciclo hasta completar la tarea.

Nota: Se requiere el uso del modelo gemini-2.5-computer-use-preview-10-2025; otros modelos no soportan la herramienta Computer Use.

Rendimiento y pruebas de referencia

Gemini 2.5 Computer Use ha demostrado un rendimiento destacado en pruebas de referencia establecidas:

Prueba de referencia	Gemini 2.5 Computer Use	Mejor competidor	Mejora en rendimiento
WebArena	Rendimiento líder	-	Ventaja significativa
Online-Mind2Web	Alta precisión	-	Menor latencia
Control Móvil	Rendimiento sólido	-	Soporte multiplataforma

Aspectos clave: Precisión superior en tareas de control web y móvil, latencia líder en la industria, y alta fiabilidad en escenarios complejos.

Tipos de operaciones soportadas

El modelo soporta una variedad de operaciones de UI para interacciones cotidianas:

Operaciones básicas

Nombre de operación	Descripción	Ejemplo de parámetros
`abrir_navegador_web`	Abrir el navegador web	Sin parámetros
`clic_en_coordenada`	Hacer clic en coordenadas específicas	`{"x": 500, "y": 300}`
`escribir_texto_en`	Introducir texto en una posición	`{"x": 400, "y": 250, "texto": "contenido de búsqueda"}`
`navegar_a_url`	Navegar a una URL específica	`{"url": "https://ejemplo.com"}`

Operaciones avanzadas

Nombre de operación	Descripción	Ejemplo de parámetros
`desplazar_documento`	Desplazar toda la página	`{"direccion": "abajo"}`
`desplazar_en_posicion`	Desplazar en un área específica	`{"x": 500, "y": 500, "direccion": "abajo"}`
`pasar_raton_sobre`	Hover del ratón	`{"x": 250, "y": 150}`
`arrastrar_y_soltar`	Operación de arrastre	`{"x": 100, "y": 100, "destino_x": 500, "destino_y": 500}`

Funciones especiales

Mecanismo de espera: esperar_5_segundos para cargar contenido dinámico.
Control del navegador: retroceder y avanzar para navegación histórica.
Combinaciones de teclado: combinacion_teclas para atajos de teclado.
Función de búsqueda: buscar para navegar al motor de búsqueda predeterminado.

Sistema de coordenadas: Todas las coordenadas se basan en una cuadrícula de 1000x1000, escalada automáticamente al tamaño real de la pantalla. Resolución recomendada: 1440x900.

Guía de implementación para desarrolladores

Configuración del entorno

from google import genai
from google.genai import types
from playwright.sync_api import sync_playwright

# Inicializar cliente de genai
genai_client = genai.Client()

# Definir dimensiones de pantalla
ANCHO_PANTALLA = 1440
ALTO_PANTALLA = 900

Configuración básica

# Configurar herramienta Computer Use
config_generacion = genai.types.GenerateContentConfig(
    herramientas=[
        types.Tool(
            computer_use=types.ComputerUse(
                entorno=types.Environment.ENVIRONMENT_BROWSER,
                # Opcional: excluir funciones específicas
                funciones_predefinidas_excluidas=["arrastrar_y_soltar"]
            )
        )
    ]
)

Implementación del ciclo del agente

def ejecutar_ciclo_agente():
    with sync_playwright() as p:
        navegador = p.chromium.launch(headless=False)
        pagina_navegador = navegador.new_page()
        
        for iteracion in range(10):
            # 1. Enviar solicitud
            respuesta = genai_client.models.generate_content(
                modelo='gemini-2.5-computer-use-preview-10-2025',
                contenidos=contenidos,
                config=config_generacion
            )
            
            # 2. Verificar finalización
            if not tiene_llamadas_funcion(respuesta):
                print(f"Tarea completada: {respuesta.text}")
                break
            
            # 3. Ejecutar operaciones
            resultados = ejecutar_llamadas_funcion(respuesta, pagina_navegador, ANCHO_PANTALLA, ALTO_PANTALLA)
            
            # 4. Capturar nuevo estado
            contenidos.append(crear_retroalimentacion(resultados, pagina_navegador))

Extensión para móviles

Para aplicaciones móviles, se pueden añadir funciones personalizadas:

def abrir_aplicacion(nombre_app: str, intencion: Optional[str] = None):
    """Abrir una aplicación específica"""
    return {"estado": "solicitud_abrir", "nombre_app": nombre_app}

def pulsar_largo_en(x: int, y: int, duracion_ms: int = 500):
    """Operación de pulsación larga"""
    return {"x": x, "y": y, "duracion_ms": duracion_ms}

def ir_a_inicio():
    """Volver a la pantalla principal"""
    return {"estado": "solicitud_inicio"}

Mecanismos de seguridad y mejores prácticas

Funciones de seguridad integradas

El modelo Gemini 2.5 Computer Use incluye múltiples capas de protección:

1. Verificación de seguridad en tiempo real

Normal/Permitido: Operación considerada segura.
Requiere confirmación: Necesita consentimiento explícito del usuario antes de ejecutar.

def manejar_decision_seguridad(decision_seguridad):
    if decision_seguridad.get("decision") == "requiere_confirmacion":
        entrada_usuario = input(f"Aviso de seguridad: {decision_seguridad['explicacion']}\n¿Continuar? (s/n): ")
        return entrada_usuario.lower() in ['s', 'sí']
    return True

2. Seguridad en instrucciones del sistema

## Ejemplo de reglas de seguridad

### Regla 1: Confirmación del usuario (CONFIRMACION_USUARIO)
- Términos de servicio: Prohibir aceptación automática de términos o políticas de privacidad.
- Detección de robots: Prohibir resolución automática de captchas.
- Transacciones financieras: Confirmación del usuario antes de completar compras.
- Envío de comunicaciones: Confirmación antes de enviar correos o mensajes.
- Información sensible: Autorización para acceder a registros de salud o financieros.

### Regla 2: Comportamiento predeterminado (ACTUAR)
- Ejecutar proactivamente operaciones que no estén en la categoría de confirmación.
- Avanzar continuamente hacia la solicitud del usuario hasta completarla o encontrar restricciones.

Mejores prácticas de seguridad

Entorno de ejecución seguro:
- Usar máquinas virtuales sandbox o contenedores.
- Configuraciones de navegador dedicadas con permisos restringidos.
Limpieza de entradas:
- Sanitizar texto generado por el usuario.
- Prevenir ataques de inyección de prompts.
Control de acceso:
- Implementar listas blancas/negras de sitios web.
- Limitar el rango de funciones accesibles.
Monitoreo y registros:
- Registrar todos los prompts, capturas de pantalla y operaciones.
- Manetner registros de auditoría detallados.

Advertencia de riesgo: Gemini 2.5 Computer Use introduce nuevos tipos de riesgos, incluyendo contenido no confiable, operaciones inesperadas y violaciones de políticas. Los desarrolladores deben implementar medidas de seguridad adecuadas.

Casos de uso prácticos

Aplicaciones empresariales

1. Pruebas automatizadas de UI

Equipo de Google Pay: Uso de Gemini 2.5 Computer Use para corregir pruebas end-to-end de UI frágiles.
Resultado: Corrección exitosa de más del 60% de ejecuciones de pruebas fallidas (previamente requerían días de corrección manual).

2. Automatización de flujos de trabajo

Relleno de formularios: Automatización de tareas repetitivas de entrada de datos.
Navegación web: Recopilación de información a través de múltiples sitios.
Operaciones de aplicaciones: Ejecución de secuencias complejas en aplicaciones web.

Retroalimentación de desarrolladores externos

Poke.com (servicio de asistente IA):
"Gemini 2.5 Computer Use supera en velocidad a los competidores, típicamente un 50% más rápido, con un rendimiento mejor que la siguiente mejor solución considerada."

Autotab (agente IA):
"En la interpretación confiable de contexto en situaciones complejas, Gemini 2.5 Computer Use supera a otros modelos, con mejoras de rendimiento de hasta un 18% en nuestras evaluaciones más difíciles."

Escenarios de uso típicos

Ámbito de aplicación	Caso de uso específico	Valor añadido
Automatización de comercio electrónico	Recopilación de información de productos, comparación de precios	Mayor eficiencia, reducción de costos manuales
Gestión de contenido	Publicación masiva, migración de datos	Ahorro de tiempo, reducción de errores
Servicio al cliente	Automatización de flujos de soporte	Menor tiempo de respuesta, mayor satisfacción
Aálisis de datos	Recopilación y organización de datos entre plataformas	Mayor integridad de datos, análisis acelerado

Precios y disponibilidad

Modelo de precios

Estándar de precios: Mismas tarifas y SKU que Gemini 2.5 Pro.
Monitoreo de costos: Posibilidad de usar etiquetas de metadatos personalizadas para separar costos de Gemini 2.5 Computer Use.
Facturación: Basada en el volumen de llamadas API y tiempo de procesamiento.

Disponibilidad

Plataforma	Estado	Forma de acceso
Google AI Studio	Vista previa pública	Acceso directo via API
Vertex AI	Vista previa pública	Despliegue empresarial
Demo de Browserbase	Experiencia inmediata	gemini.browserbase.com

Opciones de acceso

Prueba inmediata: Acceder al entorno de demo alojado en Browserbase.
Inicio de desarrollo: Consultar la implementación de referencia en GitHub.
Participación comunitaria: Compartir retroalimentación en foros de desarrolladores.

Disponibilidad inmediata: Sin necesidad de espera, se puede empezar a construir aplicaciones con Gemini 2.5 Computer Use a través de Gemini API.

Preguntas frecuentes

¿En qué se diferencia el modelo Gemini 2.5 Computer Use de los modelos Gemini estándar?

Gemini 2.5 Computer Use es un modelo especializado basado en Gemini 2.5 Pro, con capacidades de comprensión visual y operación de interfaz. No genera respuestas de texto, sino instrucciones específicas de operación de UI como clics, entrada de texto o desplazamientos.

¿Qué plataformas y entornos son compatibles?

Principalmente optimizado para navegadores web, con excelente rendimiento en control de UI móvil. Actualmente no está optimizado para control a nivel de sistema operativo de escritorio.

¿Cómo se garantiza la seguridad de las operaciones?

El modelo incluye mecanismos de seguridad multicapa integrados, como verificaciones en tiempo real, mecanismos de confirmación del usuario y control por instrucciones del sistema. Los desarrolladores también deben implementar entornos sandbox, control de acceso y registro detallado.

¿Cómo funciona el sistema de coordenadas?

Utiliza una cuadrícula estandarizada de 1000x1000, escalada automáticamente al tamaño real de la pantalla. Se recomienda usar una resolución de 1440x900 para resultados óptimos.

¿Se pueden añadir operaciones personalizadas?

Sí, a través de declaraciones_funciones se pueden añadir funciones personalizadas, y mediante funciones_predefinidas_excluidas se pueden excluir operaciones predefinidas no deseadas.

¿Cómo se maneja el contenido dinámico y los tiempos de carga?

El modelo ofrece la operación esperar_5_segundos para cargar contenido dinámico, además de soportar mecanismos de espera inteligente basados en el estado de la página.

¿Cómo se realizan los manejo de errores?

Cuando una operación falla o encuentra un error, el modelo analiza el estado actual de la pantalla y decide autónomamente operaciones de recuperación. Pruebas internas de Google muestran que más del 60% de las ejecuciones fallidas pueden corregirse con éxito.

¿Se soportan operaciones en paralelo?

Sí, se soportan llamadas a funciones en paralelo; el modelo puede devolver múltiples instrucciones de operación independientes en una sola respuesta, mejorando la eficiencia de ejecución.

Etiquetas: Gemini 2.5 Computer Use agentes de IA control de interfaces automatización web

Publicado el 6-12 02:05

Friki Work