Puntos clave
- Tecnología revolucionaria: Primer modelo de Google diseñado específicamente para el control de interfaces gráficas.
- Rendimiento superior: Supera a competidores en pruebas de control web y móvil, con menor latencia.
- Utilidad práctica: Permite construir agentes para rellenar formularios, navegar por sitios web, pruebas de UI y más.
- Seguridad integrada: Incluye mecanismos multicapa como confirmación de usuario y verificaciones de seguridad en tiempo real.
- Disponibilidad inmediata: Accesible a través de Gemini API en Google AI Studio y Vertex AI en fase de vista previa.
Introducción al modelo Gemini 2.5 Computer Use
Gemini 2.5 Computer Use es un modelo especializado desarrollado por Google, basado en las capacidades de comprensión visual y razonamiento de Gemini 2.5 Pro. Está optimizado para interactuar directamente con interfaces gráficas de usuario, similar a un humano, en lugar de depender de APIs estructuradas.
Características principales
- Comprensión visual: Capacidad para analizar capturas de pantalla y reconocer elementos de la interfaz.
- Generación de acciones: Produce instrucciones específicas de operación como clics, entrada de texto o desplazamientos.
- Soporte multiplataforma: Principalmente optimizado para navegadores web, con soporte adicional para control móvil.
- Retroalimentación en tiempo real: Ajusta el comportamiento basado en resultados de operaciones previas.
Funcionamiento interno
El modelo utiliza un mecanismo de interacción cíclica, dividido en cuatro pasos esenciales:
1. Envío de solicitud al modelo
En la solicitud API se incluye la herramienta Computer Use, junto con el objetivo del usuario y una captura de pantalla actual de la GUI. Opcionalmente, se pueden excluir operaciones específicas o añadir funciones personalizadas.
2. Recepción de la respuesta del modelo
El modelo analiza la solicitud y la captura, generando una respuesta con function_call que representa una operación de UI concreta. También puede contener decisiones de seguridad que requieran confirmación.
3. Ejecución de operaciones recibidas
El código del cliente parsea y ejecuta el function_call, verificando si se necesita confirmación del usuario según las decisiones de seguridad, y lleva a cabo la operación en el entorno objetivo (por ejemplo, un navegador).
4. Captura del nuevo estado del entorno
Tras la ejecución, se captura una nueva captura de pantalla de la GUI, que se envía de vuelta al modelo como function_response, iniciando un nuevo ciclo hasta completar la tarea.
Nota: Se requiere el uso del modelo gemini-2.5-computer-use-preview-10-2025; otros modelos no soportan la herramienta Computer Use.
Rendimiento y pruebas de referencia
Gemini 2.5 Computer Use ha demostrado un rendimiento destacado en pruebas de referencia establecidas:
| Prueba de referencia | Gemini 2.5 Computer Use | Mejor competidor | Mejora en rendimiento |
|---|---|---|---|
| WebArena | Rendimiento líder | - | Ventaja significativa |
| Online-Mind2Web | Alta precisión | - | Menor latencia |
| Control Móvil | Rendimiento sólido | - | Soporte multiplataforma |
Aspectos clave: Precisión superior en tareas de control web y móvil, latencia líder en la industria, y alta fiabilidad en escenarios complejos.
Tipos de operaciones soportadas
El modelo soporta una variedad de operaciones de UI para interacciones cotidianas:
Operaciones básicas
| Nombre de operación | Descripción | Ejemplo de parámetros |
|---|---|---|
abrir_navegador_web |
Abrir el navegador web | Sin parámetros |
clic_en_coordenada |
Hacer clic en coordenadas específicas | {"x": 500, "y": 300} |
escribir_texto_en |
Introducir texto en una posición | {"x": 400, "y": 250, "texto": "contenido de búsqueda"} |
navegar_a_url |
Navegar a una URL específica | {"url": "https://ejemplo.com"} |
Operaciones avanzadas
| Nombre de operación | Descripción | Ejemplo de parámetros |
|---|---|---|
desplazar_documento |
Desplazar toda la página | {"direccion": "abajo"} |
desplazar_en_posicion |
Desplazar en un área específica | {"x": 500, "y": 500, "direccion": "abajo"} |
pasar_raton_sobre |
Hover del ratón | {"x": 250, "y": 150} |
arrastrar_y_soltar |
Operación de arrastre | {"x": 100, "y": 100, "destino_x": 500, "destino_y": 500} |
Funciones especiales
- Mecanismo de espera:
esperar_5_segundospara cargar contenido dinámico. - Control del navegador:
retrocederyavanzarpara navegación histórica. - Combinaciones de teclado:
combinacion_teclaspara atajos de teclado. - Función de búsqueda:
buscarpara navegar al motor de búsqueda predeterminado.
Sistema de coordenadas: Todas las coordenadas se basan en una cuadrícula de 1000x1000, escalada automáticamente al tamaño real de la pantalla. Resolución recomendada: 1440x900.
Guía de implementación para desarrolladores
Configuración del entorno
from google import genai
from google.genai import types
from playwright.sync_api import sync_playwright
# Inicializar cliente de genai
genai_client = genai.Client()
# Definir dimensiones de pantalla
ANCHO_PANTALLA = 1440
ALTO_PANTALLA = 900
Configuración básica
# Configurar herramienta Computer Use
config_generacion = genai.types.GenerateContentConfig(
herramientas=[
types.Tool(
computer_use=types.ComputerUse(
entorno=types.Environment.ENVIRONMENT_BROWSER,
# Opcional: excluir funciones específicas
funciones_predefinidas_excluidas=["arrastrar_y_soltar"]
)
)
]
)
Implementación del ciclo del agente
def ejecutar_ciclo_agente():
with sync_playwright() as p:
navegador = p.chromium.launch(headless=False)
pagina_navegador = navegador.new_page()
for iteracion in range(10):
# 1. Enviar solicitud
respuesta = genai_client.models.generate_content(
modelo='gemini-2.5-computer-use-preview-10-2025',
contenidos=contenidos,
config=config_generacion
)
# 2. Verificar finalización
if not tiene_llamadas_funcion(respuesta):
print(f"Tarea completada: {respuesta.text}")
break
# 3. Ejecutar operaciones
resultados = ejecutar_llamadas_funcion(respuesta, pagina_navegador, ANCHO_PANTALLA, ALTO_PANTALLA)
# 4. Capturar nuevo estado
contenidos.append(crear_retroalimentacion(resultados, pagina_navegador))
Extensión para móviles
Para aplicaciones móviles, se pueden añadir funciones personalizadas:
def abrir_aplicacion(nombre_app: str, intencion: Optional[str] = None):
"""Abrir una aplicación específica"""
return {"estado": "solicitud_abrir", "nombre_app": nombre_app}
def pulsar_largo_en(x: int, y: int, duracion_ms: int = 500):
"""Operación de pulsación larga"""
return {"x": x, "y": y, "duracion_ms": duracion_ms}
def ir_a_inicio():
"""Volver a la pantalla principal"""
return {"estado": "solicitud_inicio"}
Mecanismos de seguridad y mejores prácticas
Funciones de seguridad integradas
El modelo Gemini 2.5 Computer Use incluye múltiples capas de protección:
1. Verificación de seguridad en tiempo real
- Normal/Permitido: Operación considerada segura.
- Requiere confirmación: Necesita consentimiento explícito del usuario antes de ejecutar.
def manejar_decision_seguridad(decision_seguridad):
if decision_seguridad.get("decision") == "requiere_confirmacion":
entrada_usuario = input(f"Aviso de seguridad: {decision_seguridad['explicacion']}\n¿Continuar? (s/n): ")
return entrada_usuario.lower() in ['s', 'sí']
return True
2. Seguridad en instrucciones del sistema
## Ejemplo de reglas de seguridad
### Regla 1: Confirmación del usuario (CONFIRMACION_USUARIO)
- Términos de servicio: Prohibir aceptación automática de términos o políticas de privacidad.
- Detección de robots: Prohibir resolución automática de captchas.
- Transacciones financieras: Confirmación del usuario antes de completar compras.
- Envío de comunicaciones: Confirmación antes de enviar correos o mensajes.
- Información sensible: Autorización para acceder a registros de salud o financieros.
### Regla 2: Comportamiento predeterminado (ACTUAR)
- Ejecutar proactivamente operaciones que no estén en la categoría de confirmación.
- Avanzar continuamente hacia la solicitud del usuario hasta completarla o encontrar restricciones.
Mejores prácticas de seguridad
- Entorno de ejecución seguro:
- Usar máquinas virtuales sandbox o contenedores.
- Configuraciones de navegador dedicadas con permisos restringidos.
- Limpieza de entradas:
- Sanitizar texto generado por el usuario.
- Prevenir ataques de inyección de prompts.
- Control de acceso:
- Implementar listas blancas/negras de sitios web.
- Limitar el rango de funciones accesibles.
- Monitoreo y registros:
- Registrar todos los prompts, capturas de pantalla y operaciones.
- Manetner registros de auditoría detallados.
Advertencia de riesgo: Gemini 2.5 Computer Use introduce nuevos tipos de riesgos, incluyendo contenido no confiable, operaciones inesperadas y violaciones de políticas. Los desarrolladores deben implementar medidas de seguridad adecuadas.
Casos de uso prácticos
Aplicaciones empresariales
1. Pruebas automatizadas de UI
- Equipo de Google Pay: Uso de Gemini 2.5 Computer Use para corregir pruebas end-to-end de UI frágiles.
- Resultado: Corrección exitosa de más del 60% de ejecuciones de pruebas fallidas (previamente requerían días de corrección manual).
2. Automatización de flujos de trabajo
- Relleno de formularios: Automatización de tareas repetitivas de entrada de datos.
- Navegación web: Recopilación de información a través de múltiples sitios.
- Operaciones de aplicaciones: Ejecución de secuencias complejas en aplicaciones web.
Retroalimentación de desarrolladores externos
Poke.com (servicio de asistente IA):
"Gemini 2.5 Computer Use supera en velocidad a los competidores, típicamente un 50% más rápido, con un rendimiento mejor que la siguiente mejor solución considerada."
Autotab (agente IA):
"En la interpretación confiable de contexto en situaciones complejas, Gemini 2.5 Computer Use supera a otros modelos, con mejoras de rendimiento de hasta un 18% en nuestras evaluaciones más difíciles."
Escenarios de uso típicos
| Ámbito de aplicación | Caso de uso específico | Valor añadido |
|---|---|---|
| Automatización de comercio electrónico | Recopilación de información de productos, comparación de precios | Mayor eficiencia, reducción de costos manuales |
| Gestión de contenido | Publicación masiva, migración de datos | Ahorro de tiempo, reducción de errores |
| Servicio al cliente | Automatización de flujos de soporte | Menor tiempo de respuesta, mayor satisfacción |
| Aálisis de datos | Recopilación y organización de datos entre plataformas | Mayor integridad de datos, análisis acelerado |
Precios y disponibilidad
Modelo de precios
- Estándar de precios: Mismas tarifas y SKU que Gemini 2.5 Pro.
- Monitoreo de costos: Posibilidad de usar etiquetas de metadatos personalizadas para separar costos de Gemini 2.5 Computer Use.
- Facturación: Basada en el volumen de llamadas API y tiempo de procesamiento.
Disponibilidad
| Plataforma | Estado | Forma de acceso |
|---|---|---|
| Google AI Studio | Vista previa pública | Acceso directo via API |
| Vertex AI | Vista previa pública | Despliegue empresarial |
| Demo de Browserbase | Experiencia inmediata | gemini.browserbase.com |
Opciones de acceso
- Prueba inmediata: Acceder al entorno de demo alojado en Browserbase.
- Inicio de desarrollo: Consultar la implementación de referencia en GitHub.
- Participación comunitaria: Compartir retroalimentación en foros de desarrolladores.
Disponibilidad inmediata: Sin necesidad de espera, se puede empezar a construir aplicaciones con Gemini 2.5 Computer Use a través de Gemini API.
Preguntas frecuentes
¿En qué se diferencia el modelo Gemini 2.5 Computer Use de los modelos Gemini estándar?
Gemini 2.5 Computer Use es un modelo especializado basado en Gemini 2.5 Pro, con capacidades de comprensión visual y operación de interfaz. No genera respuestas de texto, sino instrucciones específicas de operación de UI como clics, entrada de texto o desplazamientos.
¿Qué plataformas y entornos son compatibles?
Principalmente optimizado para navegadores web, con excelente rendimiento en control de UI móvil. Actualmente no está optimizado para control a nivel de sistema operativo de escritorio.
¿Cómo se garantiza la seguridad de las operaciones?
El modelo incluye mecanismos de seguridad multicapa integrados, como verificaciones en tiempo real, mecanismos de confirmación del usuario y control por instrucciones del sistema. Los desarrolladores también deben implementar entornos sandbox, control de acceso y registro detallado.
¿Cómo funciona el sistema de coordenadas?
Utiliza una cuadrícula estandarizada de 1000x1000, escalada automáticamente al tamaño real de la pantalla. Se recomienda usar una resolución de 1440x900 para resultados óptimos.
¿Se pueden añadir operaciones personalizadas?
Sí, a través de declaraciones_funciones se pueden añadir funciones personalizadas, y mediante funciones_predefinidas_excluidas se pueden excluir operaciones predefinidas no deseadas.
¿Cómo se maneja el contenido dinámico y los tiempos de carga?
El modelo ofrece la operación esperar_5_segundos para cargar contenido dinámico, además de soportar mecanismos de espera inteligente basados en el estado de la página.
¿Cómo se realizan los manejo de errores?
Cuando una operación falla o encuentra un error, el modelo analiza el estado actual de la pantalla y decide autónomamente operaciones de recuperación. Pruebas internas de Google muestran que más del 60% de las ejecuciones fallidas pueden corregirse con éxito.
¿Se soportan operaciones en paralelo?
Sí, se soportan llamadas a funciones en paralelo; el modelo puede devolver múltiples instrucciones de operación independientes en una sola respuesta, mejorando la eficiencia de ejecución.