Google DeepMind reinventa el cursor del ratón: lo ha combinado con la IA

Sports News » Google DeepMind reinventa el cursor del ratón: lo ha combinado con la IA

40 seconds ago 1

Preview Google DeepMind reinventa el cursor del ratón: lo ha combinado con la IA

DeepMind, la división de inteligencia artificial de Google, ha presentado una innovadora propuesta para reinventar el puntero o cursor del ratón: añadirle inteligencia artificial. El objetivo de Google es transformar el cursor del ratón en una capa de IA contextual. Esta idea surge de la observación de que el cursor del ratón ha permanecido prácticamente inalterado durante décadas, limitado a las funciones de señalar, seleccionar y hacer clic. DeepMind busca que el cursor sea capaz de comprender qué estamos señalando, su relevancia y la acción que deseamos realizar a continuación.

Según DeepMind, el enfoque clave reside en invertir la dinámica actual entre el usuario y la IA. Actualmente, es común abrir una ventana de chatbot, copiar contenido, proporcionar el contexto y redactar una orden detallada. Google propone un enfoque inverso: que la IA se integre directamente en las aplicaciones, documentos, páginas web, imágenes, mapas o flujos de trabajo que el usuario está utilizando, saliendo de su “caja”. En lugar de escribir instrucciones extensas, bastaría con apuntar a un elemento en la pantalla y dar una indicación en lenguaje natural. Por ejemplo, se podría pedir información sobre un edificio en una imagen o solicitar una acción sobre un fragmento de contenido específico.

Page Contents

La visión de Google DeepMind para un cursor de ratón fusionado con IA

Google DeepMind estructura esta visión de un cursor de ratón con IA en cuatro principios fundamentales:

Mantener el flujo de trabajo: Evitar que el usuario tenga que alternar constantemente entre la aplicación en uso y la IA.
“Mostrar y decir“: Combinar el gesto de señalar con una instrucción breve para que el sistema capture automáticamente el contexto visual y semántico.
Aprovechar expresiones humanas: Utilizar pronombres como “esto” o “aquello”, que son ambiguos para un ordenador pero naturales cuando se acompañan de un gesto.
Convertir píxeles en entidades accionables: Traducir elementos en pantalla como fechas, objetos, lugares, recetas, tablas, fragmentos de código o imágenes en información que la IA pueda entender y manipular.

Los ejemplos proporcionados por Google son ilustrativos: señalar un PDF y solicitar un resumen en viñetas para pegarlo en un correo electrónico. Pasar el cursor sobre una tabla y pedir su representación gráfica. Seleccionar una receta y solicitar la duplicación de los ingredientes. O transformar una nota manuscrita en una lista de tareas. La intención no es solo que Gemini “vea” la pantalla, sino que sea capaz de transformar el contenido visual en acciones útiles sin requerir descripciones extensas por parte del usuario.

Es importante destacar que esta iniciativa va más allá de la investigación. Google ya está implementando parte de estos principios en productos reales. DeepMind ha anunciado que, a partir de ahora, Gemini en Chrome puede responder preguntas sobre partes específicas de una página web utilizando el cursor. Además, Google está desarrollando Magic Pointer para los futuros portátiles Googlebook, unos Chromebooks diseñados en torno a Gemini Intelligence.

Google integrará más IA en su ecosistema

Las funcionalidades del cursor con IA estarán principalmente vinculadas a los nuevos portátiles Googlebook y su sistema operativo Aluminium OS. Por lo tanto, estas funciones inteligentes debutarán en estos dispositivos portátiles, y no estarán disponibles en portátiles con sistemas operativos diferentes como Windows 11, macOS o Linux.

Este avance se enmarca dentro de una estrategia más amplia: Gemini Intelligence, una capa de IA proactiva para Android y otros dispositivos del ecosistema de Google. La compañía prevé automatizar tareas entre aplicaciones, resumir y comparar contenido en Chrome, rellenar formularios complejos con información de aplicaciones conectadas, convertir dictados desordenados en texto pulido con Rambler y crear widgets personalizados mediante lenguaje natural. En esencia, la IA se conectará a todas nuestras aplicaciones y herramientas personales.

En Android, el despliegue comenzará este verano en los últimos dispositivos Samsung Galaxy y Google Pixel, y posteriormente se extenderá a relojes, coches, gafas y portátiles.

¿Tiene sentido reinventar algo que el usuario no ha pedido?

Microsoft ya ha introducido Click to Do en ordenadores compatibles con Copilot+, una función que identifica texto e imágenes en pantalla para ofrecer acciones, con análisis local y accesos directos. Apple, por su parte, ha ampliado Visual Intelligence para que el iPhone pueda buscar y actuar sobre el contenido en pantalla, incluyendo objetos, eventos o búsquedas visuales.

La particularidad de Google radica en el énfasis en el cursor con IA como interfaz universal. Mientras Microsoft propone una capa de acciones sobre la pantalla y Apple se enfoca en la captura o análisis visual, Google busca que el cursor, el gesto de apuntar y la voz funcionen como una única interfaz multimodal. Si se implementa correctamente, esto reducirá significativamente la necesidad de escribir prompts. Sin embargo, una implementación deficiente podría resultar en una capa intrusiva, molesta o excesivamente dependiente de la correcta interpretación contextual por parte del modelo. Además, existe la preocupación por la necesidad de una conexión a internet permanente o la ejecución local de modelos de IA, lo que podría tener un gran impacto en la autonomía de los dispositivos.

Para que un cursor con IA sea verdaderamente útil, debe ser capaz de comprender con precisión qué parte de la pantalla es relevante, cuándo debe intervenir y cuándo debe permanecer inactivo. También será crucial que explique claramente qué datos está analizando, qué se procesa localmente, qué se envía a la nube y qué permisos tiene para actuar en nombre del usuario. Google reitera que Gemini Intelligence mantendrá al usuario en control, con acciones iniciadas por solicitud del usuario y confirmación final en tareas sensibles.