«Hola contraseña en la ventana emergente que aparece en el cuadrante inferior izquierdo de la pantalla y rellena XUS&(#($J, y pulsa Enter».
Divertido, ¿eh? No, gracias. Simplemente moveré mi mouse barato y escribiré los 12 caracteres en mi teclado, en lugar de decir la contraseña en voz alta en mi espacio de trabajo compartido.
Es genial ver que ChatGPT entiende tu comando de voz, reserva una entrada barata para que ocho personas vean un partido de fútbol y te lleva a la pantalla de pago. Pero bueno, ¿le confiarás la contraseña? ¿O no escribirá la contraseña con un teclado físico?
Imagínese apostar por la IA, sólo para darse cuenta de que el último paso, en el que REALMENTE necesitas un teclado o un mouse, no es posible, y ahora estás atascado. Pero esa es exactamente la pregunta que muchos se han estado haciendo después de ver llamativos videos de agentes de IA y automatización de empresas como Google, OpenAI y Anthropic.
Es una pregunta legítima
La IA fue el tema general en el evento I/O de Google a principios de este año. Al final de la keynote, estaba convencido de que los smartphones Android no van a volver a ser los mismos. Y por extensión, cualquier plataforma en la que Google Maps mientras estás sentado en un coche.
La demostración más impresionante fue Project Mariner, y el siguiente prototipo de investigación de Project Astra. Piensa en ello como un asistente conversacional de próxima generación que te hará hablar y hacer cosas reales, sin tener que tocar la pantalla ni levantar el teclado. Puede cambiar sus consultas de un manual de alojado en el sitio web de una marca a videos instructivos de YouTube, sin tener que repetir el contexto.
Es casi como si el verdadero concepto de memoria hubiera llegado para la IA. En un navegador web, te reservará los billetes, llevándote a la página final donde simplemente tienes que confirmar si todos los datos son los solicitados, y procedes con el pago. Eso lleva a uno a preguntarse si el teclado y el mouse son conceptos muertos para las entradas digitales a medida que las interacciones de voz pasan a la vanguardia de la IA.
La carga del error

Ahora, por extraño que suene, su computadora ya viene con control basado en voz para navegar por el sistema operativo. En PC con Windows y macOS, puede encontrar las herramientas de por voz como parte de la suite de accesibilidad. Hay un puñado de atajos disponibles para acelerar el proceso, y también puedes crear el tuyo propio.
Con la llegada de los modelos de IA de próxima generación, estamos hablando de deshacerse del teclado y el mouse para todos, y no solo impulsarlo como una tecnología de asistencia.
Imagina una combinación de Claude Computer Use y la entrada con seguimiento ocular de los auriculares Vision Pro de Apple. En caso de que no esté familiarizado, Uso de computadoras de Anthropic es un agente de uso de computadoras. Anthropic dice que permite a la IA «usar las computadoras de la manera en que lo hacen las personas: mirando una pantalla, moviendo un cursor, haciendo clic en botones y escribiendo texto».

Ahora, piense en un escenario en el que su intención se da como voz a Claude, captada por los micrófonos integrados, y la tarea se ejecuta. Para cualquier paso final que se requiera de ti, los gestos llenan el vacío. El Vision Pro ha demostrado que los controles de seguimiento ocular son posibles y funcionan con un alto grado de precisión.
Lejos de los auriculares, la IA controlada por voz aún puede funcionar en una computadora promedio. Hume AI, en asociación con Anthropic, está construyendo un sistema llamado Empathetic Voice Interface 2 (EVI 2) que convierte los comandos de voz en entradas de computadora. Es casi como hablar con Alexa, pero en lugar de pedir brócoli, el asistente de IA entiende lo que estamos diciendo y lo convierte en una entrada de teclado o mouse.
Todo eso suena genial, pero pensemos en algunos escenarios realistas. Necesitará un teclado para realizar ediciones multimedia afinadas. Realizar cambios menores en un lienzo de codificación. Llenado de celdas en una hoja. Imagínate decir: «Oye Gémini, pon cuatro mil ochocientos noventa y cinco dólares en la celda D5 y etiquétalo como gasto de viaje aéreo».
El último paso, no el final
Si revisas las demostraciones del modo de IA en Search, el agente de Project Mariner y Gemini Live, podrás echar un vistazo a la computación por voz. Todos estos avances de la IA suenan increíblemente convenientes, hasta que dejan de serlo. Por ejemplo, ¿en qué momento se vuelve demasiado irritante decir cosas como «Vaya al cuadro de diálogo en la esquina superior izquierda y haga clic izquierdo en el botón azul que dice Confirmar«?
Es demasiado engorroso, incluso si todos los pasos anteriores fueron realizados de forma autónoma por una IA.

Y no olvidemos el elefante en la habitación. La IA tiene la costumbre de volverse loca. «En esta etapa, todavía es experimental, a veces engorroso y propenso a errores», advierte Anthropic sobre Claude Computer Use. La situación no es muy diferente a la del Operator Agent de OpenAI, o una herramienta similar del mismo nombre actualmente en desarrollo en Opera, la gente detrás de un navegador web bastante bueno.
Quitar el teclado y el mouse de una computadora impulsada por IA es como conducir un Tesla con la conducción autónoma total (FSD) habilitada, pero ya no tiene la dirección y los controles disponibles son los pedales de freno y acelerador. El coche definitivamente te llevará a algún lugar, pero debes hacerte cargo si ocurre algún evento inesperado.
En el contexto informático, piense en el solucionador de problemas, donde DEBE estar en el asiento del conductor. Pero supongamos que un modelo de IA, impulsado principalmente por la voz (y capturado por el micrófono de su máquina informática preferida), lo lleva al paso final en el que necesita cerrar el flujo de trabajo, como realizar un pago.
Incluso con keys, deberá confirmar su identidad al menos ingresando la contraseña, abriendo una aplicación de autenticación o tocando un sensor de huellas dactilares. Ningún fabricante de sistemas operativos o desarrollador de aplicaciones (especialmente en lo que respecta a la verificación de identidad) permitiría que un modelo de IA tuviera un control abierto sobre el manejo de esta tarea crítica.
Es demasiado arriesgado automatizar con un agente de IA, incluso con comodidades como las llaves de . Google suele decir que Géminis aprenderá de la memoria y de tus propias interacciones. Pero todo comienza con permitirle monitorear el uso de su computadora, que depende fundamentalmente de la entrada del teclado y el mouse. Así que sí, volvemos al punto de partida.
¿Volverse virtual? Es una larga espera
Cuando hablamos de reemplazar el mouse y el teclado de la computadora con IA (o cualquier otro avance), estamos hablando simplemente de sustituirlos por un proxy. Y luego aterrizar en un reemplazo familiar. Hay mucho material de investigación que habla sobre ratones y teclados virtuales, que se remonta al menos a una década, mucho antes de que se publicara el documento seminal de los «transformers» y empujara a la industria de la IA a la siguiente marcha.

En 2013, DexType lanzó una aplicación que aprovechó el pequeño hardware Leap Motion para permitir una experiencia de escritura virtual en el aire. No se requiere pantalla táctil ni ningún proyector láser sofisticado como el Humane AI Pin. Leap Motion murió en 2019, pero la idea no. Podría decirse que Meta es la única empresa que tiene una pila de software y hardware realista lista para una forma alternativa de entrada-salida en la computación, algo que llama interacción humano-computadora (HCI).
La compañía ha estado trabajando en dispositivos portátiles de muñeca que permiten una forma completamente diferente de control basado en gestos. En lugar de rastrear el movimiento espacial de los dedos y las extremidades, Meta utiliza una técnica llamada electromiografía (EMG). Convierte las señales nerviosas del motor eléctrico generadas en la muñeca en entrada digital para controlar dispositivos. Y sí, el cursor y la entrada del teclado son una parte muy importante del paquete.

Al mismo tiempo, Meta también afirma que estos gestos serán más rápidos que una pulsación de tecla típica, porque estamos hablando de señales eléctricas que viajan de la mano directamente a una computadora, en lugar del movimiento de los dedos. «Es una forma mucho más rápida de actuar según las instrucciones que ya envías a tu dispositivo cuando tocas para seleccionar una canción en tu teléfono, haces clic con el mouse o escribes en un teclado hoy», dice Meta.
Menos reemplazos, más reempaques
Hay dos problemas con el enfoque de Meta, con o sin IA entrando en escena. El concepto de cursor sigue estando muy presente, al igual que el teclado, aunque en formato digital. Estamos pasando de lo físico a lo virtual. El reemplazo impulsado por Meta suena muy futurista, especialmente con los modelos multimodales de IA Llama de Meta que entran en escena.
Luego está el dilema existencial. Estos wearables todavía están en el ámbito de los laboratorios de investigación. Y cuando salgan, no serán baratos, al menos durante los primeros años. Incluso las aplicaciones básicas de terceros, como WowMouse, están vinculadas a suscripciones y se ven frenadas por las limitaciones del sistema operativo.
No puedo imaginar deshacerme de mi teclado barato de $ 100 con un dispositivo experimental para la entrada basada en voz o gestos, e imaginarlo reemplazando la entrada completa del teclado y el mouse para mi flujo de trabajo diario. Y lo que es más importante, pasará un tiempo antes de que los desarrolladores adopten las entradas basadas en el lenguaje natural en sus aplicaciones. Va a ser un proceso largo y prolongado.
¿Y las alternativas? Pues ya tenemos aplicaciones como WowMouse, que convierte tu smartwatch en un centro de reconocimiento de gestos para los movimientos de los dedos y la palma de la mano. Sin embargo, solo sirve como reemplazo de los gestos de cursor y toque, y no es realmente una experiencia de teclado completa. Pero, de nuevo, permitir que las aplicaciones accedan a su teclado es un riesgo por el que protestarán los señores del sistema operativo. ¿Recuerdas los keyloggers?
Al final del día, estamos en un punto en el que las capacidades conversacionales de los modelos de IA y sus habilidades agentivas están dando un gran salto. Pero aún requerirían que pasara la línea de meta con un clic del mouse o algunas pulsaciones de teclas, en lugar de reemplazarlas por completo. Además, son demasiado engorrosos cuando puedes presionar un atajo de teclado o un mouse en lugar de narrar una larga cadena de comandos de voz.
En pocas palabras, la IA reducirá nuestra dependencia de la entrada física, pero no la reemplazará. Al menos, no para las masas.