Hace mucho, mucho tiempo, en una galaxia muy lejana, el reconocimiento de voz no funcionaba. Lo hacía para cosas muy básicas, sí, pero hablar con tu ordenador o, más tarde, con tu teléfono, no servía de mucho. A mí, por ejemplo, me daba hasta vergüenza.
Pero hablar con las máquinas parecía inevitable. Al menos es lo que nos decían desde las series y películas. El capitán Kirk lo hacía con una soltura pasmosa, y todos soñábamos con hacer lo mismo. En las pelis, por supuesto, todos seguían haciéndolo. Lo hacía el joven David Lightman en ‘Juegos de Guerra’, lo hacía Dave Bowman en ‘2001: Una odisea del espacio’ y, por supuesto, lo hizo Theodore en ‘Her’.
Aquella fue la película que probablemente mejor describió nuestro futuro a corto plazo. Por dos cosas: por hablar con las máquinas, y por enamorarnos de ellas. Hablaba de esto último hace poco en una larga conferencia en inglés con un conocido de EEUU —necesitaba consejo sobre mi visión de la IA en España para un proyecto—, y es algo de lo que ya he escrito mucho aquí en posts como ‘Tu mejor amigo será una IA‘ o ‘Los hombres que hablaban solos‘.
Pero lo primero, hablar con las máquinas, parecía seguir estando algo lejos. Y entonces, en mayo, OpenAI nos presentó GPT-4o y vimos cómo por fin la pregunta no era si hablaríamos con las máquinas. La pregunta era cuándo lo haríamos. Y viendo esas alucinantes demos, la respuesta es clara. Muy pronto.
Yo lo he hecho esta mañana.
No gracias a OpenAI. Su modelo de voz avanzado —el que presentaron en mayo— al fin está disponible, pero yo he ido a otra opción. A la de Google, que esta semana presentaba a bombo y platillo Gemini 2.0 y un montón de novedades asociadas.
Y entre todas ellas, una especialmente alucinante. Su Multimodal Live API, que permite que 1) Gemini vea lo que ve tu webcam y 2) Gemini vea tu pantalla. Y en ambos casos, la interacción con el chatbot puede ser a través de texto, pero también a través de la voz. Puedes probar estas opciones totalmente gratis en Google AI Studio, y es alucinante hacerlo.
Insisto. Es alucinante.
Yo no tuve tiempo para hacerlo hasta hoy, pero estos días veía los vídeos de la gente que lo estaba probando en Twitter y, como digo alucinaba. Es fácil entender la repercusión de esto, sobre todo porque es solo el principio de todo lo que se nos viene.
Que no es ni más ni menos que la era en la que hablaremos con las máquinas.
Lo haremos con el ordenador, como lo he hecho yo, pero también con el smartphone. En realidad hay gente que lleva haciéndolo un tiempo. Gemini y ChatGPT ofrecen este tipo interacción desde hace algunas semanas en el móvil por ejemplo, pero lo de Google va a más. Y va a más porque que vean lo que tenemos en pantalla (o lo que vemos nosostros a través de una cámara) lo cambia todo. Otra vez.
Tengo que hacer muchas, muchas más pruebas, pero lo primero que se me ha ocurrido es algo muy básico: compartir pantalla mostrándole la ventana de Microsoft Edge con mi blog, y pedirle que leyera los primeros párrafos, pero traduciéndolos directamente al inglés. Lo ha hecho de forma inmediata y casi, casi perfecta.
Para mí esto es alucinante porque es, como digo, solo el principio. Ya lo habíamos visto un poco con Anthropic y su Computer Use, pero eso va un poquito más allá, como comento un poco más adelante. El caso es que las implicaciones y aplicaciones parecen ilimitadas —para bien y para mal, me temo— y permiten que ahora que la IA puede ver lo que tú quieres que vea, puede asistirte y ayudarte en un montón de situaciones. ¿Ejemplos?
- Mucha gente yéndose a hacer una ruta turística, con los cascos puestos y el móvil apuntando a un sitio o monumento, y preguntándole a la IA que le cuente cosas sobre ese sitio. Mal rollo para los guías turísticos.
- Un desarrollador software dejando que la IA ve lo que está haciendo en pantalla para que le corrija. Buen rollo para los desarrolladores (que sobrevivan).
- Un usuario perfeccionando su inglés, conversando y pidiéndole a la IA que le diga si ha pronunciado mal una palabra o se ha expresado mal. Mal rollo para Duolingo y las academias/profes de idioma.
- Una persona en casa haciendo la receta con unas gafas tipo Meta Ray-Ban y hablando con el asistente mientras le guía en la preparación —»¿he echado suficiente sal?»—.
- Y así, hasta el infinito y más allá.
Esto es como digo solo el comienzo, porque esto de hablar con las máquinas va a ser cada vez más natural, y viendo esto yo diría que antes de que acabe la década va a haber:
- Mucha gente con gafas, porque (a pesar de lo que dije) se van a convertir en una forma fantástica de interactuar con la IA y el entorno.
- Mucha gente hablando con máquinas.
Y digo mucha por no decir toda. Y la otra gran pieza del puzzle es la de los agentes de IA, de los que no paro de hablar en Xataka pero que no solo van a hablar con nosotros, sino que van a hacer cosas por nosotros si pueden. En plan «resérvame un viaje a París el fin de semana que viene con un presupuesto X» o, como sucede con los nuevos IDEs de código como Cursor, «hazme una extensión en Firefox que me permita que todo lo que publico en Twitter se publique en Bluesky». Si es posible hacerlo, lo hará.
Y todo, como digo, hablando.
Como si fuéramos el capitán Kirk.
Alucinante.
Al final nos vamos a volver tontos y no sabremos hacer nada por nosotros mismos 🙁