GPT-4o: y las máquinas hablaron

Veintiséis minutos y doce segundos bastaron. Ese es el tiempo que duró el vídeo de presentación de GPT-4o (la ‘o’ es de ‘omni’), el nuevo modelo de inteligencia artificial de OpenAI. Por si no lo habéis visto, os dejo el vídeo:

Yo os recomiendo verlo en plan un episodio de ‘Friends’. Podéis ver también las distintas demos publicadas en el canal de YouTube de OpenAI, o mejor aún, podéis echar un vistazo a ese artículo titulado «Hola GPT-4o» publicado en el blog de OpenAI, y que explica aún mejor todo lo que han hecho con este proyecto.

Que es mucho, pero sorprendentemente no donde muchos pensábamos. Esto no es un GPT-5, y de hecho la precisión del modelo, al menos en mis pruebas, es la misma que la de GPT-4. Se le nota algo más rápido y fluido, sí, pero sigue inventando alguna cosilla y cometiendo errores. Lo importante de GPT-4o no es eso.

Lo importante es que GPT-4o ha aprendido a hablar.

Pero a hablar de verdad. De forma totalmente natural, con cambios de entonación, con pausas humanas —mmm, eeeh—, con una soltura espectacular y, además, con otra cosa: una latencia mínima. Aquí no hay que esperar dos segundos a que te responda: lo hace enseguida, y puedes cortarle en medio de la frase —fantástico para yoístas— para decir cualquier otra cosa que se te ocurra. A la máquina le dará igual: ella siempre pondrá la otra mejilla y, obediente, te contestará siguiendo tus instrucciones. Lo contaba hace un ratito en Xataka.

Hay muchas demos que son reveladoras de lo que ha logrado OpenAI. Las tenéis todas especialmente fáciles de «consumir» en un hilo oficial en Twitter, pero a mí me han impresionado especialmente dos.

Math problems with GPT-4o and @khanacademy pic.twitter.com/RfKaYx5pTJ
— OpenAI (@OpenAI) May 13, 2024

La primera, esa de debajo con el creador de Khan Academy usando ChatGPT en un iPad para ejercer de profesor particular de matemáticas para su hijo (dudo que lo necesite). El vídeo de tres minutos —por favor, vedlo— es espectacular, porque ese profesor virtual actúa de forma ejemplar: sin revelar demasiados datos, tratando de ayudar a pensar, animando y celebrando la solución. Las explicaciones e instrucciones son claras, y me pregunto quién necesitará un profesor particular de mates (como de otras muchas cosas) a partir de ahora. Esto pinta a revolución en la enseñanza, como también comentaba en Xataka hoy.

@BeMyEyes with GPT-4o pic.twitter.com/nWb6sEWZlo
— OpenAI (@OpenAI) May 13, 2024

La segunda, igualmente brutal, es la que hacía que ChatGPT con GPT-4o se convirtiese en un lazarillo virtual para un ciego. La capacidad del nuevo modelo de describir aquello que capta la cámara del (en este caso) iPhone es aparentemente espectacular, y hace que las personas ciegas o con problemas serios en la vista tengan ante sí una herramienta fantástica para su día a día. Para los demás también es una opción de lo más jugosa, y aquí por ejemplo veo en peligro —entre otros— a los guías turísticos («ChatGPT, cuéntame cosas curiosas sobre ese edificio que estoy mirando»).

En ambos vídeos lo importante no es ya el hecho de que sea capaz de enseñar a un niño o de guiar a un ciego: lo importante, por si no lo habéis notado, es que ChatGPT habla casi como lo haría un ser humano. Con esa entonación, esa comprensión y esa coherencia que hacen de este modelo un verdadero candidato a que la voz al fin se convierta en sustituta del teclado y el ratón en nuestros ordenadores o los toques y gestos en la pantallas de nuestros móviles y tabletas.

Para mí esa es la gran revolución potencial de este modelo. En las demos se veía una y otra vez eso: gente hablándole a las máquinas, y máquinas hablándole a la gente. Es alucinante e inquietante al mismo tiempo, porque aunque ChatGPT no ha mejorado mucho en cosas importantes —insisto, sigue inventando y cometiendo errores—, lo ha hecho en algo clave: su usabilidad.

Es cierto que ya podíamos hablar con nuestros dispositivos: Alexa, Siri y el asistente de Google lo vienen demostrado desde hace años, pero al menos en mi caso jamás me he sentido cómodo con ellos. Me daba vergüenza hablarle a mi smartphone. Sus opciones siempre han sido limitadas, y la interacción estaba condenada a decirnos el tiempo, ponernos alguna canción o respondernos alguna curiosidad de cuando en cuando. Que yo sepa, su uso siempre ha sido anecdótico para la inmensa mayoría de la gente.

Lo que promete GPT-4o es distinto, sobre todo por esa capacidad brutal de entenderlo todo y de contestar casi instantáneamente, como si fuera una persona. Aquí la capacidad de simular empatía y hasta de captar emociones —según OpenAI, ChatGPT ahora «siente» si estás enfadado, triste o alegre, por ejemplo— es además crucial para otro campo aún más inquietante.

El de los robots que simulaban amar a las personas.

Hablé de eso hace diez años, tras ver Her, y comenté que «espero que la IA nunca llegue a ese punto en el que una persona no sepa –o más bien, no quiera– diferenciar algo real de algo artificial». Parece mentira, pero esa situación ya es una realidad desde hace tiempo con Replika, esa plataforma que te ofrece un amigo/amante virtual ideal. Uno que siempre escucha, que no desfallece y que se ajusta a tus deseos. Con GPT-4o ambas opciones se potencian, sobre todo por esa capacidad de hablar de forma tan natural. Los avatares de Replika, que ya eran convincentes para quienes los usaban —recordad, la gente se enamoró de ellos— ahora serán aún más creíbles y perfectos. Si unimos esto a su impepinable inclusión en dipositivos hardware (primero el móvil, luego unas gafas, luego quién sabe), nuestra concepción del mundo podría cambiar de forma importante.

Y entonces me preguntaré otra cosa. Una más chunga. No ya quién necesitará un profe particular o un ilustrador o un redactor o un músico o un abogado o un programador.

Me preguntaré quién necesitará un amigo, e incluso quién necesitará una persona a quien amar.

Miedo.

Imagen | JaviPas con Midjourney

Suscríbete a Incognitosis

12 comentarios en “GPT-4o: y las máquinas hablaron”

A mi lo que se me viene en la cabeza son todas las movidas de delincuencia y estafas que pueden hacer.
Imagínate te llama tu hijo que está secuestrado…
Te llama cierto funcionario y te pide la cuenta bancaria para devolverte de Hacienda…

martes, 14 mayo de 2024 a las 6:34 pm

Julian dice:

Sobre esto, ya he leido que es momento de crear esa palabra o frase clave secreta que solo ese circulo conozca para confirmar. Porque si estaremos inmersos en estafas.

miércoles, 15 mayo de 2024 a las 10:23 am
- JaviPas dice:
  
  Justo escribí un tema sobre eso en Xataka.
  
  miércoles, 15 mayo de 2024 a las 11:03 am
JaviPas dice:

El peligro está ahí, desde luego. Supongo que caerán muchos e iremos aprendiendo de los errores, como en tantos otros ámbitos previamente.

A mí si un funcionario de Hacienda me llama para decirme que me devuelve pasta yo lo invito a comer.

miércoles, 15 mayo de 2024 a las 11:02 am

Yo he flipado sinceramente, lo he visto en directo porque me olía algo y conforme ha terminado me he tirado de cabeza a probarlo y ha sido como tener una visión del futuro de repente.

Cierto es que está en pañales, cierto es que tiene sus «fallos» pero, es que me parece tan cercano ese futuro de «Her»…

Imaginemos un dispositivo en el bolsillo que sea la unidad central o en tu reloj, unos auriculares con su micrófono y unas gafas con sus cámaras que todo lo vean en todo momento… simplemente es ir hablando con tu IA y hacer tus preguntas y tus dudas que al instantes serán respondidas con toda el conocimiento de internet detrás, es que, es brutal lo que viene de camino.

martes, 14 mayo de 2024 a las 9:12 pm

JaviPas dice:

Sí. Esto pinta a algo gordo, gordo.

miércoles, 15 mayo de 2024 a las 11:01 am

Futurama, capítulo «Yo salí con una robot»:

«¡No salgan con robots! Es un mensaje del Papa Espacial»

Capítulo que en estos momentos es todavía más acertado e inicisivo.

miércoles, 15 mayo de 2024 a las 9:08 am

Land-of-Mordor dice:

*incisivo. Leñe!

miércoles, 15 mayo de 2024 a las 9:08 am
JaviPas dice:

🙂

miércoles, 15 mayo de 2024 a las 11:00 am

Muy interesante lo de la accesibilidad.

Lei que segun la regulacion europea este tipo de AI con connotaciones de sentimientos no esta permitida porque imprime algo que no es claro y que puede sezgar a la persona.

miércoles, 15 mayo de 2024 a las 10:23 am

JaviPas dice:

Pues nada. En Europa no tendremos amantes robóticos.

Así que usaremos VPNs.

miércoles, 15 mayo de 2024 a las 11:00 am

Hace un tiempo, quizás un año, Be My Eyes comenzó a soportar AI, en ese momento con un GPT 4 al que le podías pasar una foto, sea que la sacabas a mano, sea que era algo que se enviaba por mensajería en una conversación cualquiera y querías saber de qué demonios se estaba riendo el grupo de turno sin comenzar a preguntar por ahí, sino a la AI. Lo cierto es que el avance en el tema de accesibilidad con la AI es impresionante. En su oportunidad me volvía loco porque «Seeing AI», siendo un programa que ya reconocía en tiempo real, no era utilizable fuera del mercado europeo y es que maldita sea, en Chile se hablaba español también, hasta que llegó y uno se entretuvo enfocando cosas con la cámara, en esos tiempos textos breves, colores, billetes, aunque con la limitación de entregar un contexto seleccionando en la interfaz que estabas enfocando para que el programa respondiera, algo que pintaba maneras pero en general requería más trabajo que el resultado obtenido. Por lo que voy leyendo, Be My Eyes ahora funcionaría en tiempo real, como lo hace Seeing AI,, pero sin necesidad de indicarle el objeto que quieres que reconozca… Alucinante.
Pensándolo, Seeing AI es quizás una de las cosas que fueron utilizadas para entrenar modelos embrionarios de AI, de hecho así fue como se presentaron en su oportunidad.
Volviendo a Be My Eyes, en lo personal, a mi lo que me marcó, a falta de probar la identificación en tiempo real, algo que hasta ahora solo se podía hacer con el voluntariado,,. fue mi primera aproximación con un libro de obras manuscrito, algo tal que sacarle una foto y respondió: «la foto muestra una página escrita. Parece tratarse de una serie de instrucciones entregadas por el inspector fiscal a otra persona, que podría ser su contraparte». «¿puedes leer lo que sale en el folio» «¡por supuesto! este se inicia con un número 4, tras el cual se indica la fecha 4 de abril de 2022. IFO: La contratista deberá ejecutar XXXXX. El resto del texto parece ilegible, tal vez enviando otra foto». Y ahí, desde la perspectiva no del friki, si no de quien trabaja con estas cosas, hubo una nueva herramienta, algo que un OCR aún no es capaz de realizar.
Todo indica que ahora podré poner ese libro de obras frente a la cámara y comenzar a pasar folios, sin necesidad de ir sacando foto tras foto… impresionante y, en este mundo, útil, que es lo que necesito.
En cuanto a la movilidad, ese es un asunto que conlleva muchas otras implicaciones, si es útil o no dependerá de como se implemente, su aceptación, la confianza… en el mundo de los ciegos se podría hacer un compilado de «soluciones» para cosas que no requieren solución o bien un mercadeo impresionante para productos que al final salen un ojo de la cara y no cumplen con lo que ofrecen, peor cuando es para los padres del ciego de turno, que es lo que suele ocurrir. De hecho, hay una web de un italiano que se dedica a compilar esa clase de soluciones. Así las cosas, creo en la aproximación con AI, no puede ser de otra manera, pero en cuanto para con «con esto se dejará el bastón o el perro guía», la recepción será… más bien fría ?.. Por otra parte, en un asunto práctico, no sé cuantas veces le he sacado una foto a un mando a distancia de un aire acondicionado para saber la distribución de botones y he obtenido resultados distintos ?.

miércoles, 15 mayo de 2024 a las 3:24 pm

Comentarios cerrados.