Terminaba el año y yo escribía un artículo en Xataka que parecía otro más. Hablaba de un nuevo y gigantesco modelo chino llamado DeepSeek V3, con un tamaño 671B (Llama 3.1 es de 405B) que prometía rendir igual o mejor que GPT-4 o Claude 3.5 Sonnet.
La verdad es que en ese momento no presté mucha más atención. Sí que me sorprendió su afirmación de que habían invertido tan solo 5,5 millones de dólares en su entrenamiento. Sam Altman apuntó a que se habían gastado 100 millones en el de GPT-4, así que, ¿cómo narices había DeepSeek logrado algo así?
Pues con un proceso de entrenamiento súper eficiente que gracias a un montón de «trucos» logra como resultado un modelo estupendo pero mucho más «fit». GPT-4o y Claude están mazados, pero en plan un poco feote. DeepSeek es más rollo Bruce Lee. igual de bueno o mejor, y además muy delgadito y fibroso a tope.
Pero es que en la startup china no se han quedado quietos y han lanzado DeepSeek-R1, que es aún más alucinante porque es un modelo de razonamiento que es equiparable a o1 en rendimiento (dicen ellos). Es, como el resto de modelos de esta firma, Open Source, y han publicado los informes técnicos (V3, R1) para que cualquiera cotillee y pueda intentar replicar lo que ellos ya han conseguido. Que no será tan sencillo, pero desde luego dan bastantes pistas.
Pero es que DeepSeek-R1 se puede usar en un PC, en local. Es lo que he estado haciendo yo estos días en mi Mac mini M4, y poder hacer algo así es alucinante porque uno esperaría que para poder usar un modelo de IA que razona tendrías que usar súpermáquinas con varias RTX 4090 en paralelo.
Pues no. Hay versiones «pequeñitas» para equipos como el mío que se pueden usar con plataformas como Ollama y, como complemento, AnythingLLM (poner en marcha esto es una chorrez, aquí hablan un poco de ello). Es posible usarlo para todo tipo de cosas, pero a mí me gusta hacerle la puñeta y ponerle acertijos como el de las bolas de billar que sí solucionó por ejemplo Gemini 2.0 Flash Thinking.
El modelo se comporta de forma notable, y muestra su cadena de razonamiento (Chain of Thought) para luego intentar dar la respuesta. El de las bolas de billar no consigue resolverlo de primeras, pero lo alucinante es como intenta pensar en diversas formas de resolverlo. Al darle una pista y decirle que mirara bien los números de las bolas, intentó averiguar si el truco estaba quizás en los colores de las bolas, en su los números había que usarlos en hexadecimal, si eran representaciones de números romanos o incluso elementos de la tabla periódica. Todo un poco loco pero igualmente alucinante. Y además es que va bastante rápido a la hora de pensar, te da tiempo a «leer» lo que piensa, lo que es curioso y súper llamativo.
Todo esto se puede hacer con o1 o con el citado modelo de Google, pero claro, hay que pagar y todo queda en la nube. Poder hacerlo en local, con control total y privacidad total (puedes usar estos modelos sin conexión a internet) es muy, muy loco, insisto. Pero ojo, que estos modelos pueden meter la pata y alucinar a lo grande. Y para muestra, un botón.
Sea como fuere, eso me hace pensar una vez más que esto va muy rápido y que DeepSeek es la demostración de que aún queda mucho por decir en el avance de modelos de IA. De repente esto abre las puertas a dos cosas: la primera, modelos Open Source que son tan buenos como los comerciales (esto es como Linux vs Windows, pero para la IA), y segundo, que es posible tener modelos pequeñitos y locales (¡e incluso que «razonan»!) mucho mejores que los que había hasta ahora. Así que esto parece dejar claro que la IA en nuestros móviles o en cualquier otro dispositivo (¿gafas?) va a ser bastante decente muy pronto.
Y estamos a 28 de enero, queridos lectores. Ole con hache.