En apenas unos años, los grandes modelos de lenguaje de inteligencia artificial (IA), como ChatGPT, han experimentado una evolución sorprendente. Pasaron de ser herramientas que apenas podían redactar párrafos coherentes, a convertirse en asistentes virtuales capaces de redactar artículos científicos, traducir en múltiples idiomas, escribir poesía, generar código de software, e incluso ayudar a resolver problemas matemáticos complejos.

Lo más impresionante es que este avance no se ha debido únicamente a las mejoras introducidas por los desarrolladores. Aunque OpenAI, Anthropic, Google y otras empresas han afinado sus algoritmos y aumentado la cantidad de datos con los que entrenan a sus modelos, también ha entrado en juego otro fenómeno: el autoaprendizaje. Es decir, los modelos están empezando a aprender por sí mismos, a partir de los datos que consumen y los patrones que detectan.

Esto nos lleva a preguntarnos: ¿cómo es posible que estos sistemas puedan entender ideas tan complejas, captar la intención detrás de lo que escribimos, e incluso ofrecer soluciones que a los humanos nos había costado décadas formular?
A diferencia de otros grandes avances científicos, como la energía nuclear, donde los científicos comprendían a fondo la física antes de construir reactores o bombas, con la inteligencia artificial ocurre lo contrario: los modelos generativos como ChatGPT funcionan, pero no entendemos del todo cómo lo hacen. Estos modelos «piensan» de formas que no se parecen mucho al pensamiento humano. Sus respuestas no surgen de razonamientos conscientes ni de estructuras lógicas como las que usamos las personas, sino de miles de millones de señales matemáticas que rebotan a través de capas de redes neuronales dentro de supercomputadoras de potencia sin precedentes. No deja de ser sorprendente que la mayor parte de esa actividad permanece invisible o es incomprensible incluso para los propios investigadores en IA.

Esto representa un gran desafío porque la mejor manera de controlar algo es entender cómo funciona. Y hoy por hoy, quienes estudian el comportamiento interno de estos modelos —una rama conocida como interpretabilidad mecanicista— aún están en plena fase de descubrimiento. Los investigadores en esta área dedican sus días a tratar de desentrañar lo que pasa dentro de esa caja negra de la IA, esas complejas secuencias de funciones matemáticas que llevan a un modelo a generar una palabra o imagen específica. Es como tratar de observar el cerebro de una criatura alienígena mientras resuelve un crucigrama, cuando todavía no hemos aprendido su idioma.

Uno de los hallazgos más intrigantes es que estos modelos no “piensan” exclusivamente en el idioma en el que reciben la solicitud de la usuaria. Por ejemplo, si la persona escribe en francés, el modelo no necesariamente procesa todo en francés. Unos investigadores le preguntaron a Claude (otro modelo de lenguaje, desarrollado por Anthropic) si pensaba en inglés al responder en inglés, en francés al responder en francés, y así sucesivamente, o si acaso utilizaba conceptos universales más allá de los idiomas.

El hallazgo fue sorprendente: los modelos hacen ambas cosas. Cuando se les pidió traducir frases simples a varios idiomas, los investigadores identificaron que el modelo reutilizaba ciertos tokens compartidos durante el proceso. Estos fragmentos representaban ideas centrales como «pequeñez» u «oposición», que no pertenecen a ningún idioma en particular. Al combinar estos tokens, se formaban conceptos universales como «grandeza» (lo opuesto a pequeño). ¡El modelo pensaba en estos conceptos antes de traducirlos a cualquier idioma!

Este descubrimiento sugiere que Claude, y por extensión modelos como ChatGPT, pueden aprender un concepto en un idioma y aplicarlo en otro sin necesidad de entrenamiento adicional. Estudiar cómo los modelos comparten y adaptan lo que saben en distintos contextos es clave para entender su forma de razonar.

Otra muestra de su sofisticación es su capacidad para planificar e improvisar. Por ejemplo, cuando se le pidió a Claude escribir un poema, no solo generó palabras al azar, el modelo anticipó rimas y estructuras métricas antes de escribirlas. 

Los investigadores apenas están tomando “fotografías” de pequeñas regiones de este sistema, como lo haría un neurocientífico al estudiar una región del hipocampo humano. Estas líneas de investigación son críticas para comprender mejor cómo “piensan” los modelos que hemos creado y que están aprendiendo por sí mismos a velocidades vertiginosas sin tomarse la molestia de pedirnos algún tipo de consejo. Profundizar en ese conocimiento es fundamental para comprender mejor y anticipar el abanico de riesgos reales que enfrentamos con la IA, y encontrar mejores formas de guiar a estos sistemas hacia un comportamiento ético y mucho más seguro.

@lmf_Aequum

 

Share This