
Hoy convivimos todos los días con modelos de lenguaje como ChatGPT, Gemini, Claude o Llama. Les pedimos que escriban correos, respondan dudas, preparen tareas, hagan resúmenes, incluso que nos cuenten chistes. Pero ¿cómo funciona por dentro esta inteligencia artificial que parece entendernos tan bien? Aunque parezca magia, todo parte de principios matemáticos, lingüísticos y computacionales que, si los explicamos bien, se entienden bastante fácil. Aquí te contamos los conceptos clave para entender cómo funciona un LLM (Large Language Model o Gran Modelo de Lenguaje).
1. Tokenización: partir el lenguaje en piezas manejables
El primer paso es convertir el lenguaje humano —ese mar de textos que hay en libros, páginas web, emails, redes sociales— en pedacitos más pequeños llamados tokens. Un token puede ser una palabra, una sílaba o hasta una sola letra. Estos tokens son la unidad básica con la que los modelos trabajan. En inglés, por ejemplo, un modelo típico maneja alrededor de 50,000 tokens distintos, aunque los modelos más avanzados como GPT-4 pueden trabajar con vocabularios de hasta 256,000 tokens. Es como aprender un idioma desde el abecedario, pero con esteroides.
2. Espacio N-dimensional: cuando las palabras se vuelven matemáticas
Una vez que tenemos los tokens, el modelo los convierte en números, específicamente en vectores dentro de un espacio multidimensional. ¿Por qué? Porque eso le permite al modelo entender la relación entre palabras. En este espacio, palabras como “perro”, “gato” y “lobo” están cerca entre sí, porque tienen significados similares. Esta representación permite hacer cosas increíbles: si a “rey” le quitamos “hombre” y le sumamos “mujer”, obtenemos “reina”. Sí, como una especie de álgebra del lenguaje.
3. Redes neuronales: el cerebro del modelo
Con los tokens ya representados como vectores, entra en juego la red neuronal, una estructura inspirada en el cerebro humano. Esta red está formada por capas y millones (a veces billones) de parámetros que se ajustan para detectar patrones en los textos. A partir de ahí, el modelo aprende a predecir cuál es la siguiente palabra más probable en una oración. Si escribes “El cielo es…”, el modelo calcula que “azul” es una buena opción, pero también podría considerar “gris”, “rojo al atardecer” o incluso “una metáfora de la libertad”, dependiendo del contexto.
4. Corpus: todo lo que el modelo ha leído
Para entrenar a un modelo de lenguaje, se le alimenta con cantidades gigantescas de texto, lo que se conoce como el corpus. Este puede incluir libros, artículos, foros, conversaciones, código de programación, entre otros. Aproximadamente el 70% de estos datos se usa para entrenar al modelo, y el 30% restante para probar qué tan bien aprendió. Este proceso es como enseñarle a alguien a hablar leyéndolo todo, pero sin que nunca haya vivido una experiencia propia.
5. El modelo de atención: enfocar en lo importante
Uno de los avances más revolucionarios en los LLMs es el mecanismo de atención. A diferencia de los modelos más antiguos que procesaban todo el texto por igual, este mecanismo permite que el modelo se enfoque en las partes más relevantes del contexto. Usa un sistema de Query, Key y Value para identificar qué partes del texto anterior son más útiles para predecir la siguiente palabra. Es como cuando estamos leyendo un párrafo y nos concentramos en las ideas clave para entender el sentido general.
6. Temperatura: un toque de creatividad
Cuando el modelo predice una palabra, no siempre elige la opción con mayor probabilidad. Aquí entra el parámetro de temperatura, que introduce aleatoriedad en el proceso. Si la temperatura es baja (cerca de cero), el modelo se vuelve más predecible y conservador. Si la temperatura es alta (por ejemplo, 1.0), se vuelve más creativo e impredecible. Este detalle es clave para que no todas las respuestas suenen iguales y que haya espacio para la espontaneidad.
7. RLHF: enseñarle a conversar con humanos
Por último, para que el modelo no solo sepa predecir palabras, sino que también sepa comportarse como un buen interlocutor, se utiliza una técnica llamada Reinforcement Learning with Human Feedback (aprendizaje por refuerzo con retroalimentación humana). Básicamente, humanos interactúan con el modelo y le dicen cuándo su respuesta fue útil, educada o adecuada… y cuándo no. Así se ajustan los parámetros para que se comunique mejor, evite errores y entienda cuándo parar o cómo responder en tono apropiado.
En resumen…
Un LLM como ChatGPT no “piensa” ni “sabe” en el sentido humano, pero ha aprendido a reconocer patrones complejos del lenguaje de una forma impresionante. A través de tokens, vectores, redes neuronales, atención y algo de intervención humana, logra producir respuestas coherentes, útiles y, a veces, hasta sorprendentes. No es magia: es matemática, estadística y muchísima información bien procesada.