Arquitectura de los grandes modelos lingüísticos: cómo funcionan realmente los LLM

La arquitectura de los grandes modelos lingüísticos puede parecer intimidante, pero los principios fundamentales siguen siendo sencillos. Un gran modelo lingüístico predice la siguiente palabra de una secuencia. Este proceso, repetido miles de millones de veces, permite generar un texto fluido. Esta guía desvela los entresijos del tema para los lectores curiosos. Además, evita los cálculos complejos y utiliza un lenguaje sencillo. En primer lugar, seguimos una frase a medida que entra en el modelo. A continuación, repasamos cada paso hasta llegar a la respuesta final. Al final, el funcionamiento del modelo te resultará mucho menos misterioso.

¿Qué significa «arquitectura de un gran modelo lingüístico»?

El término «arquitectura» se refiere simplemente a la disposición de los componentes. En un modelo lingüístico, estos componentes procesan y predicen el texto. El diseño determina la forma en que el modelo interpreta el contexto y formula sus respuestas. La arquitectura de los grandes modelos lingüísticos se basa hoy en día en un diseño dominante. Los ingenieros lo llaman «transformador». Gracias a su excelente escalabilidad, el transformador se encuentra ahora en el corazón de casi todos los grandes sistemas.

Tres capas resumen todo el flujo a un nivel general. En primer lugar, una etapa de entrada transforma el texto en números. A continuación, una pila de bloques de procesamiento mezcla la información a lo largo de la frase. Por último, una etapa de salida vuelve a transformar los números en palabras. Cada etapa se basa en la anterior. Por lo tanto, un pequeño cambio al inicio del proceso puede tener repercusiones en todo el proceso posterior.

La escalabilidad es la otra característica determinante. Los modelos modernos contienen miles de millones de parámetros internos. Estos parámetros almacenan patrones extraídos de enormes cantidades de texto. A medida que su número aumenta, el modelo suele ser capaz de procesar tareas más complejas. Sin embargo, el tamaño bruto no lo es todo. Un diseño inteligente y unos datos limpios son igual de importantes.

Una analogía útil es la de una enorme máquina de traducción. Asocia cualquier secuencia de entrada a una secuencia de salida probable. Las palabras, el código e incluso la música pueden pasar por los mismos canales. Como el diseño sigue siendo general, un solo modelo puede gestionar numerosas tareas. Esta flexibilidad supone un verdadero cambio con respecto al software antiguo. Así, una arquitectura única sirve ahora tanto a redactores como a programadores y analistas.

De las palabras a los números: tokens y embeddings

Un modelo no puede leer las letras como lo hacemos nosotros. En su lugar, descompone el texto en pequeños fragmentos llamados tokens. Un token puede ser una palabra completa o simplemente un fragmento. Por ejemplo, «walking» podría dividirse en «walk» e «ing». Como los tokens son cortos, el modelo maneja cualquier idioma con facilidad. A esta etapa la llamamos tokenización, y es por ahí por donde empieza cada instrucción.

A continuación, cada token se convierte en una lista de números. Los ingenieros llaman a esta lista un embedding. La incrustación coloca las palabras similares unas junto a otras en un amplio espacio. Así, «king» y «queen» están cerca una de otra, mientras que «banana» está lejos. En otras palabras, el significado se transforma en geometría. El modelo ya puede realizar cálculos matemáticos sobre el propio lenguaje.

La posición también tiene significado en una frase. «Los perros persiguen a los gatos» difiere claramente de «los gatos persiguen a los perros». Por lo tanto, el modelo añade una señal de posición a cada incrustación. Esta señal registra el orden de las palabras sin alterar los cálculos. Así, el modelo no solo conoce las palabras, sino también su secuencia. Las buenas indicaciones respetan este orden, tal y como se explica en nuestra guía de ingeniería de indicaciones.

El número de tokens también influye en los costes y las limitaciones en el mundo real. Los proveedores suelen cobrar en función del número de tokens procesados. Por lo tanto, un documento largo consume más tokens y resulta más caro. Los modelos también limitan el número de tokens que pueden procesar simultáneamente. Debido a este límite, las entradas muy largas deben acortarse cuidadosamente. En resumen, los tokens regulan discretamente tanto el precio como la capacidad.

Abstract visualization of words turning into tokens and mapping into a field of embedding points

El Transformer, el corazón del sistema

El Transformer es el corazón del modelo. Su principio clave tiene un nombre memorable: la atención. La atención permite al modelo comparar cada palabra con todas las demás. De este modo, el modelo se centra en las partes más importantes. Por ejemplo, puede relacionar un pronombre con el nombre al que corresponde. Esta capacidad confiere al Transformer su notable comprensión del contexto.

Imaginemos que el modelo lee la palabra «it» en una frase larga. La atención revisa las palabras anteriores para encontrar la mejor correspondencia. A continuación, asigna un peso mayor a las más relevantes. Como esto ocurre con todas las palabras simultáneamente, el proceso se ejecuta rápidamente en los chips modernos. Es precisamente esta velocidad paralela lo que ha hecho que este diseño sea un éxito. La idea apareció por primera vez en un artículo emblemático de 2017, titulado «Attention Is All You Need».

Los transformadores apilan esta etapa de atención varias veces. Cada capa afina un poco más el significado. Las capas inferiores pueden detectar la gramática y las relaciones simples. Las capas superiores, por su parte, captan el tono, la intención y la lógica. Así, la profundidad permite al modelo construir su comprensión de forma progresiva. En resumen, la atención combinada con la profundidad crea la asombrosa fluidez del modelo.

La atención también se presenta en forma de varias «cabezas» a la vez. Cada cabeza aprende a concentrarse en un tipo de relación diferente. Una cabeza puede seguir los temas, mientras que otra sigue los tiempos. Como las cabezas funcionan en paralelo, el modelo percibe simultáneamente numerosos patrones. Sus resultados se fusionan luego en una única visión más rica. Este truco de las cabezas múltiples refuerza considerablemente la potencia del Transformer.

La arquitectura de red neuronal detrás de los LLM

Bajo el Transformer se esconde una arquitectura de red neuronal clásica. Una red neuronal hace pasar números a través de capas de unidades matemáticas simples. Cada unidad multiplica sus entradas, las suma y aplica una pequeña regla. Por sí sola, una unidad no hace gran cosa. Juntas, sin embargo, millones de unidades modelan patrones complejos. Este diseño en capas confiere al sistema su potencia flexible.

Un modelo que cuenta con numerosas capas de este tipo forma una red neuronal profunda. De esta profundidad proviene la palabra «profundo» en la expresión «aprendizaje profundo». A medida que cada capa transforma de nuevo los datos, la abstracción aumenta paso a paso. Las primeras capas pueden, por así decirlo, seguir los contornos del significado. Las capas siguientes ensamblan luego estos elementos en conceptos. En consecuencia, la red capta una estructura que los métodos superficiales no logran captar.

Entre las etapas de atención, el transformador añade pequeñas redes feed-forward. Estas minúsculas redes procesan cada posición de forma individual. Ofrecen al modelo un espacio adicional para almacenar y dar forma al conocimiento. Además, funcionan en estrecha colaboración con la atención en cada capa. Para descubrir cómo han evolucionado estas ideas a lo largo de las décadas, lee nuestra historia del aprendizaje automático. En resumen, las redes neuronales que todos conocemos siguen siendo el núcleo de cada transformador.

Es esencial que la red presente un toque de no linealidad. Eso es exactamente lo que aportan unas sencillas reglas llamadas funciones de activación. Sin ellas, muchas capas se reducirían a una única etapa monótona. Gracias a ellas, la red se adapta y se curva para ajustarse a datos complejos. Estas pequeñas funciones revelan, por tanto, una verdadera profundidad. En resumen, son minúsculos detalles los que determinan discretamente lo que el modelo puede aprender.

Abstract visualization of a deep layered neural network with stacked glowing nodes

Cómo el entrenamiento da forma al modelo

La arquitectura prepara el escenario, pero es el entrenamiento el que escribe el guion. Al principio, el modelo no sabe nada útil. Lee grandes cantidades de texto y adivina cada palabra siguiente. Cuando se equivoca, un algoritmo ajusta sus parámetros. A medida que este ciclo se repite miles de millones de veces, poco a poco surge una competencia. A esta primera fase larga la llamamos preentrenamiento.

El preentrenamiento por sí solo produce un modelo inteligente, pero poco específico. Por eso los desarrolladores añaden una segunda fase llamada «refinamiento». Aquí, conjuntos de datos más pequeños y limpios orientan al modelo hacia un comportamiento útil. La retroalimentación humana también suele guiar esta etapa. En consecuencia, el modelo aprende a seguir instrucciones y a ser educado. Este ajuste transforma una capacidad bruta en un asistente útil.

El entrenamiento también requiere una potencia de cálculo considerable. Enormes clústeres de chips funcionan durante semanas seguidas. Por lo tanto, solo los laboratorios bien financiados pueden entrenar los modelos más grandes desde cero. Muchos equipos optan por adaptar un modelo existente a sus necesidades. Este atajo permite ahorrar tanto dinero como tiempo. También permite a equipos pequeños crear productos reales, como muestra nuestra guía sobre la creación de agentes de IA.

La calidad de los datos determina en gran medida el resultado final. Un texto limpio y variado transmite conocimientos amplios y equilibrados. Los datos ruidosos o limitados, por el contrario, generan lagunas y sesgos. Por eso los equipos filtran, deduplican y seleccionan sus fuentes con cuidado. También prueban el modelo en casos complejos antes de su puesta en marcha. En resumen, lo que entra influye mucho en lo que sale.

Por qué son importantes las decisiones de arquitectura

Pequeñas decisiones de diseño determinan el comportamiento de un modelo. La ventana emergente, por ejemplo, define la cantidad de texto que el modelo ve a la vez. Una ventana más grande permite al modelo procesar documentos largos. Sin embargo, esto también aumenta considerablemente los costes de memoria y de cálculo. Por lo tanto, los diseñadores deben encontrar un equilibrio entre alcance y coste. Este compromiso explica por qué los modelos existen en varios tamaños.

Otras decisiones influyen tanto en la velocidad como en la precisión. El número de capas afecta a la profundidad y al coste. La anchura de cada capa modifica a su vez la capacidad. Además, los datos de entrenamiento determinan el tono, el sesgo y la fiabilidad. Dado que la calidad de los datos es primordial, los equipos los limpian con el mayor cuidado. «Garbage in, garbage out» (si se introducen datos erróneos, se obtienen resultados erróneos) sigue siendo cierto, incluso a gran escala.

Estas decisiones tienen un impacto directo en los usuarios comunes. Afectan a la velocidad de respuesta, la precisión y el coste operativo. Para las empresas, estos detalles pueden determinar qué modelo es el adecuado para una tarea. Por lo tanto, una comprensión básica de la arquitectura resulta rápidamente rentable. Así, se puede asociar el modelo adecuado a la tarea adecuada. En resumen, el diseño básico da forma a la experiencia diaria.

Los trucos de eficiencia marcan ahora los últimos diseños. Algunos modelos envían cada token a solo unos pocos bloques especializados. Como la mayor parte de la red permanece inactiva, los costes se reducen considerablemente. Otros reducen su número gracias a un paso denominado cuantificación. De este modo, los modelos potentes pueden funcionar en máquinas más modestas. Estos avances están introduciendo progresivamente la IA de alto rendimiento en los dispositivos cotidianos.

Leer el esquema director de la IA moderna

La arquitectura de los grandes modelos lingüísticos recompensa un poco de curiosidad. Las piezas encajan con una lógica sorprendente. Los tokens transforman las palabras en números, y las incrustaciones les dan sentido. A continuación, la atención evalúa el contexto, mientras que las capas profundas construyen la comprensión. Por último, el entrenamiento dota de habilidades reales a toda la estructura. En otras palabras, elementos sencillos se combinan para formar una capacidad extraordinaria.

No hace falta un título en matemáticas para seguir esta historia. Sin embargo, un mapa mental claro ya ayuda mucho. Gracias a él, puedes leer las noticias sobre IA con un criterio más seguro. Además, puedes elegir y utilizar estas herramientas de forma más acertada. Para una referencia técnica más detallada, la presentación de IBM sobre los grandes modelos lingüísticos profundiza más en el tema. En general, comprender el esquema de funcionamiento transforma una caja negra en una herramienta en la que puedes confiar.

Scroll al inicio