- Los LLM son modelos de lenguaje basados en transformers, entrenados con enormes volúmenes de texto para predecir el siguiente token y generar lenguaje natural coherente.
- Su funcionamiento se apoya en tokens, embeddings, el mecanismo de autoatención y miles de millones de parámetros ajustados mediante aprendizaje profundo.
- Existen modelos cerrados, de pesos abiertos y de nicho, que se pueden ejecutar en la nube o en local con técnicas como la cuantización para adaptarse al hardware disponible.
- Aunque son muy potentes para generar y analizar texto, presentan limitaciones importantes como alucinaciones, sesgos y dependencia del prompt, por lo que requieren uso crítico y supervisado.
Los modelos de lenguaje de gran tamaño, o LLM, se han colado en nuestras conversaciones igual que lo hicieron en su día los smartphones: casi sin darnos cuenta y cambiando por completo la forma en la que trabajamos, buscamos información y nos comunicamos con la tecnología. Son la base de herramientas como ChatGPT, Gemini, Claude o Copilot, y están detrás de casi cualquier asistente inteligente moderno.
Si alguna vez te has preguntado qué es exactamente un LLM, cómo funciona por dentro, en qué se diferencia de los modelos clásicos de IA o por qué se habla tanto de parámetros, tokens, ventana de contexto o cuantización, aquí vas a encontrar una explicación a fondo, pero en un lenguaje claro y cercano, sin perder el rigor técnico.
Qué es un modelo de lenguaje LLM
Un LLM (Large Language Model) es un modelo de inteligencia artificial basado en aprendizaje profundo que se entrena con cantidades enormes de texto para ser capaz de entender, generar y transformar lenguaje humano con una fluidez que se parece mucho a la de una persona.
En esencia, un LLM es un sistema que, dado un texto de entrada, predice cuál debería ser el siguiente fragmento de texto (token) basándose en patrones que ha aprendido leyendo miles de millones de ejemplos: libros, artículos, webs, documentación técnica, conversaciones, código y otros recursos textuales.
La palabra “large” (grande) hace referencia tanto al volumen de datos de entrenamiento como al número de parámetros que tiene el modelo: pueden ser cientos de millones, miles de millones o incluso centenares de miles de millones de parámetros que definen cómo responde el modelo ante cada entrada.
A diferencia de los sistemas clásicos basados en reglas o en estadísticas sencillas, los LLM son capaces de capturar relaciones profundas en el lenguaje: entienden matices, contexto, ironía en cierto grado, instrucciones complejas y estructuras de razonamiento mucho más ricas.
De GPT y Transformers a los LLM modernos
Cuando hablamos de modelos como GPT-4, Claude o Llama, en realidad nos referimos a LLM basados en la arquitectura Transformer, presentada en 2017 en el famoso paper “Attention Is All You Need”. Esta arquitectura marcó un antes y un después en el procesamiento del lenguaje natural.
Las siglas GPT significan “Generative Pre-trained Transformer”: es decir, un modelo generativo (produce contenido nuevo), preentrenado (se entrena primero de forma masiva con grandes corpus de texto) y basado en un transformer, la arquitectura de red neuronal que hace posible los LLM modernos.
Lo que diferencia a los transformers de los modelos más antiguos, como las redes neuronales recurrentes (RNN), es que pueden procesar secuencias de texto completas en paralelo gracias a su mecanismo de atención, en lugar de ir paso a paso de forma estrictamente secuencial. Esto hace que el entrenamiento sea muchísimo más eficiente y escalable.
Los LLM actuales han llevado esta idea al extremo: modelos con miles de millones de parámetros, entrenados con cantidades descomunales de texto, capaces de aproximarse al rendimiento humano en muchas tareas de lenguaje y de superar sistemas clásicos en traducción, resumen, generación de código o análisis de grandes volúmenes de texto.
Tokens: la unidad mínima que “ve” un LLM
Para un LLM, el texto no se maneja como letras sueltas ni necesariamente como palabras completas, sino como tokens, que son pequeñas unidades de texto que pueden ser una palabra corta, parte de una palabra, un signo de puntuación o incluso un espacio.
Por ejemplo, la palabra “strawberry” puede dividirse en los tokens “straw” y “berry”. El modelo no ve las letras individuales ni cuenta cuántas “r” hay: solo ve esos dos bloques. Por eso, si le preguntas cuántas “r” tiene “strawberry”, puede equivocarse; no es que “no sepa contar”, es que no opera a nivel de letra, sino de token.
Durante el preprocesado, todo el texto de entrenamiento se trocea en tokens y cada token se representa mediante un identificador numérico. El modelo trabaja sobre secuencias de esos identificadores, no sobre texto en bruto, lo que permite tratar con cualquier idioma o mezcla de idiomas de manera sistemática.
Embeddings y representaciones vectoriales
Una vez que el texto se ha dividido en tokens, cada token se convierte en un vector numérico llamado embedding, que es una representación matemática de su significado y de su uso en diferentes contextos.
Estos embeddings son vectores de alta dimensión donde cada componente captura algún aspecto semántico o sintáctico: tokens que aparecen en contextos parecidos terminan teniendo representaciones cercanas en ese espacio vectorial. Así, conceptos como “perro” y “ladrar” quedarán mucho más próximos entre sí que “ladrar” y “árbol” cuando el contexto habla de mascotas.
Además de representar el significado, los modelos añaden codificaciones posicionales, que indican en qué posición de la secuencia aparece cada token. De esta manera, el modelo no solo sabe qué token está presente, sino también dónde aparece y cómo se relaciona con los demás en la frase.
El motor interno: la arquitectura Transformer y la autoatención
El corazón de un LLM moderno es la red de transformadores, que se construye con múltiples capas de neuronas artificiales. En cada capa, los embeddings de entrada se transforman, generando representaciones cada vez más ricas y contextuales del texto.
La pieza clave es el mecanismo de autoatención (self-attention), que permite que el modelo “decida” a qué partes del texto debe prestar más atención al procesar cada token. Esto se hace proyectando cada embedding en tres vectores: consulta (query), clave (key) y valor (value), obtenidos mediante matrices de pesos aprendidas durante el entrenamiento.
La consulta representa lo que un token “busca”, la clave recoge la información que cada token “ofrece” y el valor contiene la representación que se combinará ponderadamente. El modelo calcula puntuaciones de similitud entre consultas y claves para determinar qué tokens son relevantes para cada posición.
Esas puntuaciones se normalizan para obtener pesos de atención, que indican cuánta información de cada token (a través de su valor) contribuye a la representación final del token actual. Así, el modelo puede centrarse en palabras clave relevantes y “ignorar” o dar menos peso a términos menos importantes como determinantes o conectores neutros.
Este mecanismo crea un entramado de relaciones ponderadas entre todos los tokens de la secuencia, y lo hace de forma paralela, lo que hace que la arquitectura sea muy eficiente comparada con las redes recurrentes tradicionales.
Parámetros, pesos y capacidad del modelo
Los LLM están formados por una enorme cantidad de pesos o parámetros, que son variables internas que se ajustan durante el entrenamiento y que determinan cómo se transforma la información en cada capa.
Un modelo con 7.000 millones de parámetros (7B) se considera relativamente pequeño dentro del mundo de los LLM, mientras que uno de 70.000 millones (70B) ya entra en la categoría de grande, y los modelos por encima de los 400.000 millones de parámetros son auténticos colosos que requieren infraestructuras de hardware de centro de datos.
En la práctica, el número de parámetros es una medida aproximada de la “capacidad intelectual” del modelo: cuantos más parámetros, más complejos pueden ser los patrones de lenguaje que es capaz de aprender y más sofisticado puede ser su razonamiento. Sin embargo, más grande no siempre significa mejor para todos los casos de uso: también influye la calidad de los datos, la arquitectura y el ajuste fino.
Los modelos de menor tamaño, los llamados small LLM, son ideales para ejecutarse en dispositivos con recursos limitados o en entornos locales, sacrificando parte de la capacidad de razonamiento en favor de la ligereza y la privacidad.
Cómo se entrena un LLM
El entrenamiento de un LLM pasa por leer cantidades inmensas de texto y aprender a predecir el siguiente token de una secuencia a partir de los anteriores. Durante este proceso, el modelo se enfrenta a millones o miles de millones de ejemplos extraídos de su corpus de entrenamiento.
En cada paso, el modelo genera una predicción para el siguiente token; luego se compara esa predicción con el token real y se calcula una función de pérdida que cuantifica el error. A continuación, se actualizan los pesos del modelo mediante retropropagación y descenso de gradiente, corrigiendo ligeramente cada parámetro para reducir ese error.
Este bucle de predecir, medir el error y ajustar se repite de forma masiva hasta que el modelo converge hacia un conjunto de pesos que le permiten generar texto coherente, con buena gramática, cierta capacidad de razonamiento y conocimiento factual aprendido de los datos.
En modelos como GPT-4 y posteriores, sobre ese entrenamiento masivo se añade después una fase de aprendizaje por refuerzo con feedback humano, en la que personas (y a veces otros modelos) evalúan respuestas y ayudan a ajustar el comportamiento para que se alinee mejor con las preferencias humanas, evitando en lo posible respuestas tóxicas, incorrectas o impropias.
Proceso de generación: cómo escribe un LLM
Cuando interactúas con un LLM (por ejemplo, escribiendo un prompt en un chatbot), el proceso interno es una especie de autocompletado supervitaminado. El texto que escribes se tokeniza, se convierte en embeddings y se pasa por las capas del transformer.
Capa a capa, el modelo ajusta esos embeddings teniendo en cuenta el contexto y las relaciones entre tokens gracias a la autoatención. Al final, produce una distribución de probabilidad sobre todos los posibles tokens que podrían venir a continuación.
A partir de esa distribución, el sistema selecciona el siguiente token siguiendo una estrategia de muestreo que puede ser más o menos determinista. Si la temperatura se fija en 0.0, el modelo optará casi siempre por el token más probable, dando respuestas muy estables y poco creativas, ideales para código o tareas numéricas.
Con temperaturas más altas (0,8 – 1,0), la elección se vuelve más arriesgada: el modelo explora tokens menos probables pero más variados, lo que genera respuestas más creativas, útiles para brainstorming, escritura narrativa o publicidad. Si se fuerza demasiado la temperatura (por encima de ~1,5), la salida puede volverse incoherente, con “balbuceos” o frases sin sentido.
Este proceso se repite token a token: cada nuevo token se añade a la secuencia de entrada y el modelo vuelve a calcular la salida, hasta que se alcanza una longitud máxima o un token especial de finalización.
Ventana de contexto: la memoria a corto plazo del modelo
Un aspecto clave de la experiencia con un LLM es su ventana de contexto, que es el número máximo de tokens que puede tener en cuenta en una sola “mirada”. Es, en la práctica, su memoria a corto plazo.
Los primeros modelos trabajaban con ventanas de contexto de unos 4.000 tokens, lo que equivale aproximádamente a unas 3.000 palabras de texto. Con esa capacidad, el modelo podía manejar conversaciones relativamente cortas o documentos moderados, pero perdía el hilo en análisis largos.
Los modelos recientes de gama alta ya manejan centenas de miles o incluso millones de tokens. Esto permite cargar libros enteros, documentación técnica extensa y grandes bases de conocimientos, haciendo posible que el LLM trabaje como un analista sobre tus propios documentos sin salirse del mismo contexto.
La ventana de contexto no es memoria permanente: cuando se supera, hay que resumir o recortar partes del texto. Pero dentro de ese margen, la capacidad de mantener coherencia y recordar lo dicho anteriormente es uno de los factores que más marcan la calidad de la interacción.
Tipos de modelos: cerrados, abiertos y de nicho
El ecosistema de LLM se ha fragmentado en varios tipos de modelos con filosofías muy distintas. Por un lado están los modelos cerrados o propietarios, como GPT, Gemini o Claude, desarrollados por grandes compañías y ofrecidos como servicios en la nube.
Estos modelos suelen ser los más potentes en términos de capacidad de razonamiento, tamaño y ventana de contexto, y se ejecutan en superordenadores con GPUs especializadas. A cambio, funcionan como “cajas negras”: no se conoce su arquitectura exacta, el detalle de sus datos de entrenamiento ni se tiene control total sobre el uso de los datos que envías.
En el otro extremo están los modelos de pesos abiertos (open weights), como Llama 3, Mistral o Qwen, en los que los desarrolladores publican los pesos del modelo para que cualquiera pueda descargarlos y ejecutarlos en su propio hardware. No suelen incluir el código de entrenamiento ni los datos originales, pero permiten un uso local y privado muy flexible.
También existen proyectos realmente open source, como OLMo, que comparten no solo los pesos sino también el código y, en la medida de lo posible, detalles de los datos. Estos modelos son especialmente valiosos para la investigación científica, la transparencia y la auditoría.
Por último, están los modelos de nicho, entrenados o afinados para dominios específicos como medicina, derecho, programación o finanzas. Aunque pueden ser mucho más pequeños que los gigantes generalistas, en su campo concreto pueden superar a modelos mucho más grandes en precisión y utilidad.
Cómo interpretar el “nombre” de un modelo
Si navegas por repositorios como Hugging Face, verás nombres de modelos que parecen claves nucleares, por ejemplo: Llama-3-70b-Instruct-v1-GGUF-q4_k_m. Cada parte de ese nombre aporta información útil sobre el modelo.
La primera parte, Llama-3, indica la familia y la arquitectura base, en este caso el modelo Llama 3 de Meta. El número 70b señala el tamaño: 70.000 millones de parámetros, lo que te da una idea del hardware necesario (tarjetas gráficas de gama muy alta o servidores con mucha memoria).
La etiqueta Instruct indica que el modelo se ha afinado para seguir instrucciones y conversar de forma natural. Si quieres usar un LLM como asistente, es fundamental que el nombre incluya “Instruct” o equivalente; si no, el modelo puede comportarse como un completador de texto genérico y no responder bien a tus preguntas.
El fragmento GGUF es el formato de archivo, especialmente común para ejecutar modelos en CPU o en dispositivos Apple. Otros formatos como EXL2, GPTQ o AWQ suelen estar pensados para GPUs NVIDIA y ofrecen diferentes optimizaciones de rendimiento.
Por último, q4_k_m describe el nivel de cuantización (4 bits en este caso) y el método concreto (K-Quants), lo que afecta al tamaño en disco, a la memoria necesaria y a la pequeña pérdida de precisión que se acepta para poder ejecutar el modelo en hardware más modesto.
Cuantización: comprimiendo cerebros gigantes
Los modelos de estado del arte en formato original pueden ocupar decenas o cientos de gigabytes y requerir cantidades de memoria de vídeo (VRAM) que están fuera del alcance de un PC doméstico. Ahí entra en juego la cuantización.
En su forma completa, un LLM suele almacenar sus pesos en precisión de 16 bits (FP16), con muchos decimales que permiten cálculos muy finos. La cuantización reduce ese número de bits, por ejemplo de 16 a 4, redondeando los valores para que ocupen mucho menos espacio y requieran menos memoria para ejecutarse.
Lo sorprendente es que, para muchas tareas de chat, redacción o resumen, bajar de 16 a 4 bits apenas afecta a la calidad percibida: los estudios recientes muestran que un modelo en Q4 puede mantener alrededor del 98% de su capacidad de razonamiento práctico para uso general, con una reducción de peso de hasta un 70%.
Cuantizaciones más agresivas como Q2 o IQ2 permiten meter modelos enormes en equipos muy limitados, pero el precio es alto: pérdida notable de coherencia, bucles, repeticiones o fallos en tareas lógicas más exigentes, especialmente en matemáticas y programación compleja.
Si tu objetivo son tareas técnicas delicadas, conviene usar la cuantización más alta que soporte tu hardware (Q6, Q8, o incluso sin cuantizar), mientras que para tareas más ligeras de escritura o brainstorming, Q4 suele ser el punto óptimo para la mayoría de usuarios.
Hardware y VRAM: hasta dónde llega tu ordenador
Para saber si puedes ejecutar un modelo en tu propio PC, más que fijarte solo en la RAM del sistema, tienes que mirar la VRAM de tu tarjeta gráfica. Una regla rápida suele ser multiplicar los miles de millones de parámetros por unos 0,7 GB de VRAM en cuantización moderada.
Por ejemplo, un modelo como Llama 3 8B en Q4 rondará los 5,6 GB de VRAM, manejable por muchas GPUs gaming actuales. En cambio, un modelo de 70B parámetros puede necesitar del orden de 49 GB de VRAM, algo reservado a tarjetas profesionales o configuraciones multi-GPU.
En el ecosistema actual, convivimos con dos grandes enfoques de hardware para IA local. Por un lado, el camino NVIDIA, donde las GPUs RTX de las series 3000, 4000 o 5000, usando CUDA, ofrecen velocidades de generación de texto altísimas, pero con la limitación de que la VRAM es cara y no suele superar los 24 GB en consumo doméstico.
Por otro lado, está el camino Apple, con sus chips M2, M3 o M4 y la memoria unificada, donde un Mac con 96 o 192 GB de memoria compartida puede cargar modelos gigantescos (cuantizados) que serían imposibles de alojar en una sola GPU doméstica, aunque la velocidad de generación suele ser menor.
En ambos escenarios, herramientas como LM Studio u Ollama facilitan la descarga, configuración y ejecución de modelos locales, permitiendo ajustar parámetros como temperatura, uso de CPU/GPU o memoria sin tener que pelearse con líneas de comando complejas, salvo que se busque una integración muy fina con otros programas.
LLM frente a otros tipos de IA generativa
Cuando interactúas con un generador de imágenes, por ejemplo, el texto de tu prompt se procesa primero con un modelo de lenguaje que entiende tu petición, clasifica la intención y extrae los elementos clave (estilo artístico, objetos, contexto…). Esa información se traduce después a representaciones que consumen modelos específicos de imagen.
Lo mismo ocurre con la generación de audio o música: un LLM puede entender la descripción textual (“crea una pieza tranquila con piano y cuerdas”) y convertirla en una estructura que luego un modelo de audio especializado transforma en sonido.
En generación de código, los LLM son directamente protagonistas: se entrenan con grandes repositorios de código fuente, documentación técnica y ejemplos de uso, lo que les permite escribir funciones, explicar errores, traducir entre lenguajes de programación o incluso diseñar pequeños juegos como un tic-tac-toe en C# a partir de una simple descripción en lenguaje natural.
Usos prácticos de los LLM en el día a día
Los LLM se pueden afinar para tareas concretas que exprimen su capacidad de entender y generar texto, dando lugar a un abanico de aplicaciones cada vez mayor en entornos personales y empresariales.
Entre los usos más habituales encontramos los chatbots conversacionales tipo ChatGPT, Gemini o Copilot, que actúan como asistentes generales capaces de responder preguntas, explicar conceptos, ayudar con deberes, escribir correos o redactar informes.
Otra categoría muy potente es la de generación de contenido: descripciones de productos para ecommerce, textos publicitarios, artículos para blogs, guiones de vídeo, newsletters o publicaciones para redes sociales, todos ellos generados a partir de instrucciones relativamente sencillas.
En empresas, los LLM se utilizan para responder a preguntas frecuentes, automatizar parte de la atención al cliente, clasificar y etiquetar grandes volúmenes de feedback (reseñas, encuestas, comentarios en redes) y extraer insights sobre la percepción de marca, problemas recurrentes o oportunidades de mejora.
También destacan en tareas de traducción y localización, clasificación de documentos, extracción de información relevante, generación de resúmenes ejecutivos y apoyo a la toma de decisiones reforzando al equipo humano con análisis rápidos sobre grandes conjuntos de texto.
Limitaciones y riesgos de los LLM
Pese a su potencia, los LLM tienen limitaciones importantes que conviene tener muy presentes para usarlos con cabeza y sin expectativas irreales.
La más conocida es el fenómeno de las alucinaciones: el modelo puede generar información que suena muy convincente pero que es falsa o inexacta. Esto ocurre porque el LLM predice texto, no hechos, y si no tiene contexto suficiente o el prompt es ambiguo, completa los huecos con contenido plausible, aunque inventado.
También hay que considerar los sesgos. Los modelos aprenden de datos generados por personas, con todo lo que ello implica: prejuicios, estereotipos, desigualdades y visión parcial del mundo. Sin mecanismos de control y alineación, un LLM puede reproducir o incluso amplificar esos sesgos.
Otra limitación clave es su dependencia del prompt. La calidad de la respuesta depende en gran medida de cómo formules la petición: instrucciones vagas generan resultados mediocres, mientras que prompts bien diseñados dan lugar a respuestas mucho más útiles, precisas y accionables.
Por último, los LLM no tienen un entendimiento real del mundo: carecen de percepción directa, no tienen memoria de largo plazo integrada salvo que se le añadan sistemas externos y, salvo que el proveedor lo habilite, no acceden a información en tiempo real. Su “conocimiento” se limita a lo que estaba presente en sus datos de entrenamiento y a lo que quepa en su ventana de contexto actual.
Relación con el mundo empresarial y el trabajo
En el entorno corporativo, los LLM se están integrando en CRM, herramientas de ventas, servicios y plataformas de comercio para aumentar la productividad y mejorar la experiencia de cliente.
Estos modelos permiten automatizar tareas repetitivas como responder correos similares, generar propuestas iniciales de contrato, resumir llamadas o reuniones, y guiar a los agentes humanos con sugerencias de respuesta en tiempo real, sin sustituir necesariamente su criterio pero sí aligerando mucha carga mecánica.
En marketing y ventas, se emplean para segmentar mejor a los clientes, analizar grandes cantidades de datos textuales (reseñas, consultas, redes sociales), personalizar mensajes y descubrir oportunidades que, de otro modo, pasarían desapercibidas entre miles de interacciones.
Este impacto en el entorno laboral recuerda al de los robots industriales en la fabricación: se reduce parte del trabajo monótono, se transforman perfiles y aparecen nuevas funciones centradas en diseñar, supervisar e integrar sistemas de IA en los procesos existentes.
Futuro de los LLM: multimodalidad y mayores capacidades
La evolución de los LLM apunta hacia modelos cada vez más multimodales, capaces de procesar no solo texto, sino también imágenes, audio e incluso vídeo de forma integrada. De este modo, un mismo sistema podría entender una conversación, analizar un documento escaneado, interpretar un gráfico y razonar sobre todo ello a la vez.
Algunos modelos ya se entrenan con combinaciones de texto, audio y vídeo, lo que abre la puerta a aplicaciones avanzadas en campos como los vehículos autónomos, la robótica o los asistentes personales enriquecidos, que “ven” y “escuchan” además de leer.
A medida que se afinan las técnicas de entrenamiento, se espera que los LLM mejoren en precisión, reducción de sesgos y manejo de información actualizada, incorporando mecanismos de verificación externa y acceso controlado a fuentes de datos en tiempo real.
También veremos una consolidación de modelos híbridos: combinaciones de modelos cerrados de alto rendimiento con modelos abiertos especializados y herramientas locales que permitan mantener la privacidad y el control sobre los datos más sensibles.
En definitiva, los LLM están pasando de ser una novedad llamativa a convertirse en una infraestructura básica de productividad, tanto para personas como para empresas. Entender qué pueden hacer, cómo funcionan y cuáles son sus límites es clave para sacarles partido sin delegar en ellos más de lo que realmente pueden asumir.
Redactor apasionado del mundo de los bytes y la tecnología en general. Me encanta compartir mis conocimientos a través de la escritura, y eso es lo que haré en este blog, mostrarte todo lo más interesante sobre gadgets, software, hardware, tendencias tecnológicas, y más. Mi objetivo es ayudarte a navegar por el mundo digital de forma sencilla y entretenida.