Ejecutar LLMs locales en Mac con Apple Silicon y MLX

Mundobytes » Software » Cómo ejecutar LLMs locales en Mac con Apple Silicon y MLX

MLX aprovecha la memoria unificada y la GPU Metal de Apple Silicon para ejecutar LLMs locales con alta eficiencia y menor consumo de recursos.
La combinación de MLX con herramientas como mlx-lm, Ollama y LM Studio permite usar, convertir y servir modelos abiertos en Mac sin depender de la nube.
La IA local facilita casos de uso reales como asistentes de código, RAG privado y automatización empresarial, manteniendo la privacidad de los datos.
Plataformas como FileMaker 2025 integran modelos MLX en sistemas ERP, llevando los LLMs locales desde la demo técnica a flujos de trabajo productivos.

Modelos de lenguaje locales en Mac con Apple Silicon y MLX

Si utilizas un Mac con chip M1, M2, M3 o M4, ya no estás condenado a depender de ChatGPT, Claude o Gemini en la nube para aprovechar la IA. El ecosistema de Apple ha madurado lo suficiente como para que puedas ejecutar modelos de lenguaje grandes (LLMs) directamente en tu máquina, con un rendimiento muy decente, buena velocidad y, sobre todo, con tus datos siempre bajo control.

La clave de este salto está en MLX, el framework de aprendizaje automático de Apple, y en cómo se integra con herramientas como mlx-lm, Ollama, LM Studio o incluso FileMaker 2025. Gracias a la memoria unificada de Apple Silicon y a un motor de inferencia optimizado, hoy es perfectamente viable montar asistentes de código, sistemas RAG locales, text-to-speech y flujos de trabajo empresariales enteros sin enviar ni un byte a servidores externos.

Qué es MLX y por qué importa en Apple Silicon

MLX es un framework de código abierto creado por Apple y pensado específicamente para exprimir la arquitectura de Apple Silicon. A diferencia de PyTorch o TensorFlow, que intentan ser multiplataforma y se adaptan a mil configuraciones, MLX se centra en los chips M1-M4 y aprovecha dos ventajas clave: la memoria unificada y la aceleración Metal de la GPU.

La memoria unificada implica que CPU y GPU comparten el mismo espacio de RAM, de modo que los pesos de un modelo no tienen que estar saltando de un sitio a otro. Esto se traduce en menos copias de datos, menos latencia y mejor uso de la memoria, algo vital cuando hablamos de modelos que pueden ocupar decenas de gigabytes.

El formato de modelos asociado a MLX suele utilizar archivos .npz (NumPy Zip) para almacenar pesos comprimidos, acompañados de un config.json y archivos de tokenizador. Modelos populares como Mistral, Phi-2 o LLaMA 3 pueden convertirse a este formato y ejecutarse directamente en tu Mac sin depender de APIs externas.

Apple ha apostado en serio por MLX: lo ha publicado bajo licencia abierta, lo integra con Apple Intelligence en macOS, iOS y iPadOS, y lo ha conectado con Swift mediante una API nativa. En la WWDC 2025, MLX se presentó ya como la base oficial para trabajar con modelos personalizados en el ecosistema Apple, lo que deja claro que no es un experimento pasajero, sino un componente estratégico.

En la práctica, esta apuesta convierte a MLX en la opción más lógica para quienes buscan una pila de IA local bien integrada en Mac, con recorrido a largo plazo y sin depender de que un tercero cambie las reglas del juego o los precios de sus APIs.

Formatos de modelos: MLX frente a GGUF y el papel de la conversión

En el mundo de los LLMs locales, el formato de los pesos marca diferencias de rendimiento muy claras. Uno de los estándares de facto es GGUF, heredero del antiguo GGML, que utilizan Ollama, llama.cpp y LM Studio. GGUF está optimizado para ejecución local y cuantización agresiva, y funciona de maravilla en entornos basados en llama.cpp.

Sin embargo, GGUF no está pensado para el modelo de memoria de MLX. Usuarios que llevan tiempo jugando con modelos en Macs con chip M han observado que, al convertir esos modelos GGUF al formato nativo de MLX, mejoran notablemente tanto el throughput (tokens por segundo) como el uso de memoria, especialmente en contextos largos donde el ancho de banda manda.

El flujo típico de conversión de un modelo desde GGUF hacia MLX incluye varios pasos: analizar la cabecera GGUF (bytes mágicos, número de tensores, metadatos), mapear o reordenar los pesos para que encajen con el layout de tensores de MLX, generar los archivos de configuración (config.json, tokenizer, etc.) y, por último, usar la utilidad mlx_lm.convert para arquitecturas que MLX soporte de forma nativa.

Desde 2026, Ollama ha empezado a integrar MLX como backend preferente en Mac con Apple Silicon, lo que confirma un movimiento claro del ecosistema hacia la convergencia entre formatos optimizados (GGUF) y ejecución nativa con MLX. La conversación en comunidades técnicas gira cada vez más en torno a qué modelos se convierten mejor, qué cuantizaciones aguantan sin perder calidad y cómo aprovechar MLX para reducir al mínimo la sobrecarga.

En paralelo, siguen conviviendo ambos mundos: GGUF sigue siendo el estándar cómodo para descargar modelos listos para usar desde Hugging Face u Ollama, mientras que el formato MLX se impone cuando se busca el máximo rendimiento en Mac y se está dispuesto a dar un paso extra en configuración.

Situación actual: Apple Intelligence, MLX y el hardware Apple Silicon

Con la llegada de Apple Intelligence en 2024, la compañía dio un paso firme al llevar funcionalidades de IA directamente al sistema operativo: asistencia de escritura, resúmenes de correo, edición de imágenes, búsquedas semánticas, etc. Muchas de estas tareas se ejecutan de forma completamente local en dispositivos con chip M1 o superior, aprovechando los motores de inferencia integrados y la memoria unificada.

Estos avances no llegan a los Mac con Intel, lo que marca una división clara entre la vieja generación y la era Apple Silicon. En los equipos con M1-M4, en cambio, Apple está desplegando modelos fundacionales propios dentro del sistema, al tiempo que impulsa MLX como la vía oficial para que desarrolladores y usuarios avanzados trabajen con sus propios modelos.

Cómo resumir archivos con Copilot

A nivel de hardware, la combinación de CPU eficiente, GPU integrada y memoria unificada convierte a los Mac en una opción muy sólida para inferencia local, aunque no compitan con GPUs dedicadas de gama alta para entrenamiento masivo. Benchmarks no oficiales en la comunidad muestran mejoras de 20-30% en velocidad de generación cuando se usa MLX frente a llama.cpp sobre Metal en la misma máquina, algo que se nota especialmente en proyectos que requieren interacción rápida, como asistentes de código.

Además, Apple ha ido presentando nuevas generaciones de chips (hasta M4 y posteriores), con mejoras de rendimiento específicas para cargas de ML. En máquinas con 64 GB, 96 GB o incluso 128 GB de memoria unificada, es posible cargar modelos grandes que en PC exigirían GPU dedicadas muy caras, lo que hace que un Mac mini o un portátil potente puedan servir como servidor de IA local para un equipo pequeño.

De cara a los próximos años, todo apunta a que MLX seguirá ganando peso en el ecosistema Apple, tanto a nivel de funcionalidades del sistema como de herramientas para desarrolladores, consolidándose como el estándar de facto para IA local en Mac.

Cómo usar MLX en la práctica: instalación y primeros pasos

Usar MLX hoy en día no requiere ser un gurú del machine learning, pero sí sentirse mínimamente cómodo con el Terminal y con Python. La buena noticia es que el flujo básico se puede resumir en unos pocos comandos y, una vez configurado, la experiencia es bastante sencilla.

Lo primero es cumplir con los requisitos mínimos: un Mac con Apple Silicon (M1 o posterior), macOS 13 Ventura o superior, conexión a Internet para descargar los modelos y algo de espacio en disco (unos 8-10 GB para modelos pequeños, bastante más si quieres modelos grandes). El Terminal ya viene instalado de serie (en Aplicaciones > Utilidades).

MLX se apoya en Python. Muchas instalaciones de macOS ya traen Python 3, pero conviene comprobarlo con python3 –version. Si no aparece ninguna versión o es demasiado antigua, lo habitual es instalar Homebrew y, con él, la versión adecuada de Python. Una vez tienes Python listo, puedes instalar el paquete mlx-lm con un simple pip3 install mlx-lm.

Desde ese momento, mlx-lm se encarga de casi todo: descarga modelos compatibles desde Hugging Face, gestiona la cuantización y lanza sesiones de chat desde la línea de comandos. Por ejemplo, para probar un Mistral ajustado para instrucciones, basta con ejecutar algo como mlx_lm.chat –model mlx-community/Mistral-7B-Instruct-v0.3-4bit, y el sistema se encargará de bajar los archivos necesarios, convertirlos al formato adecuado y poner el modelo en marcha.

Una vez descargado, el modelo se cachea en local, de manera que las siguientes ejecuciones son mucho más rápidas y, lo mejor, ya no necesitas conexión a Internet para seguir usándolo. A partir de ahí, puedes integrar MLX en scripts de Python, proyectos Swift o incluso montarlo detrás de una API propia para conectarlo con otras aplicaciones.

Comparativa: MLX frente a Ollama, llama.cpp y LM Studio

MLX no vive solo. En el panorama de LLMs locales en Mac convive con herramientas muy populares como Ollama, llama.cpp y LM Studio, cada una con su personalidad, ventajas y limitaciones. Entender cómo encajan te ayuda a elegir el “motor” correcto según tu caso de uso.

Ollama se ha convertido en la puerta de entrada más fácil a los LLMs locales. Con unos pocos comandos puedes descargar modelos en formato GGUF, ejecutarlos y exponer una API compatible con OpenAI en localhost. Para desarrolladores es comodísimo: cualquier código que ya hable con la API de OpenAI se puede apuntar a Ollama cambiando solo la URL base.

Llama.cpp es el motor de inferencia C/C++ sobre el que se apoya Ollama y muchas otras herramientas. Es extremadamente flexible y muy optimizado, pero su uso directo suele ser más árido, y se reserva para quienes necesitan control fino sobre compilación, opciones avanzadas o despliegues en dispositivos muy limitados.

LM Studio, por su parte, ofrece una interfaz gráfica nativa para Mac que simplifica la descarga, gestión y ejecución de modelos. Es ideal para quien no quiere pelear con la terminal: eliges modelo, motor (incluido MLX en Apple Silicon), ajustas parámetros básicos y chateas en una ventana amigable. Desde hace tiempo soporta MLX como backend, así que puedes beneficiarte de las optimizaciones de Apple sin salirte de la app.

MLX se diferencia de todos ellos en que es el framework de base, especialmente ajustado a Apple Silicon. Cuando Ollama o LM Studio usan MLX como motor en lugar de Metal puro, se gana en eficiencia de memoria, velocidad de inferencia y menor fricción con la arquitectura de memoria unificada. Eso no significa que MLX sustituya a Ollama o LM Studio: más bien, se complementan. Muchos usuarios usan MLX directamente para tareas de alta demanda y Ollama para servir modelos a aplicaciones mediante API.

Ventajas concretas de MLX frente a soluciones basadas en GGUF

Las soluciones centradas en GGUF, como Ollama o llama.cpp, tienen una gran virtud: funcionan en casi cualquier plataforma, desde PCs con GPU dedicada hasta servidores Linux y dispositivos modestos. Pero cuando limitamos el foco al Mac con Apple Silicon, MLX empieza a destacar por varios aspectos técnicos muy concretos.

Qué es Copilot Pages en Microsoft 365 y cómo sacarle partido

En primer lugar, la gestión de memoria. MLX aprovecha a bajo nivel la memoria unificada de los chips M, reduciendo copias y mejorando la forma en que los pesos del modelo se mapean en RAM. Esto se nota mucho en contextos largos (por ejemplo, cuando usas ventanas de contexto grandes para RAG o análisis de documentos extensos), donde otros motores acaban penalizados por el movimiento constante de datos.

En segundo lugar, MLX está alineado con la hoja de ruta de Apple. A medida que Apple amplía Apple Intelligence, refina los compiladores y mejora los kernels de ML, MLX recibe directamente esas mejoras. Esto convierte a MLX en una apuesta “preparada para el futuro” para cualquiera que desarrolle software en el ecosistema Apple o quiera integrar IA con frameworks como Swift, AppKit o SwiftUI.

También influye la extensibilidad. MLX permite trabajar no solo con inferencia, sino también con entrenamiento y ajuste fino (incluyendo LoRA) y cuantificación dentro del propio framework, lo que facilita montar ciclos completos de experimentación: descargas un modelo, lo adaptas con tus datos, lo sirves localmente y, si es necesario, lo integras en un ERP o en aplicaciones a medida.

Por último, al estar publicado bajo una licencia abierta, la comunidad técnica puede inspeccionar, contribuir y crear herramientas sobre MLX, como hace ya mlx-lm. Esto está generando una ecosistema emergente de modelos ya convertidos, guías y utilidades que van acercando MLX a la experiencia “plug & play” que muchos usuarios esperan.

De la demo al uso real: cómo se está usando la IA local en Mac

Durante un tiempo, ejecutar LLMs locales en Mac tenía un aire de experimento de laboratorio: algo que enseñabas en una demo, pero que luego no usabas todos los días. Eso está cambiando de forma acelerada conforme Ollama aprovecha MLX y la pila de software madura.

Las historias que se leen en comunidades como r/LocalLLaMA o foros de desarrolladores van en la misma dirección: usuarios que han pasado de tener un “PC gaming para IA” a apoyarse casi siempre en un MacBook con chip M, porque la experiencia del día a día es más agradable: menos ruido, menos consumo, más integración con el resto del trabajo.

Uno de los factores clave es que la memoria unificada cambia la forma de pensar. En lugar de obsesionarse con los gigabytes de VRAM disponibles en una GPU dedicada, en un Mac con 64 GB de memoria unificada puedes cargar modelos de tamaño considerable sin pelearte con límites artificiales de tarjeta gráfica. Obviamente, hay un techo físico y el ancho de banda también cuenta, pero los cuellos de botella son distintos y, en muchos flujos de trabajo de desarrolladores, más amables.

A esto se suma la mejora constante en técnicas de cuantización, como las variantes Q4 bien ajustadas o enfoques como TurboQuant, que permiten encajar modelos de 20B o 30B parámetros en entornos mucho más modestos sin degradar en exceso la calidad. Cuando se combina una buena cuantización con MLX, aparece un “efecto compuesto”: más velocidad, menos memoria y modelos más grandes de lo que parecía razonable hace solo un par de años.

En el plano práctico, esto se traduce en asistentes de codificación locales, sistemas RAG privados para documentos internos, pipelines de procesamiento de datos y hasta asistentes personales sin conexión que funcionan bien en un MacBook y convierten al portátil en una especie de “servidor de IA portátil”. Todo ello con la tranquilidad de que los datos nunca salen de la máquina.

Text-to-speech local con MLX: el ejemplo de Murmur

MLX no solo sirve para modelos de texto. Un caso real muy ilustrativo es Murmur, una aplicación nativa para macOS que realiza conversión de texto a voz (TTS) totalmente en local utilizando MLX como motor de inferencia. La idea es sencilla: pegas o escribes texto, pulsas un botón y obtienes un archivo de audio WAV generado en tu Mac.

La gracia de Murmur es que rompe con el modelo típico de los servicios TTS en la nube: no hay suscripciones mensuales, no hay límite de caracteres, no necesitas conexión a Internet y tu texto no se sube a ningún servidor. Es una compra única y el procesamiento ocurre íntegramente en el equipo, apoyándose en la GPU mediante Metal y en la memoria unificada.

En términos de rendimiento, en máquinas con M2 Pro o M3 Max se manejan velocidades bastante cómodas: del orden de 150 palabras en pocos segundos, con el ventilador casi siempre silencioso y sin bloquear el resto del sistema. La calidad de la voz se sitúa en la categoría “narrador convincente”, por debajo de gigantes hiper-especializados como ElevenLabs, pero más que suficiente para escuchar artículos, revisar borradores o generar locuciones de prueba.

Sus limitaciones son honestas: no pretende ser streaming en tiempo real, el inglés funciona mejor que otros idiomas y, por ahora, solo está disponible para Apple Silicon. Aun así, ilustra muy bien cómo MLX permite empaquetar modelos complejos en apps “para humanos”, integradas en el escritorio, que aportan valor real sin exponer contenido sensible a terceros.

Además, este tipo de proyectos abre la puerta a funciones adicionales: importar documentos completos (PDF, EPUB, DOCX), diálogos con varias voces o incluso clonación de voz local a partir de muestras cortas, todo ello aprovechando la infraestructura que ya pone a tu alcance MLX en Mac.

IA local y empresa: de MLX y Ollama a FileMaker y sistemas ERP

En entornos profesionales, la verdadera potencia de la IA local no está solo en el modelo, sino en su integración en los sistemas de negocio. Aquí entran en juego herramientas como FileMaker 2025, soluciones ERP personalizadas y arquitecturas híbridas que combinan ejecución local con servicios en la nube cuando realmente hacen falta.

Modo Smart Window y Ventana IA en Firefox: guía completa

FileMaker 2025, desarrollado por Claris (filial de Apple), ha dado un paso importante al permitir alojar modelos MLX directamente en FileMaker Server. Esto significa que una base de datos empresarial puede exponer comandos de script que llamen a un modelo de lenguaje local, alojado en el propio servidor, sin que ningún dato crítico salga del perímetro de la organización.

Una de las aplicaciones más interesantes es el ajuste fino mediante LoRA. En lugar de gestionar manualmente datasets, scripts y versiones de modelos, FileMaker ofrece una interfaz estructurada donde se pueden organizar registros de entrenamiento, parámetros y versiones de forma centralizada. El resultado es un flujo de trabajo reproducible donde el ajuste de modelos deja de ser algo artesanal y se convierte en un proceso empresarial más.

En paralelo, los sistemas ERP actúan como el “pegamento” que une datos, procesos y resultados de la IA. La IA local (ya sea con MLX u Ollama) se conecta mediante APIs, servicios Python o integraciones específicas, de forma que los modelos no viven aislados en una esquina, sino insertados en flujos como facturación, análisis de documentos, soporte interno o generación de informes.

Para organizaciones con requisitos fuertes de cumplimiento (protección de datos, regulaciones sectoriales, confidencialidad), esta combinación de ejecución local, control de versiones y trazabilidad, junto con la seguridad al usar IA en local, resulta mucho más atractiva que depender únicamente de servicios externos, cuyos términos pueden cambiar y que, por diseño, exigen sacar información fuera.

Casos de uso potentes: asistentes, RAG privado y copilotos de código

Más allá de la parte puramente técnica, lo interesante es qué se puede construir realmente sobre esta pila. Algunos de los casos de uso más sólidos de los LLMs locales en Mac con Apple Silicon y MLX son los asistentes de codificación, sistemas RAG privados y copilotos de productividad.

Un patrón especialmente útil consiste en separar la lógica en capas: una interfaz (por ejemplo, un editor de código o una app de escritorio), un servidor local que traduce las peticiones en llamadas al modelo y gestiona la inferencia, y el propio modelo de lenguaje. El modelo nunca toca directamente el sistema de archivos; en su lugar, propone acciones estructuradas (tool calls) que la aplicación ejecuta de forma controlada, devolviendo el resultado como contexto.

Las tool calls son fundamentales para que el asistente sea realmente útil. El modelo genera una instrucción estructurada (por ejemplo, “lee este archivo”, “ejecuta estos tests”, “busca este texto en el proyecto”), el servidor la interpreta, la aplicación la ejecuta y los resultados se reinyectan en el contexto del modelo. Todo esto necesita un tokenizer correcto y parsers robustos que sepan entender el formato de salida del modelo; si la configuración falla, las tool calls pueden romperse y hacer que la experiencia sea errática.

Otro ámbito clave es el de los sistemas RAG (Retrieval-Augmented Generation) privados. Con un LLM local sobre MLX u Ollama, más una base de datos vectorial (ChromaDB, por ejemplo), puedes indexar documentos internos, contratos, manuales o historiales de tickets y consultarlos en lenguaje natural, sin exponer esos datos a una API remota. Para sectores como salud, legal o administración pública, esto marca la diferencia.

Por último, los copilotos de código locales conectados a herramientas como Continue.dev o Tabby permiten que un equipo de desarrollo aproveche IA para autocompletado, refactorización o generación de pruebas sin que su repositorio salga del entorno corporativo. Con modelos optimizados para programación (como Qwen o variantes de LLaMA 3 afinadas para código) y MLX como motor en Mac, la experiencia se acerca mucho a la de copilotos en la nube, pero con un perfil de privacidad radicalmente distinto.

Al final, la decisión no suele ser “todo local” o “todo nube”, sino un enfoque híbrido: tareas sensibles y rutinarias (resúmenes, clasificación, revisiones internas) se resuelven con modelos locales, mientras que consultas de razonamiento extremo o necesidades puntuales pueden delegarse en APIs externas. Lo importante es que, con Apple Silicon y MLX, el lado local de la balanza es cada vez más atractivo y menos sacrificado.

La combinación de Apple Silicon, memoria unificada y MLX ha pasado de ser una curiosidad técnica a una opción muy seria para ejecutar modelos de lenguaje locales en Mac. Con herramientas como mlx-lm, LM Studio, Ollama y plataformas empresariales como FileMaker 2025, es posible montar desde asistentes personales hasta flujos ERP complejos, manteniendo los datos en casa, con costes controlados y un rendimiento que ya no se siente de “segunda división” frente a grandes GPUs. Para cualquiera que trabaje con información sensible, busque independencia de proveedores o quiera exprimir su Mac más allá de lo habitual, apostar por LLMs locales con MLX se ha convertido en una jugada muy razonable.

Modelos de lenguaje LLM: qué son y cómo funcionan

Isaac

Redactor apasionado del mundo de los bytes y la tecnología en general. Me encanta compartir mis conocimientos a través de la escritura, y eso es lo que haré en este blog, mostrarte todo lo más interesante sobre gadgets, software, hardware, tendencias tecnológicas, y más. Mi objetivo es ayudarte a navegar por el mundo digital de forma sencilla y entretenida.