Exo software IA: crea tu clúster local para LLM

Mundobytes » Informática » Hardware » Exo software IA: clúster casero para modelos de lenguaje grandes

Exo es un software de código abierto que permite montar un clúster de IA con dispositivos cotidianos, repartiendo modelos LLM entre varios equipos conectados en red.
La plataforma destaca por su descubrimiento automático de dispositivos, soporte de RDMA sobre Thunderbolt 5 y partición dinámica de modelos, optimizando el uso de CPU, GPU y memoria.
Funciona especialmente bien en macOS con GPU y MLX, mientras que en Linux actualmente se ejecuta sobre CPU, con una hoja de ruta abierta para ampliar el soporte de hardware.
Exo resulta ideal para proyectos como Home Assistant, PYMEs y desarrolladores que buscan ejecutar IA avanzada en local sin depender de la nube ni invertir en GPUs de gama alta.

La ejecución local de modelos de lenguaje grandes (LLM) suele asociarse con máquinas descomunales, tarjetas gráficas carísimas y consumos energéticos poco amigables. Sin embargo, en los últimos meses ha surgido una alternativa que está llamando mucho la atención: Exo, un software que convierte varios dispositivos domésticos en un clúster de IA capaz de mover modelos muy exigentes sin depender de la nube.

Con Exo, la idea es agrupar la potencia de ordenadores, portátiles, móviles y otros aparatos conectados para que, sumando sus recursos, puedan ejecutar LLM que normalmente solo veríamos en centros de datos profesionales. Esto abre la puerta a montarte una especie de “mini data center” en casa, ideal para proyectos como asistentes locales tipo Home Assistant, PYMEs que quieran trastear con IA sin arruinarse o desarrolladores curiosos que quieran ir un paso más allá de las típicas pruebas en la nube.

Qué es Exo y qué pretende resolver

Exo es un software experimental de código abierto, mantenido por Exo Labs, cuyo objetivo principal es que puedas montar tu propio clúster de inteligencia artificial en casa utilizando dispositivos cotidianos. En lugar de depender de una única GPU con mucha VRAM, Exo reparte el modelo entre varios equipos conectados a la misma red.

La premisa de Exo es sencilla pero muy potente: tus dispositivos habituales —un MacBook, un iPhone, un iPad, algún PC con Linux, incluso ciertos SBC (single board computers)— pueden colaborar entre sí para ejecutar un modelo de IA de gran tamaño. Cada uno aporta memoria y capacidad de cómputo, y el software se encarga de orquestarlo todo para que funcione como si fuera una sola máquina más grande.

Exo nace como respuesta a una limitación muy habitual: no todo el mundo tiene acceso a una GPU de gama alta como una NVIDIA RTX 3090 con 24 GB de VRAM y decenas de gigas de RAM. Ejecutar un modelo “modesto” como Llama 3.1 70B con un rendimiento decente en local exige un hardware que se sale del presupuesto de muchos desarrolladores, makers o pequeñas empresas.

En vez de obligarte a invertir en un equipo monstruoso o recurrir sí o sí a la nube, Exo propone sumar la memoria disponible de varios dispositivos más modestos para que el modelo completo quepa en el conjunto del clúster. De este modo, se democratiza bastante el acceso a la experimentación con IA avanzada, algo especialmente interesante para startups y PYMEs.

Cómo funciona Exo a nivel técnico

El corazón de Exo está en su capacidad de distribuir modelos LLM entre todos los dispositivos disponibles en una red doméstica o de oficina. En lugar de cargar el modelo entero en un solo equipo, Exo lo trocea y lo reparte, aprovechando la suma de la memoria y la potencia de cálculo de cada nodo.

Para lograrlo, Exo utiliza un enfoque de memoria compartida distribuida, adaptando la parte del modelo que se coloca en cada dispositivo según la cantidad de memoria (RAM y, en macOS, VRAM de la GPU) disponible. Así, un modelo que normalmente requeriría una GPU muy potente puede ejecutarse combinando portátiles, sobremesas e incluso otros dispositivos siempre que la memoria total del clúster sea suficiente.

El proceso arranca con la instalación de Exo en los equipos compatibles. En muchos casos exige tener Python 3.12 o superior, además de otras herramientas como gestor de dependencias y compiladores. Una vez se pone en marcha el servicio, los dispositivos que ejecutan Exo se descubren automáticamente entre sí dentro de la misma red, sin que tengas que ir configurando IPs o puertos a mano.

La comunicación interna entre nodos se basa en conexiones peer-to-peer, lo que favorece una arquitectura en la que cada máquina aporta lo que puede sin depender de un único servidor central rígido. Sobre esa topología, Exo realiza un análisis de recursos y latencias para decidir cómo particionar el modelo y dónde colocar cada fragmento.

Una de las piezas clave es la partición dinámica de modelos. Exo obtiene una vista en tiempo real de la topología del clúster, de los recursos de cada dispositivo (memoria, CPU, GPU) y de la calidad de los enlaces de red (latencia, ancho de banda entre nodos). Con esa información decide de manera automática cómo dividir el modelo para equilibrar carga y minimizar cuellos de botella.

Principales características técnicas de Exo

El proyecto Exo incorpora varias funciones pensadas para exprimir al máximo el hardware disponible y facilitar la vida al usuario. Entre las más destacadas se encuentran:

Descubrimiento automático de dispositivos: los equipos que corren Exo se encuentran entre sí sin que tengas que tocar la configuración de red. Esto evita la típica pesadilla de andar con IPs fijas, puertos manuales o scripts personalizados para que los nodos se vean mutuamente.

Soporte para RDMA sobre Thunderbolt: uno de los puntos más llamativos es que Exo viene con compatibilidad desde el primer día con RDMA (Remote Direct Memory Access) sobre Thunderbolt 5. Este enfoque permite reducir la latencia entre dispositivos hasta en un 99 % frente a métodos de comunicación más tradicionales, algo crítico cuando se reparten partes de un mismo modelo entre varias máquinas.

Ya están aquí los finalistas de los European Hardware Awards 2025

Paralelismo tensorial: Exo implementa técnicas de tensor parallelism, es decir, divide los tensores del modelo entre varios dispositivos. Gracias a esto, en ciertas configuraciones se han reportado mejoras de hasta 1,8 veces en velocidad usando 2 equipos y hasta 3,2 veces con 4, en comparación con ejecutar el modelo en un solo dispositivo con los mismos recursos.

Topología consciente y auto-paralelización: el sistema calcula automáticamente la mejor forma de partir el modelo y distribuirlo por el clúster, teniendo en cuenta tanto la potencia de cada nodo como la calidad de las conexiones entre ellos. Esta característica de “topology-aware auto parallel” reduce la necesidad de que el usuario ajuste todo a mano.

Integración con MLX y soporte GPU en macOS: en macOS, Exo utiliza MLX como backend de inferencia y MLX Distributed para la comunicación distribuida. Esto le permite sacar partido de las GPUs integradas en los chips Apple Silicon, algo especialmente interesante en equipos como los Mac Studio o MacBook Pro de última generación.

Casos prácticos de uso y rendimiento en Macs

Exo ha sido probado en escenarios muy exigentes combinando varios Mac de gama alta, aprovechando tanto el paralelismo tensorial como el RDMA sobre Thunderbolt 5. En estos montajes, se han llegado a ejecutar modelos gigantescos que normalmente solo veríamos en entornos de centros de datos.

Un ejemplo comentado en la comunidad es el uso de cuatro Mac Studio con chip M3 Ultra conectados con Thunderbolt 5 y RDMA. Juntos suman del orden de 15 TB de VRAM efectiva para albergar modelos demenciales en tamaño.

Entre los modelos que se han llegado a ejecutar en este tipo de set-ups destacan Qwen3-235B en 8 bits, DeepSeek v3.1 671B también cuantizado a 8 bits o incluso Kimi K2 Thinking en 4 bits nativos. En todos estos casos, cada Mac alberga una parte del modelo y la comunicación entre nodos se optimiza mediante RDMA.

Estos experimentos han sido documentados por creadores como Jeff Geerling, que ha mostrado cómo es posible montar una configuración casera con una enorme cantidad de memoria de vídeo efectiva. Exo, en este escenario, actúa como la capa de orquestación que hace posible que el modelo funcione de forma coherente a pesar de estar troceado entre varias máquinas.

Más allá de estas configuraciones extremas, el mismo principio se puede aplicar a usos más modestos, por ejemplo, para alimentar un gran modelo de lenguaje que sirva como cerebro de un sistema domótico avanzado, un asistente conversacional privado o herramientas de análisis de texto dentro de una pequeña empresa.

Uso de Exo con Home Assistant y domótica avanzada

En la comunidad de Home Assistant ya se está hablando de Exo como opción para ejecutar localmente LLM grandes que sirvan de motor de razonamiento para la automatización del hogar. Aunque muchas personas aún no lo han probado directamente, el proyecto ha llamado la atención porque promete permitir modelos muy pesados en hardware relativamente modesto, siempre que se agrupen suficientes equipos.

La idea es que, en lugar de depender de una GPU brutal o de la nube, puedas montar un clúster con varios ordenadores, incluso aunque no tengan GPU dedicada. Exo se encargaría de repartir el modelo a lo largo de todos ellos, permitiendo que Home Assistant consulte a un LLM local para tomar decisiones más complejas o para ofrecer respuestas más naturales.

Este enfoque resulta especialmente atractivo para quienes priorizan la privacidad, ya que los datos del hogar no tienen por qué salir de la red local. Toda la inferencia y el procesamiento de lenguaje se realizan dentro del clúster que has montado, sin depender de servidores externos.

El proyecto ha recibido atención en blogs de tecnología como CNX Software, donde se destaca que Exo puede funcionar incluso sobre clústeres de ordenadores, smartphones o placas de desarrollo. Eso sí, en la práctica actual el soporte más pulido se encuentra en macOS y Linux, con ciertas limitaciones todavía en iOS.

Para muchos entusiastas de la automatización del hogar, la combinación Exo + Home Assistant podría ser la pieza que faltaba para tener un asistente conversacional avanzado, siempre encendido y completamente local, sin pagar por tokens en la nube ni depender de terceros.

Modelos de IA compatibles y límites con modelos propietarios

Exo es compatible con una buena cantidad de modelos de IA populares, especialmente aquellos que forman parte del ecosistema abierto y que pueden descargarse y ejecutarse localmente. Aquí encontramos familias como LLaMA, Mistral, LLaVA, Qwen o DeepSeek, entre otras.

En el caso concreto de Llama 3 de Meta, Exo se lleva especialmente bien con estas arquitecturas, lo que permite usar variantes de distinto tamaño según los recursos del clúster. Esto facilita que tanto experimentadores individuales como pequeñas empresas puedan disponer de un modelo de lenguaje moderno sin incurrir en costes de licencia ni depender de APIs de terceros.

Otra ventaja interesante es la posibilidad de exponer una API compatible con ChatGPT. Con algunos ajustes, Exo permite que los modelos que corren en tu clúster acepten peticiones en un formato similar al de la API de OpenAI, lo cual simplifica enormemente la integración con aplicaciones que ya trabajan con ese estándar.

Sin embargo, hay un límite claro cuando hablamos de modelos propietarios como GPT-4. GPT-4 es un modelo cerrado, alojado en la infraestructura de OpenAI y no disponible para descarga. Esto significa que, por definición, no se puede ejecutar en Exo ni en ningún otro entorno local ajeno a OpenAI.

Solución: "Por favor Inserte Un Disco En La Unidad USB" Sin Perder Datos

Por tanto, cuando se trabaja con Exo hay que ceñirse a modelos de código abierto o disponibles para uso local. Para la mayoría de aplicaciones prácticas (chatbots, asistentes, análisis de texto, razonamiento básico y avanzado) ya existe un catálogo de modelos open source suficientemente potente, especialmente con la evolución reciente de modelos como Llama 3.x, Qwen o DeepSeek.

Ventajas principales de utilizar un clúster Exo

La gran baza de Exo es que permite reducir drásticamente la inversión en hardware. En lugar de tener que comprar una estación de trabajo con una GPU gigantesca, puedes reutilizar ordenadores y dispositivos que ya tienes en casa u oficina. Muchos usuarios podrían montar un clúster simplemente aprovechando sus Macs, algún PC antiguo y otros equipos que ya estaban infrautilizados.

Este enfoque democratiza el acceso a la IA avanzada, haciendo que startups y PYMEs con presupuestos ajustados puedan jugar en una liga que antes estaba reservada a corporaciones con muchos recursos. No todos los proyectos justifican alquilar GPUs caras en la nube, y ahí es donde un clúster local cobra mucho sentido.

Además, Exo es muy flexible en cuanto a tipos de dispositivos. Aunque el soporte más maduro está ahora mismo en macOS (con uso de GPU) y Linux (actualmente en CPU), el proyecto apunta a integrar también otros tipos de hardware y tácticamente ir mejorando la compatibilidad. Esa capacidad de mezclar distintos perfiles de máquinas te permite diseñar el clúster según tus necesidades concretas.

Otra ventaja clave es que, gracias a su arquitectura distribuida, el clúster se puede escalar de forma relativamente sencilla. Si en un momento dado necesitas más rendimiento, basta con añadir un dispositivo más que ejecute Exo. Cada nuevo nodo se detectará automáticamente y sumará sus recursos al total, sin que tengas que rediseñar el sistema desde cero.

Por último, la partición dinámica y la conciencia de topología garantizan que incluso equipos con hardware modesto puedan aportar algo útil. Aunque un portátil viejo no vaya a mover todo el modelo por sí solo, sí puede albergar parte de los pesos o realizar parte de los cálculos, contribuyendo al rendimiento global.

Limitaciones actuales y puntos a tener en cuenta

No todo es perfecto y Exo sigue siendo un software claramente experimental. Eso implica que todavía pueden aparecer errores, comportamientos inestables o cambios frecuentes en la forma de configurar y ejecutar el sistema. No es una solución “instalar y olvidar” al nivel de un producto comercial maduro.

En dispositivos iOS como iPhone y iPad, el soporte todavía es limitado y requiere más trabajo de desarrollo para convertirse en algo realmente usable para el público general. Aunque la visión del proyecto contempla aprovechar también estos dispositivos, a día de hoy el grueso de la experiencia fluida se encuentra en los ordenadores.

Otro factor clave es que la eficiencia global del clúster dependerá muchísimo de la red doméstica. Si tienes un WiFi saturado, routers antiguos o enlaces lentos, repartir un modelo grande entre varios nodos puede volverse un cuello de botella importante. En entornos serios, casi se da por hecho que utilizarás conexiones cableadas de calidad o, en el caso de los Mac, Thunderbolt 5 con RDMA.

Además, aunque la suma de muchos dispositivos modestos pueda alcanzar cifras de memoria impresionantes, no siempre van a competir en rendimiento bruto con un clúster de GPUs de gama alta. Hay un equilibrio delicado entre el coste de coordinación, latencias de red y la potencia efectiva de cálculo que hay que tener en cuenta.

Con todo, la propuesta de valor de Exo sigue siendo muy interesante: transformar equipos que ya tienes, a coste prácticamente cero en hardware, en un clúster capaz de ejecutar modelos que hasta hace poco parecían exclusivos de centros de datos especializados.

Instalación, requisitos y formas de ejecución de Exo

Para poner en marcha Exo en macOS es habitual utilizar herramientas como Homebrew para la gestión de paquetes, así como uv para el manejo de dependencias de Python, macmon para monitorizar el hardware en chips Apple Silicon, Node.js para construir el panel de control web y Rust (actualmente en versión nightly) para compilar ciertos bindings.

El flujo típico en macOS pasa por clonar el repositorio oficial de GitHub, instalar las dependencias y lanzar el comando correspondiente para arrancar Exo. Al hacerlo, se levanta tanto la API como un tablero web accesible localmente en la dirección http://localhost:52415, desde el que puedes ver el estado del clúster, modelos, instancias, etc.

Además de la ejecución por terminal, Exo ofrece una aplicación nativa para macOS que corre en segundo plano. Esta app requiere macOS Tahoe 26.2 o superior y se distribuye en formato .dmg (por ejemplo, bajo el nombre EXO-latest.dmg). Al instalarla, es posible que te pida permiso para modificar ciertos ajustes del sistema y añadir un perfil de red, algo necesario para habilitar funciones avanzadas como RDMA.

En entornos Linux, la instalación suele pasar por el uso del gestor de paquetes del sistema (como apt en Debian/Ubuntu) o por Homebrew para Linux si lo prefieres. Hay que tener en cuenta que algunas utilidades, como macmon, son específicas de macOS y no se utilizan en Linux.

Por el momento, en Linux Exo se ejecuta sobre CPU, sin soporte completo para aceleradores GPU. El equipo de desarrollo está trabajando en ampliar la compatibilidad con diferentes plataformas de hardware, por lo que es recomendable revisar los issues y peticiones de funcionalidades en GitHub si quieres saber si tu dispositivo concreto podría estar soportado en el futuro.

Campos receptivos en redes neuronales convolucionales (CNN)

Configuración de RDMA sobre Thunderbolt en macOS

Una de las novedades más llamativas de las últimas versiones de macOS es la incorporación de soporte para RDMA, especialmente sobre puertos Thunderbolt 5. Esta característica es fundamental para reducir al mínimo la latencia entre Mac conectados físicamente, algo muy valioso cuando reparten un modelo LLM.

RDMA está disponible a partir de macOS 26.2 y funciona en equipos con Thunderbolt 5 como los M4 Pro Mac mini, M4 Max Mac Studio, M4 Max MacBook Pro o M3 Ultra Mac Studio. Eso sí, en el caso concreto del Mac Studio hay que evitar utilizar el puerto Thunderbolt 5 que está justo al lado del puerto Ethernet, ya que tiene ciertas limitaciones de uso para RDMA.

Para activar RDMA, es necesario seguir un proceso en modo Recuperación. Los pasos básicos consisten en apagar el Mac, arrancarlo manteniendo pulsado el botón de encendido durante unos 10 segundos hasta que aparezca el menú de arranque, escoger la opción “Opciones” para entrar en el entorno de recuperación y abrir el Terminal desde el menú de Utilidades.

Dentro de ese Terminal de recuperación, se ejecuta el comando indicado en la documentación de Exo para habilitar RDMA a nivel del sistema. Tras pulsar Intro y reiniciar el Mac, la funcionalidad queda activada y Exo puede utilizarla para establecer enlaces de muy baja latencia entre los distintos Mac conectados por Thunderbolt 5.

A partir de ahí, Exo se encarga de la parte compleja, aprovechando RDMA para reducir al mínimo los retardos en el paso de datos entre nodos. Esta mejora en la comunicación interna es especialmente importante cuando se trabaja con modelos de cientos de miles de millones de parámetros troceados entre varias máquinas.

Interacción con Exo mediante API y panel web

Además del tablero gráfico en http://localhost:52415, Exo expone una API REST con la que se puede gestionar prácticamente todo el ciclo de vida de los modelos: elegir dónde se colocan, crear instancias, lanzar peticiones de chat y liberar recursos cuando ya no se necesitan.

Un flujo típico puede comenzar consultando el endpoint /instance/previews. Al enviar los parámetros del modelo que quieres desplegar, este servicio devuelve todas las colocaciones válidas para dicho modelo en tu clúster. Sería algo así como una lista de “planes de despliegue” posibles basados en la topología y recursos actuales.

A partir de la respuesta de esa vista previa, eliges la disposición que mejor te encaje (por ejemplo, la primera de la lista, que puedes seleccionar con herramientas como jq desde la terminal) y la usas para realizar una petición POST al endpoint /instance. La carga de esta petición debe ajustarse a los tipos definidos en CreateInstanceParams, incluyendo parámetros como el modelo, configuración de hardware y nodos asignados.

Una vez creada la instancia, puedes interactuar con ella usando un endpoint compatible con la API de OpenAI, por ejemplo /v1/chat/completions. La estructura de la petición JSON es prácticamente la misma que se usaría con la API de ChatGPT, de forma que es muy sencillo adaptar aplicaciones existentes para que apunten a tu clúster Exo en lugar de a la nube.

Cuando ya no necesitas un modelo concreto, puedes liberarlo enviando una petición DELETE con el ID de la instancia, que puedes localizar consultando endpoints como /state o /instance. Por otro lado, resulta útil tener a mano señales rápidas como /models, que lista todos los modelos disponibles localmente, o el propio /state, donde se detalla el estado del despliegue actual.

Estado del proyecto y comunidad de desarrollo

Exo se aloja en GitHub bajo el repositorio exo-explore/exo y se desarrolla de forma abierta, con aportaciones tanto del equipo principal de Exo Labs como de la comunidad. En el archivo CONTRIBUTING.md se recogen las pautas para colaborar, abrir pull requests, informar de errores o proponer nuevas funcionalidades.

Dado que se trata de un proyecto vivo y en plena evolución, es habitual que aparezcan nuevas versiones, mejoras de compatibilidad con modelos y plataformas de hardware, así como cambios en la forma de configurar determinados componentes. Por ello, conviene revisar con frecuencia la documentación y los issues abiertos.

En lo que respecta a la compatibilidad con aceleradores, actualmente macOS disfruta de un soporte más avanzado gracias al uso de la GPU y MLX, mientras que en Linux el funcionamiento es, de momento, sobre CPU. El equipo responsable ha animado a los usuarios interesados en ver soporte para nuevos tipos de hardware a abrir o apoyar peticiones existentes con reacciones en GitHub, de forma que puedan priorizar qué plataformas son más demandadas.

Desde el punto de vista económico, Exo es completamente gratuito y de código abierto. No hay licencias de pago asociadas al uso del software, lo que encaja muy bien con proyectos personales, educativos o de pequeñas empresas que quieran experimentar seriamente con IA sin un presupuesto elevado.

Exo se está consolidando como una pieza clave en la democratización de la IA avanzada, permitiendo que cualquier persona con varios dispositivos en casa o en la oficina pueda montar su propio clúster de modelos de lenguaje. Aunque todavía tiene camino por recorrer, las posibilidades que abre son muy amplias para domótica, asistentes privados, análisis de datos y entornos de prueba de modelos modernos.

Isaac

Redactor apasionado del mundo de los bytes y la tecnología en general. Me encanta compartir mis conocimientos a través de la escritura, y eso es lo que haré en este blog, mostrarte todo lo más interesante sobre gadgets, software, hardware, tendencias tecnológicas, y más. Mi objetivo es ayudarte a navegar por el mundo digital de forma sencilla y entretenida.