Exo AI-Software: Erstellen Sie Ihren lokalen Cluster für LLM

Mundobytes » Rechnen » Hardware » Exo AI-Software: Heimatcluster für große Sprachmodelle

Exo ist eine Open-Source-Software, mit der Sie einen Cluster einrichten können. IA mit Alltagsgeräten, Verteilung von LLM-Modellen auf mehrere vernetzte Computer.
Die Plattform zeichnet sich durch ihre automatische Geräteerkennung, RDMA-Unterstützung über Thunderbolt 5 und dynamische Modellpartitionierung aus, wodurch die Nutzung von CPU, GPU und Speicher optimiert wird.
Es funktioniert besonders gut unter macOS mit GPU und MLX, während auf Linux Es läuft derzeit auf CPUs, wobei eine offene Roadmap zur Erweiterung der Unterstützung für … besteht. Hardware.
Exo eignet sich ideal für Projekte wie Home Assistant, KMUs und Entwickler, die fortschrittliche KI lokal ausführen möchten, ohne auf die Cloud angewiesen zu sein oder in High-End-GPUs zu investieren.

Exo AI-Software

Lokale Ausführung großer Sprachmodelle (LLM) wird üblicherweise mit riesigen Rechnern, extrem teuren Grafikkarten und hohem Energieverbrauch in Verbindung gebracht. In den letzten Monaten hat sich jedoch eine Alternative herauskristallisiert, die viel Aufmerksamkeit auf sich zieht: Exo, eine Software, die mehrere Haushaltsgeräte in einen KI-Cluster verwandelt Es ist in der Lage, sehr anspruchsvolle Modelle auszuführen, ohne auf die Cloud angewiesen zu sein.

Mit Exo, Die Idee besteht darin, die Rechenleistung von Computern zu bündeln. portátilesMobiltelefone und andere verbundene Geräte Durch die Bündelung ihrer Ressourcen können sie LLMs betreiben, die man normalerweise nur in professionellen Rechenzentren findet. Dies eröffnet die Möglichkeit, eine Art „Mini-Rechenzentrum“ zu Hause einzurichten – ideal für Projekte wie lokale Assistenten wie Home Assistant, KMU, die mit KI experimentieren möchten, ohne ein Vermögen auszugeben, oder neugierige Entwickler, die über typische Cloud-Tests hinausgehen wollen.

Was ist Exo und welche Probleme will es lösen?

Exo ist eine experimentelle Open-Source-Software.wird von Exo Labs betrieben, deren Hauptziel es ist, Ihnen den Bau Ihres eigenen Systems zu ermöglichen. Cluster von künstliche Intelligenz zu hause Exo nutzt dafür alltägliche Geräte. Anstatt auf eine einzelne GPU mit viel VRAM zu setzen, verteilt Exo das Modell auf mehrere Geräte, die mit demselben Netzwerk verbunden sind.

Exos Grundidee ist einfach, aber sehr wirkungsvoll.Ihre üblichen Geräte – ein MacBook, ein iPhoneEin iPad, ein Linux-PC oder sogar bestimmte Einplatinencomputer (SBCs) können zusammenarbeiten, um ein großes KI-Modell auszuführen. Jedes Gerät steuert Speicher und Rechenleistung bei, und die Software orchestriert alles so, als wäre es ein einziger, größerer Rechner.

Exo entstand als Antwort auf eine sehr häufige EinschränkungNicht jeder hat Zugang zu einer High-End-GPU wie einer NVIDIA Eine RTX 3090 mit 24 GB VRAM und mehreren Gigabyte RAM. Um ein „bescheidenes“ Modell wie Llama 3.1 70B mit akzeptabler lokaler Leistung zu betreiben, benötigt man Hardware, die das Budget vieler Entwickler, Bastler oder kleiner Unternehmen übersteigt.

Anstatt Sie zu zwingen, in ein monströses Gerät zu investieren oder sich ausschließlich auf die Cloud zu verlassen, Exo schlägt vor, den verfügbaren Speicher mehrerer einfacherer Geräte zu kombinieren. sodass das Gesamtmodell in das Cluster als Ganzes passt. Dies demokratisiert den Zugang zu Experimenten mit fortschrittlicher KI erheblich, was insbesondere für Startups und KMU interessant ist.

Exo KI-Cluster

Wie Exo auf technischer Ebene funktioniert

Das Herzstück von Exo liegt in seiner Fähigkeit, LLM-Modelle zu vertreiben. Exo verteilt das Modell auf alle verfügbaren Geräte in einem Heim- oder Büronetzwerk. Anstatt das gesamte Modell auf einem einzelnen Rechner zu speichern, zerlegt Exo es und nutzt so die kombinierte Speicher- und Rechenleistung jedes Knotens.

Um es zu machen, Exo verwendet einen verteilten Shared-Memory-AnsatzIndem der auf jedem Gerät platzierte Teil des Modells an die verfügbare Speichermenge (RAM und, unter macOS, GPU-VRAM) angepasst wird, kann ein Modell, das normalerweise eine sehr leistungsstarke GPU benötigen würde, auf Laptops, Desktop-PCs und sogar anderen Geräten ausgeführt werden, sofern der gesamte Clusterspeicher ausreicht.

Der Prozess beginnt mit der Installation von Exo auf kompatiblen Geräten.In vielen Fällen ist es erforderlich, Python 3.12 oder höher, zusätzlich zu anderen Tools wie einem Abhängigkeitsmanager und Compilern. Sobald der Dienst läuft, können die Geräte, auf denen Exo läuft, ... Sie entdecken sich automatisch. innerhalb desselben Netzwerks, ohne dass Sie IPs oder Ports manuell konfigurieren müssen.

Die interne Kommunikation zwischen den Knoten basiert auf Verbindungen. Peer-to-PeerDies begünstigt eine Architektur, in der jede Maschine ihren Beitrag leistet, ohne von einem einzigen, starren zentralen Server abhängig zu sein. Basierend auf dieser Topologie führt Exo eine Ressourcen- und Latenzanalyse durch, um zu entscheiden, wie das Modell aufgeteilt und wo die einzelnen Fragmente platziert werden sollen.

Eines der Schlüsselelemente ist die dynamische Partitionierung von ModellenExo erfasst in Echtzeit die Clustertopologie, die Ressourcen jedes Geräts (Speicher, CPU, GPU) und die Qualität der Netzwerkverbindungen (Latenz, Bandbreite zwischen den Knoten). Anhand dieser Informationen entscheidet es automatisch, wie das Modell aufgeteilt werden soll, um die Last auszugleichen und Engpässe zu minimieren.

Haupttechnische Merkmale von Exo

Das Exo-Projekt beinhaltet mehrere Funktionen, die darauf ausgelegt sind, das Beste aus ihm herauszuholen. Die verfügbare Hardware wird genutzt, um dem Benutzer die Arbeit zu erleichtern. Zu den wichtigsten gehören:

Automatisierte Discubrimiento de DispositivosDie Geräte, auf denen Exo läuft, finden sich automatisch, ohne dass Sie die Netzwerkkonfiguration anpassen müssen. Dadurch entfällt der übliche Aufwand mit statischen IPs, manuellen Ports oder benutzerdefinierten Skripten, damit die Knoten sich gegenseitig erkennen können.

Unterstützung für RDMA über ThunderboltEiner der auffälligsten Punkte ist, dass Exo mit Ab dem ersten Tag kompatibel mit RDMA (Remote Direct Memory Access) über Thunderbolt 5Dieser Ansatz ermöglicht es, die Latenz zwischen Geräten im Vergleich zu traditionelleren Kommunikationsmethoden um bis zu 99 % zu reduzieren, was von entscheidender Bedeutung ist, wenn Teile desselben Modells auf mehrere Maschinen verteilt werden.

So aktualisieren Sie Ihre SSD-Firmware Schritt für Schritt

Tensorieller ParallelismusExo implementiert Techniken von TensorparallelitätAnders ausgedrückt: Es verteilt die Tensoren des Modells auf mehrere Geräte. Dadurch wurden in bestimmten Konfigurationen Geschwindigkeitsverbesserungen von bis zu 1,8-fach bei Verwendung von zwei Geräten und bis zu 3,2-fach bei vier Geräten im Vergleich zur Ausführung des Modells auf einem einzelnen Gerät mit denselben Ressourcen erzielt.

Bewusste Topologie und SelbstparallelisierungDas System berechnet automatisch die optimale Methode zur Partitionierung des Modells und dessen Verteilung im Cluster, wobei sowohl die Leistung jedes Knotens als auch die Qualität der Verbindungen zwischen ihnen berücksichtigt werden. Diese Funktion von „Topologiebewusste automatische Parallelisierung“ Dadurch entfällt für den Benutzer der Aufwand, alles manuell anzupassen.

MLX-Integration und GPU-Unterstützung unter macOSUnter macOS verwendet Exo MLX als Inferenz-Backend und MLX Distributed für verteilte Kommunikation. Dadurch kann es die in Apple Silicon Chips integrierten GPUs nutzen, was insbesondere bei Geräten wie dem Download Mac Studio oder MacBook Pro der neuesten Generation.

Praktische Anwendungsfälle und Leistung auf Macs

Exo wurde in sehr anspruchsvollen Szenarien getestet. Durch die Kombination mehrerer High-End-Macs, die sowohl Tensorparallelität als auch RDMA über Thunderbolt 5 nutzen, konnten in diesen Setups gigantische Modelle ausgeführt werden, die man normalerweise nur in Rechenzentrumsumgebungen sieht.

Ein in der Gemeinde diskutiertes Beispiel ist die Verwendung von vier Mac Studio mit M3 Ultra Chip Angeschlossen an Thunderbolt 5 und RDMA. Zusammen ergeben sie rund 15 TB effektiven VRAM, um auch extrem große Modelle zu unterstützen.

Unter den Modellen, die in dieser Art von Einrichtung implementiert wurden, stechen folgende hervor: Qwen3-235B in 8 Bit, DeepSeek v3.1 671B ebenfalls auf 8 Bit quantisiert oder auch Kimi K2 Denkt in nativen 4 BitIn all diesen Fällen hostet jeder Mac einen Teil des Modells, und die Kommunikation zwischen den Knoten wird mittels RDMA optimiert.

Diese Experimente wurden von Schöpfern wie Jeff Geerling dokumentiert.Dies hat gezeigt, wie sich eine Heimkonfiguration mit enorm viel effektivem Videospeicher realisieren lässt. In diesem Szenario fungiert Exo als Orchestrierungsschicht, die es dem Modell ermöglicht, trotz der Verteilung auf mehrere Rechner kohärent zu funktionieren.

Über diese extremen Konfigurationen hinaus, Das gleiche Prinzip lässt sich auch auf bescheidenere Anwendungen anwenden.Zum Beispiel, um ein großes Sprachmodell zu trainieren, das als Gehirn eines hochentwickelten Hausautomatisierungssystems, eines privaten Konversationsassistenten oder von Textanalysetools in einem kleinen Unternehmen dient.

Nutzung von Exo mit Home Assistant und fortschrittlicher Hausautomation

Die Home Assistant-Community spricht bereits über Exo. Als Option zum lokalen Ausführen großer LLMs, die als Logikbausteine für die Hausautomation dienen. Obwohl viele es noch nicht direkt ausprobiert haben, hat das Projekt Aufmerksamkeit erregt, da es Folgendes verspricht: sehr schwere Modelle auf relativ bescheidener Hardwarevorausgesetzt, dass genügend Teams in Gruppen zusammengefasst werden.

Die Idee ist, dass anstatt sich auf eine leistungsstarke GPU oder die Cloud zu verlassenSie können einen Cluster mit mehreren Computern einrichten, auch wenn diese keine dedizierte GPU besitzen. Exo übernimmt die Verteilung des Modells auf alle Computer, sodass Home Assistant ein lokales LLM konsultieren kann, um komplexere Entscheidungen zu treffen oder natürlichere Antworten zu geben.

Dieser Ansatz ist besonders attraktiv für diejenigen, die Wert auf Privatsphäre legen.Da die Haushaltsdaten das lokale Netzwerk nicht verlassen müssen, werden alle Schlussfolgerungen und die Verarbeitung natürlicher Sprache innerhalb des von Ihnen eingerichteten Clusters durchgeführt, ohne auf externe Server angewiesen zu sein.

Das Projekt hat in Technologieblogs wie CNX Software Aufmerksamkeit erregt, wo Hervorgehoben wird, dass Exo sogar auf Computerclustern, Smartphones oder Entwicklungsboards laufen kann.In der Praxis findet sich die ausgereifteste Unterstützung derzeit jedoch auf macOS und Linux, wobei noch einige Einschränkungen bestehen. iOS.

Für viele Enthusiasten der Hausautomation die Kombination aus Exo und Home Assistant Es könnte das fehlende Puzzleteil sein, um einen fortschrittlichen, stets verfügbaren und vollständig lokalen Konversationsassistenten zu haben, ohne für Cloud-Tokens bezahlen zu müssen oder von Drittanbietern abhängig zu sein.

Kompatible KI-Modelle und Einschränkungen bei proprietären Modellen

Exo ist mit einer Vielzahl gängiger KI-Modelle kompatibel.insbesondere solche, die Teil des offenen Ökosystems sind und lokal heruntergeladen und ausgeführt werden können. Dazu gehören unter anderem Familien wie LLaMA, Mistral, LLaVA, Qwen und DeepSeek.

Im konkreten Fall von Lama 3 von MetaExo eignet sich besonders gut für diese Architekturen und ermöglicht unterschiedlich große Varianten je nach Clusterressourcen. Dadurch wird es sowohl einzelnen Anwendern als auch kleinen Unternehmen erleichtert, ein modernes Sprachmodell zu nutzen, ohne Lizenzkosten tragen oder auf APIs von Drittanbietern angewiesen sein zu müssen.

Ein weiterer interessanter Vorteil ist die Möglichkeit, eine mit folgender API kompatible API bereitzustellen: ChatGPTMit einigen Anpassungen ermöglicht Exo es Modellen, die auf Ihrem Cluster laufen, Anfragen in einem Format zu akzeptieren, das der API von OpenAIwas die Integration mit Anwendungen, die bereits mit diesem Standard arbeiten, erheblich vereinfacht.

Jedoch Bei proprietären Modellen wie GPT-4 gibt es klare Grenzen.GPT-4 ist ein geschlossenes Modell, das auf der Infrastruktur von OpenAI gehostet wird und nicht zum Download verfügbar ist. Das bedeutet, dass es definitionsgemäß nicht auf Exo oder einer anderen lokalen Umgebung außerhalb von OpenAI ausgeführt werden kann.

Beispiele für Low-Level-C und hardwarenahe Sprachen

Daher ist es bei der Arbeit mit Exo wichtig, Sie müssen sich an Open-Source-Modelle oder solche halten, die lokal verfügbar sind.Für die meisten praktischen Anwendungen (Chatbots, Assistenten, Textanalyse, einfaches und fortgeschrittenes Schlussfolgerungsvermögen) gibt es bereits einen ausreichend leistungsfähigen Katalog von Open-Source-Modellen, insbesondere durch die jüngste Weiterentwicklung von Modellen wie Llama 3.x, Qwen oder DeepSeek.

Hauptvorteile der Verwendung eines Exo-Clusters

Der größte Vorteil von Exo besteht darin, dass es eine drastische Reduzierung der Hardwareinvestitionen ermöglicht.Statt eine Workstation mit einer leistungsstarken Grafikkarte kaufen zu müssen, können Sie bereits vorhandene Computer und Geräte zu Hause oder im Büro wiederverwenden. Viele Nutzer könnten einen Cluster einrichten, indem sie einfach ihre Macs, einen älteren PC und andere ungenutzte Geräte einsetzen.

Dieser Ansatz demokratisiert den Zugang zu fortschrittlicher KIDies ermöglicht es Startups und KMUs mit begrenzten Budgets, in einem Marktsegment mitzuspielen, das bisher gut ausgestatteten Konzernen vorbehalten war. Nicht alle Projekte rechtfertigen die Anmietung teurer GPUs in der Cloud – in solchen Fällen ist ein lokaler Cluster die ideale Lösung.

Zusätzlich Exo ist hinsichtlich der Gerätetypen sehr flexibel.Obwohl die Unterstützung derzeit am weitesten fortgeschritten ist und macOS (mit GPUs) und Linux (derzeit mit CPUs) zum Einsatz kommen, zielt das Projekt darauf ab, auch andere Hardwaretypen zu integrieren und die Kompatibilität gezielt zu verbessern. Durch die Möglichkeit, verschiedene Maschinenprofile zu kombinieren, können Sie den Cluster an Ihre spezifischen Bedürfnisse anpassen.

Ein weiterer entscheidender Vorteil ist, dass es dank seiner verteilten Architektur Der Cluster lässt sich relativ einfach skalieren.Sollten Sie zu irgendeinem Zeitpunkt mehr Leistung benötigen, fügen Sie einfach ein weiteres Gerät hinzu, auf dem Exo läuft. Jeder neue Knoten wird automatisch erkannt und seine Ressourcen werden dem Gesamtvolumen hinzugefügt, ohne dass Sie das System von Grund auf neu konzipieren müssen.

Schließlich dynamische Partitionierung und Topologieerkennung Sie garantieren, dass selbst Geräte mit bescheidener Hardware einen sinnvollen Beitrag leisten können. Ein älterer Laptop kann zwar nicht das gesamte System allein ausführen, aber er kann einen Teil der Arbeitslast übernehmen oder Berechnungen durchführen und so zur Gesamtleistung beitragen.

Aktuelle Einschränkungen und zu berücksichtigende Punkte

Nicht alles ist perfekt, und Exo bleibt eindeutig experimentelle Software.Das bedeutet, dass Fehler, instabiles Verhalten oder häufige Änderungen in der Systemkonfiguration und im Betrieb weiterhin auftreten können. Es handelt sich nicht um eine ausgereifte kommerzielle Lösung, die man einmal einrichtet und dann vergisst.

Auf iOS-Geräten wie iPhone und iPad, Die Unterstützung ist noch begrenzt Es bedarf weiterer Entwicklung, um für die breite Öffentlichkeit wirklich nutzbar zu werden. Obwohl das Projekt auch die Nutzung dieser Geräte vorsieht, findet sich die reibungslose Benutzererfahrung derzeit größtenteils auf Computern.

Ein weiterer Schlüsselfaktor ist, dass Die Gesamteffizienz des Clusters hängt stark vom Heimnetzwerk ab.Bei überlasteten WLAN-Netzwerken, veralteten Routern oder langsamen Verbindungen kann die Verteilung eines großen Modells auf mehrere Knotenpunkte zu einem erheblichen Engpass werden. In anspruchsvollen Umgebungen ist der Einsatz hochwertiger Kabelverbindungen oder, im Falle von Macs, Thunderbolt 5 mit RDMA nahezu unerlässlich.

Darüber hinaus können zwar durch die Summe vieler einfacher Geräte beeindruckende Speicherkapazitäten erreicht werden, Sie werden in puncto reiner Leistung nicht immer mit einem Cluster von High-End-GPUs mithalten können.Es gilt, ein sensibles Gleichgewicht zwischen Koordinationskosten, Netzwerklatenzen und effektiver Rechenleistung zu finden, das berücksichtigt werden muss.

Mit allem, Das Wertversprechen von Exo bleibt sehr interessant: die Umwandlung vorhandener Geräte in einen Cluster, bei praktisch null Hardwarekosten, der in der Lage ist, Modelle auszuführen, die bis vor kurzem noch spezialisierten Rechenzentren vorbehalten schienen.

Exo-Installation, Anforderungen und Ausführungsmethoden

Um Exo unter macOS zum Laufen zu bringen Es ist üblich, Tools wie Homebrew für die Paketverwaltung, uv für die Python-Abhängigkeitsverwaltung, macmon für die Hardwareüberwachung auf Apple Silicon Chips, Node.js für den Aufbau des Web-Kontrollpanels und Rust (derzeit in der Nightly-Version) für die Kompilierung bestimmter Bindungen zu verwenden.

Der typische Arbeitsablauf in macOS verläuft wie folgt: Klonen Sie das offizielle GitHub-RepositoryInstallieren Sie die Abhängigkeiten und führen Sie den entsprechenden Befehl aus, um Exo zu starten. Dadurch werden sowohl die API als auch ein lokal erreichbares Web-Dashboard unter der Adresse gestartet. http://localhost:52415Von dort aus können Sie den Status des Clusters, der Modelle, der Instanzen usw. einsehen.

Zusätzlich zur Ausführung durch Terminal, Exo bietet eine native macOS-App an. Diese App läuft im Hintergrund. Sie benötigt macOS Tahoe 26.2 oder höher und wird als .dmg-Datei bereitgestellt (z. B. unter dem Namen EXO-latest.dmg). Während der Installation fragt sie möglicherweise nach der Berechtigung, bestimmte Systemeinstellungen zu ändern und ein Netzwerkprofil hinzuzufügen. Dies ist erforderlich, um erweiterte Funktionen wie RDMA zu aktivieren.

In Linux-Umgebungen erfolgt die Installation üblicherweise über den Paketmanager des Systems. (wie apt unter Debian/Ubuntu) oder alternativ über Homebrew unter Linux. Beachten Sie, dass einige Hilfsprogramme, wie z. B. macmon, macOS-spezifisch sind und unter Linux nicht verwendet werden.

Für den Augenblick Unter Linux läuft Exo auf der CPU.Aktuell werden GPU-Beschleuniger noch nicht vollständig unterstützt. Das Entwicklerteam arbeitet daran, die Kompatibilität mit verschiedenen Hardwareplattformen zu erweitern. Daher empfiehlt es sich, die Issues und Feature-Anfragen auf GitHub zu prüfen, um zu erfahren, ob Ihr Gerät zukünftig unterstützt wird.

Elon Musk unterbreitet im Streit mit Sam Altman ein Gebot von 97.400 Milliarden Dollar für OpenAI

Konfigurieren von RDMA über Thunderbolt unter macOS

Eine der auffälligsten Neuerungen der neuesten macOS-Versionen Es geht um die Hinzufügung von RDMA-Unterstützung, insbesondere über Thunderbolt-5-Anschlüsse. Diese Funktion ist entscheidend, um die Latenz zwischen physisch verbundenen Macs zu minimieren, was beim Vertrieb eines LLM-Modells sehr wertvoll ist.

RDMA ist ab macOS 26.2 verfügbar. Es funktioniert auf Geräten mit Thunderbolt 5. Beispiele hierfür sind der M4 Pro Mac mini, der M4 Max Mac Studio, das M4 Max MacBook Pro oder der M3 Ultra Mac Studio. Beim Mac Studio sollten Sie jedoch den Thunderbolt-5-Anschluss neben dem Ethernet-Anschluss vermeiden, da dieser gewisse Einschränkungen für RDMA aufweist.

Um RDMA zu aktivieren, Es ist notwendig, einen Prozess im Wiederherstellungsmodus zu befolgen.Die grundlegenden Schritte bestehen darin, den Mac herunterzufahren und ihn dann durch Gedrückthalten des Netzschalters für etwa 10 Sekunden wieder einzuschalten, bis das Menü erscheint. StartenWählen Sie die Option „Optionen“, um in die Wiederherstellungsumgebung zu gelangen, und öffnen Sie das Terminal über das Menü „Dienstprogramme“.

Innerhalb dieses Wiederherstellungsterminals Der in der Exo-Dokumentation angegebene Befehl wird ausgeführt Um RDMA auf Systemebene zu aktivieren, drücken Sie die Eingabetaste und starten Sie den Mac neu. Die Funktion ist dann aktiviert und Exo kann sie nutzen, um Verbindungen mit sehr geringer Latenz zwischen verschiedenen Macs herzustellen, die über Thunderbolt 5 verbunden sind.

Von dort Exo kümmert sich um den komplexen TeilDurch die Nutzung von RDMA werden Datenübertragungsverzögerungen zwischen den Knoten minimiert. Diese Verbesserung der internen Kommunikation ist besonders wichtig bei der Arbeit mit Modellen, die Hunderte von Milliarden von Parametern enthalten, die über mehrere Rechner verteilt sind.

Interagieren Sie mit Exo über API und Webpanel.

Zusätzlich zum grafischen Dashboard unter http://localhost:52415Exo stellt eine REST-API bereit, mit der Sie praktisch den gesamten Lebenszyklus von Modellen verwalten können: von der Auswahl des Speicherorts über die Erstellung von Instanzen und das Starten von Chat-Anfragen bis hin zur Freigabe von Ressourcen, wenn diese nicht mehr benötigt werden.

Ein typischer Ablauf könnte mit einer Abfrage des Endpunkts beginnen. /instance/previewsWenn Sie die Parameter des Modells senden, das Sie bereitstellen möchten, gibt dieser Dienst Folgendes zurück: alle gültigen Platzierungen für dieses Modell in Ihrem ClusterEs wäre so etwas wie eine Liste möglicher „Einsatzpläne“, basierend auf der aktuellen Topologie und den vorhandenen Ressourcen.

Basierend auf den Reaktionen auf diese Vorschau, Sie wählen das Layout, das Ihnen am besten passt. (zum Beispiel den ersten Eintrag in der Liste, den Sie mit Tools wie jq über das Terminal auswählen können) und verwenden Sie ihn, um eine POST-Anfrage an den Endpunkt zu senden. /BeispielDie Nutzdaten dieser Anfrage müssen den in CreateInstanceParams definierten Typen entsprechen, einschließlich Parametern wie Modell, Hardwarekonfiguration und zugewiesenen Knoten.

Sobald die Instanz erstellt ist, Sie können mit ihm über einen Endpunkt interagieren, der mit der OpenAI-API kompatibel ist.zum beispiel /v1/chat/completionsDie Struktur der JSON-Anfrage ist praktisch identisch mit derjenigen der ChatGPT-API, wodurch es sehr einfach ist, bestehende Anwendungen so anzupassen, dass sie auf Ihren Exo-Cluster anstatt auf die Cloud verweisen.

Wenn Sie ein bestimmtes Modell nicht mehr benötigen, Sie können die Instanz freigeben, indem Sie eine DELETE-Anfrage mit der Instanz-ID senden.die Sie durch Abfragen von Endpunkten wie beispielsweise /Zustand o /BeispielAndererseits ist es nützlich, schnelle Signale parat zu haben, wie zum Beispiel /models, das alle lokal verfügbaren Modelle auflistet, oder der Befehl /state selbst, der den aktuellen Bereitstellungsstatus detailliert anzeigt.

Projektstatus und Entwicklungsgemeinschaft

Exo wird auf GitHub im Repository exo-explore/exo gehostet. Es wird offen entwickelt, mit Beiträgen sowohl des Exo Labs-Kernteams als auch der Community. Die Datei CONTRIBUTING.md beschreibt die Richtlinien für Beiträge, das Einreichen von Pull Requests, das Melden von Fehlern und das Vorschlagen neuer Funktionen.

Da Es ist ein lebendiges Projekt, das sich ständig weiterentwickelt.Es ist üblich, dass neue Versionen, Verbesserungen der Kompatibilität mit verschiedenen Hardwaremodellen und Plattformen sowie Änderungen in der Konfiguration bestimmter Komponenten veröffentlicht werden. Daher empfiehlt es sich, die Dokumentation und offene Probleme regelmäßig zu überprüfen.

Hinsichtlich der Kompatibilität mit Beschleunigern, macOS profitiert derzeit von einer erweiterten Unterstützung dank der Nutzung der GPU und MLX.Unter Linux läuft es aktuell auf der CPU. Das Team hat Nutzer, die sich Unterstützung für neue Hardwaretypen wünschen, dazu aufgerufen, auf GitHub Anfragen zu stellen oder bestehende Anfragen durch Reaktionen zu unterstützen, damit die Prioritäten für die gefragtesten Plattformen festgelegt werden können.

Aus ökonomischer Sicht ist Exo ist komplett kostenlos und Open Source.Für die Nutzung der Software sind keine kostenpflichtigen Lizenzen erforderlich, was sich hervorragend für private, schulische oder kleine Geschäftsprojekte eignet, die ohne großes Budget ernsthaft mit KI experimentieren möchten.

Exo etabliert sich als wichtiger Akteur bei der Demokratisierung fortschrittlicher KI.Dies ermöglicht es jedem, der zu Hause oder im Büro mehrere Geräte besitzt, seinen eigenen Sprachmodellcluster einzurichten. Obwohl die Technologie noch Entwicklungspotenzial hat, sind die Möglichkeiten, die sich dadurch für Hausautomation, persönliche Assistenten, Datenanalyse und Testumgebungen für moderne Modelle eröffnen, enorm.

Holger

Leidenschaftlicher Autor über die Welt der Bytes und der Technologie im Allgemeinen. Ich liebe es, mein Wissen durch Schreiben zu teilen, und genau das werde ich in diesem Blog tun und Ihnen die interessantesten Dinge über Gadgets, Software, Hardware, technologische Trends und mehr zeigen. Mein Ziel ist es, Ihnen dabei zu helfen, sich auf einfache und unterhaltsame Weise in der digitalen Welt zurechtzufinden.