Exo AI 軟體:大型語言模型的集群

最後更新: 08/01/2026
作者: 艾薩克
  • Exo 是一款開源軟體,可用於設定叢集。 IA 利用日常設備,將 LLM 模型分發到多台連網電腦上。
  • 該平台以其自動設備發現、透過 Thunderbolt 5 實現 RDMA 支援以及動態模型分區而脫穎而出,從而優化了 CPU、GPU 和記憶體的使用。
  • 它在 macOS 上使用 GPU 和 MLX 時效果尤其好,而在 Linux 它目前可在 CPU 上運行,並已製定開放的路線圖以擴展對其他平台的支援。 硬件.
  • Exo 非常適合像 Home Assistant 這樣的專案、中小企業以及希望在本地運行高級 AI 而無需依賴雲端或投資高端 GPU 的開發人員。

Exo AI軟體

大型語言模型的本地執行 (LLM)通常與龐大的機器、極其昂貴的顯示卡和高能耗連結在一起。然而,近幾個月來,一種替代方案出現並引起了廣泛關注: Exo是一款可以將多個家用設備變成人工智慧叢集的軟體 無需依賴雲端技術即可運行要求極高的模型。

與 Exo 一起, 其理念是匯集計算機的算力。 手提手機和其他連網設備 因此,透過整合資源,他們可以運行通常只有在專業資料中心才能看到的LLM(生命週期管理)。這為在家中搭建一種「迷你資料中心」打開了大門,非常適合像Home Assistant這樣的本地助理專案、希望在不花費巨資的情況下嘗試人工智慧的中小企業,以及想要超越傳統雲端測試的開發者。

Exo是什麼?它旨在解決什麼問題?

Exo 是一款開放原始碼實驗軟體由 Exo Labs 維護,其主要目標是讓您能夠建立自己的 叢集 人工智能 在家裡 使用日常設備。 Exo 不依賴單一配備大量顯存的 GPU,而是將模型分佈在連接到相同網路的多個裝置上。

Exo 的理念很簡單,但卻非常強大。你常用的設備-一台MacBook,一台 iPhoneiPad、Linux PC,甚至某些單板電腦 (SBC) 都可以協同運行大型 AI 模型。每台設備都貢獻記憶體和運算能力,軟體則協調所有設備,使其像一台更大的機器一樣運作。

Exo的誕生是為了回應一個非常普遍的限制。並非每個人都能用得起高階GPU,例如 NVIDIA 一張配備 24GB 記憶體和數十GB 記憶體的 RTX 3090 顯示卡。要運行像 Llama 3.1 70B 這樣「入門級」的程式並獲得不錯的本地性能,所需的硬體配置超出了許多開發者、創客或小型企業的預算。

與其強迫你投資購買笨重的設備或完全依賴雲端服務, Exo 提出將幾個容量較小的裝置的可用記憶體合併起來。 這樣,整個模型就能與集群整體相契合。這大大提高了先進人工智慧實驗的普及度,對新創企業和中小企業來說尤其具有吸引力。

Exo AI集群

Exo 的技術工作原理

Exo 的核心在於其分發 LLM 模型的能力。 Exo 可以將整個模型部署到家庭或辦公室網路中所有可用裝置。它不會將整個模型載入到單一機器上,而是將其分解並分發,從而充分利用每個節點的記憶體和運算能力。

為了做到這一點, Exo採用分散式共享記憶體方法透過根據可用記憶體(RAM,以及在 macOS 系統中的 GPU 顯存)的大小調整模型在每個裝置上運行的部分,從而實現這一點。因此,通常需要非常強大的 GPU 才能運行的模型,只要叢集記憶體總量足夠,就可以在筆記型電腦、桌上型電腦甚至其他裝置上運行。

該過程首先在相容設備上安裝 Exo。在許多情況下,這需要擁有 蟒蛇 3.12 或更高版本,以及其他工具,例如依賴管理器和編譯器。服務運行後,運行 Exo 的設備 它們會自動發現彼此 在同一網路內,無需手動設定 IP 位址或連接埠。

節點間的內部通訊是基於連線。 對等這種架構有利於每台機器貢獻自身能力,而無需依賴單一的、僵化的中央伺服器。基於這個拓樸結構,Exo 會進行資源和延遲分析,以確定如何劃分模型以及將每個片段放置在何處。

關鍵要素之一是模型的動態劃分Exo能夠即時取得叢集拓樸結構、各設備資源(記憶體、CPU、GPU)以及網路連結品質(延遲、節點間頻寬)等資訊。基於這些信息,它能夠自動決定如何劃分模型,從而平衡負載並最大限度地減少瓶頸。

Exo的主要技術特點

Exo 專案融合了多種旨在充分發揮其性能的功能。 現有硬體的改進使用戶的生活更加便捷。其中最值得關注的是:

自動設備發現運行 Exo 的裝置無需您修改網路配置即可相互發現。這避免了處理靜態 IP 位址、手動連接埠或自訂腳本等常見難題,從而實現節點間的互聯互通。

支援透過 Thunderbolt 進行 RDMA最引人注目的一點是,Exo 伴隨著 首發即相容 Thunderbolt 5 上的 RDMA(遠端直接記憶體存取)與更傳統的通訊方法相比,這種方法可以將設備之間的延遲降低高達 99%,這在將同一型號的各個部分分佈到多台機器上時至關重要。

  Xbox 押註生成式人工智慧打造其遊戲目錄

張量平行性Exo 採用了以下技術 張量並行換句話說,它將模型的張量分佈在多個裝置上。因此,在某些配置下,與在相同資源下於單一裝置運行模型相比,使用兩個裝置可達到高達 1,8 倍的速度提升,使用四個裝置可達到高達 3,2 倍的速度提升。

意識拓撲和自並行化該系統會自動計算劃分模型並將其分佈到叢集中的最佳方式,同時考慮每個節點的效能以及節點間連接的品質。這一特性 “拓撲感知自動並行” 它減少了用戶手動調整所有設定的需求。

macOS 上的 MLX 整合和 GPU 支持在 macOS 上,Exo 使用 MLX 作為推理後端 以及用於分散式通訊的 MLX Distributed。這使其能夠利用整合到 Apple Silicon 晶片中的 GPU,這在諸如以下設備中尤其有趣: 免費下載 Studio 或最新一代 MacBook Pro。

在Mac上的實際應用案例和效能

Exo 已在極其嚴苛的場景下進行了測試。 透過組合多台高階 Mac,利用 Thunderbolt 5 的張量並行性和 RDMA,我們得以運行通常只有在資料中心環境中才能看到的龐大模型。

社區討論的一個例子是使用 四台配備 M3 Ultra 晶片的 Mac Studio 它們透過 Thunderbolt 5 和 RDMA 連接。兩者加起來可提供約 15 TB 的有效顯存,足以容納極為龐大的模型。

在此類設定中已實施的模型中,以下幾種模型特別突出: 8 位 Qwen3-235B, 深度搜尋 v3.1 671B 也量化為 8 位 甚至 Kimi K2 以原生 4 位元方式思考在所有這些情況下,每個 Mac 都承載著模型的一部分,節點之間的通訊透過 RDMA 進行最佳化。

這些實驗已被傑夫·吉爾林等創作者記錄下來。這表明,可以建立一個擁有大量有效顯存的家庭配置。在這種情況下,Exo 作為編排層,使模型即使分佈在多台機器上也能協同運作。

除了這些極端配置之外, 同樣的原理也適用於規模較小的用途。例如,為大型語言模型提供訓練數據,該模型可作為高級家庭自動化系統、私人對話助理或小型企業內部文字分析工具的大腦。

將 Exo 與 Home Assistant 和高級家庭自動化結合使用

Home Assistant 社群已經在討論 Exo 了。 作為一種在本地運行大型邏輯邏輯模型(LLM)的選項,這些模型可用作家庭自動化的推理引擎。儘管許多人尚未直接嘗試過,但該項目已引起關注,因為它有望實現… 在配置相對較低的硬體上運行非常複雜的模型前提是分組的隊伍數量夠多。

其理念是, 而不是依賴強大的GPU或雲即使多台電腦沒有獨立顯示卡,您也可以建立一個叢集。 Exo 會負責將模型分佈到所有電腦上,讓 Home Assistant 可以諮詢本地的 LLM(邏輯邏輯模型)來做出更複雜的決策或提供更自然的回應。

這種方法對那些重視隱私的人來說尤其有吸引力。由於家庭資料不需要離開本地網絡,所有推理和自然語言處理都在您設定的叢集內執行,無需依賴外部伺服器。

該專案已在 CNX Software 等技術部落格上引起關注, 值得一提的是,Exo 甚至可以在電腦叢集、智慧型手機或開發板上運行。然而,實際上,目前 macOS 和 Linux 上的支援最為完善,但仍存在一些限制。 iOS.

對於許多家庭自動化愛好者來說, Exo + Home Assistant 的組合 這可能是實現先進、始終在線且完全本地化的對話式助理所缺少的關鍵一環,無需支付雲端令牌費用或依賴第三方。

相容的AI模型以及與專有模型的局限性

Exo 與許多流行的 AI 模型相容。尤其是那些屬於開放生態系統、可以下載並在本地運行的程式。其中包括 LLaMA、Mistral、LLaVA、Qwen 和 DeepSeek 等系列程式。

在具體情況下 Meta 的 Llama 3Exo 與這些架構的兼容性特別出色,它可以根據叢集資源創建不同規模的變體。這使得個人實驗者和小型企業都能更輕鬆地使用現代語言模型,而無需承擔授權費用或依賴第三方 API。

另一個有趣的優勢是可以公開一個與以下系統相容的 API: ChatGPT經過一些調整,Exo 允許在叢集上執行的模型以類似於 API 的格式接受請求。 OpenAI這大大簡化了與已採用該標準的應用程式的整合。

黃大仙禁運, 當我們談到像 GPT-4 這樣的專有模型時,有一個明顯的限制。GPT-4 是一個封閉模型,託管在 OpenAI 的基礎架構上,無法下載。這意味著,根據定義,它無法在 Exo 或 OpenAI 以外的任何其他本地環境中運作。

  電腦硬體分析完整指南

因此,使用Exo時 您必須堅持使用開源模型或可供本地使用的模型。對於大多數實際應用(聊天機器人、助手、文本分析、基本和高級推理),已經存在足夠強大的開源模型目錄,特別是隨著 Llama 3.x、Qwen 或 DeepSeek 等模型的最新發展。

使用Exo叢集的主要優勢

Exo最大的優勢在於它可以大幅減少硬體投資。與其購買配備強大GPU的工作站,不如重新利用家中或辦公室現有的電腦和設備。許多用戶只需利用他們的Mac電腦、舊PC和其他閒置設備,就能輕鬆建立叢集。

這種方法 使更多人能夠獲得先進的人工智慧這使得預算緊張的新創公司和中小企業也能參與以往只有資源雄厚的大公司才能參與的競爭中。並非所有專案都值得租用昂貴的雲端GPU,而本地叢集在這種情況下就顯得非常合理。

另外, Exo在設備類型方面非常靈活。雖然目前最成熟的支援平台是 macOS(使用 GPU)和 Linux(目前使用 CPU),但該專案旨在整合其他類型的硬件,並逐步提升相容性。這種混合使用不同機器配置的能力,讓您可以根據自身特定需求來設計叢集。

另一個關鍵優勢是,由於其分散式架構, 該集群可以相對容易地進行擴展。如果任何時候需要提升效能,只需增加另一台運行 Exo 的裝置即可。每個新節點都會自動偵測,其資源也會新增到總資源中,無需您從頭開始重新設計系統。

最後, 動態分區和拓樸感知 他們保證,即使是硬體配置一般的設備也能做出有用的貢獻。雖然老舊的筆記型電腦無法獨立運作整個系統,但它可以處理部分工作負載或執行一些計算,從而提升整體效能。

目前限制和需要考慮的事項

並非所有事物都完美無缺,Exo 顯然仍是一款實驗性軟體。這意味著系統配置和運作方式仍可能出現錯誤、不穩定行為或頻繁變更。它並非成熟商業產品層級的「一勞永逸」的解決方案。

在 iOS 裝置(例如 iPhone 和 iPad)上, 支持仍然有限 而且,它還需要進一步開發才能真正供大眾使用。雖然該專案也設想利用這些設備,但目前流暢的使用體驗主要還是在電腦上實現的。

另一個關鍵因素是 集群的整體效率將很大程度上取決於家庭網路。如果您的 Wi-Fi 網路擁塞、路由器老舊或連線速度慢,將大型模型分佈在多個節點上可能會成為嚴重的瓶頸。在嚴苛的環境中,幾乎肯定會使用高品質的有線連接,或者,對於 Mac 電腦來說,使用支援 RDMA 的 Thunderbolt 5 介面。

此外,雖然許多小型裝置的總和可以達到令人印象深刻的記憶體容量, 它們在原始性能上並不總是能與一組高端 GPU 相媲美。協調成本、網路延遲和有效運算能力之間存在著微妙的平衡,必須加以考慮。

一切, Exo的價值主張仍然非常有趣。:將現有設備改造為集群,幾乎無需任何硬體成本,即可運行直到最近似乎只有專業資料中心才能運行的模型。

Exo安裝、要求和執行方法

要在 macOS 上啟動並執行 Exo 通常情況下,會使用 Homebrew 等工具進行軟體包管理,使用 uv 進行 Python 依賴管理,使用 macmon 監控 Apple Silicon 晶片上的硬件,使用 Node.js 建立 Web 控制面板,以及使用 Rust(目前為 nightly 版本)編譯某些綁定。

macOS 中的典型工作流程如下: 克隆官方 GitHub 倉庫安裝依賴項並執行相應的命令來啟動 Exo。這將啟動 API 和一個位於下列位址的本機可存取 Web 控制面板。 http://localhost:52415從那裡可以看到叢集、模型、實例等的狀態。

除了執行之外 終端, Exo 提供原生 macOS 應用 此應用程式在背景運行。它需要 macOS Tahoe 26.2 或更高版本,並以 .dmg 檔案格式分發(例如,檔案名稱為 EXO-latest.dmg)。安裝過程中,它可能會要求修改某些系統設定並新增網路設定檔的權限,這對於啟用 RDMA 等進階功能是必要的。

在 Linux 環境中,安裝通常需要使用系統的軟體套件管理器。 (例如在 Debian/Ubuntu 上使用 apt)或如果您願意,也可以透過 Linux 上的 Homebrew 安裝。請注意,某些實用程式(例如 macmon)是 macOS 特有的,在 Linux 上無法使用。

目前, 在Linux系統中,Exo運行在CPU上。目前,GPU加速器尚未得到全面支援。開發團隊正在努力擴展對不同硬體平台的兼容性,因此,如果您想了解您的特定設備未來是否會得到支持,建議您查看GitHub上的問題和功能請求。

  DeepSeek 如何避免回應中的偏見以及這意味著什麼

在 macOS 上設定 Thunderbolt 上的 RDMA

macOS 最新版本最引人注目的新功能之一 新增的 RDMA 支持,尤其是在 Thunderbolt 5 連接埠上,對於最大限度地減少實體連接的 Mac 之間的延遲至關重要,這在分發 LLM 模型時非常有價值。

從 macOS 26.2 開始,RDMA 可用; 它適用於配備 Thunderbolt 5 介面的裝置。 例如 M4 Pro Mac mini、M4 Max Mac Studio、M4 Max MacBook Pro 或 M3 Ultra Mac Studio。但是,就 Mac Studio 而言,您應該避免使用位於乙太網路連接埠旁的 Thunderbolt 5 端口,因為它在 RDMA 方面存在一些限制。

要啟動 RDMA, 必須在恢復模式下執行某個步驟。基本步驟包括關閉 Mac,然後按住電源按鈕約 10 秒鐘,直到出現選單,即可開啟。 開機選擇“選項”進入恢復環境,然後從“實用工具”功能表開啟終端。

在該恢復終端內, 執行Exo文檔中指示的命令。 在系統層級啟用 RDMA。按下 Enter 鍵並重新啟動 Mac 後,該功能將被激活,Exo 可以使用它在透過 Thunderbolt 5 連接的不同 Mac 之間建立超低延遲的連接。

從那裡 Exo負責處理複雜部分。利用 RDMA 技術最大限度地減少節點間的資料傳輸延遲。當處理包含數千億個參數且分佈在多台機器上的模型時,這種內部通訊的改進尤其重要。

透過 API 和 Web 面板與 Exo 進行交互

除了位於 http://localhost:52415 的圖形化儀表板之外Exo 公開了一個 REST API,讓您可以管理模型的幾乎整個生命週期:選擇放置模型的位置、建立實例、發起聊天請求以及在不再需要時釋放資源。

典型的流程可能從查詢端點開始。 /實例/預覽當您傳送要部署的模型的參數時,此服務會傳回結果。 該模型在集群中的所有有效部署位置它類似於根據當前拓撲結構和資源列出的可能的「部署計劃」清單。

根據那次預覽的回饋來看, 您可以選擇最適合您的佈局。 (例如,清單中的第一個,您可以使用 jq 等工具從終端機選擇它),並使用它向端點發送 POST 請求。 /實例此請求的有效負載必須符合 CreateInstanceParams 中定義的類型,包括模型、硬體配置和指派的節點等參數。

實例建立完成後, 您可以使用與 OpenAI API 相容的端點與其互動。例如 /v1/聊天/完成JSON 請求的結構與 ChatGPT API 所使用的結構幾乎相同,因此可以非常輕鬆地調整現有應用程序,使其指向您的 Exo 叢集而不是雲端。

當您不再需要特定型號時, 您可以透過傳送帶有實例 ID 的 DELETE 請求來釋放它。您可以透過查詢諸如以下端點來找到它們: /狀態 o /實例另一方面,手邊備有一些快速訊號也很有用,例如: /模型,其中列出了所有本地可用的模型,或 /state 命令本身,其中詳細說明了當前的部署狀態。

專案狀態與發展社區

Exo託管在GitHub上,倉庫名為exo-explore/exo。 它採用開源開發模式,Exo Labs 核心團隊和社群成員都做出了貢獻。 CONTRIBUTING.md 檔案概述了貢獻、提交 pull request、報告 bug 和提出新功能的指南。

考慮到 這是一個不斷發展的鮮活項目。新版本發布、針對不同硬體型號和平台的兼容性改進,以及某些組件配置方式的變更,都是常見的現象。因此,建議經常查閱文件並提交問題。

關於與加速器的兼容性, 由於使用了 GPU 和 MLX,macOS 目前享有更高級的支援。目前,該程式在 Linux 系統下運行於 CPU 平台。開發團隊鼓勵有興趣支援新型硬體的使用者在 GitHub 上提交請求或透過按讚來支援現有請求,以便他們能夠確定哪些平台的需求量最大,並確定優先順序。

從經濟角度來看, Exo 是完全免費且開源的。使用該軟體無需付費許可,這非常適合預算有限但又想認真嘗試人工智慧的個人、教育或小型企業專案。

Exo 正成為先進人工智慧民主化進程中的關鍵參與者。這使得在家中或辦公室擁有多台設備的使用者能夠建立自己的語言模型群集。雖然這項技術仍有待完善,但它為家庭自動化、個人助理、數據分析以及現代模型的測試環境開闢了廣闊的應用前景。