Посібник з розгортання пристрою виведення локального LLM I Agent

Мундобайти » Софтвер » Що таке I Agent Local LLM Inference Device? Посібник з розгортання

Посібник спільноти, який складає реальні тести пристроїв для локального виведення LLM, зосереджені на агентах та моделях штучного інтелекту на основі параметрів 9B.
Він використовує сімейство Qwen 3.5 як стандартний орієнтир і в основному вимірює швидкість декодування та попереднє заповнення в токенах/с, порівнюючи результати з теоретичними обмеженнями пропускної здатності.
У ньому розкриваються поширені тактики завищення показників у маркетингу обладнання (розсіяні TOPS, надзвичайна точність, неоднорідне укладання), щоб уникнути оманливих покупок.
Він пропонує інтерактивні перегляди (рейтинг, 2D/3D графіки та повну таблицю) та приймає внески від спільноти з підтвердженням тестування, щоб дані були прозорими та корисними.

Посібник з розгортання локального пристрою виводу LLM

Якщо ви розглядаєте створити агента зі штучним інтелектом на власному комп'ютері І незалежно від хмари, ви, мабуть, зустрічали цей термін «Посібник з розгортання пристрою виведення локального LLM I Agent» або за допомогою веб-сайту llmdev.guide. За цією довгою назвою криється щось дуже конкретне: практичний посібник, заснований на реальних даних, який допоможе вам вибрати правильне обладнання для локального запуску великих мовних моделей без зайвих витрат грошей.

Ідея цього проєкту проста, але потужна: Збирати реальні показники, виміряні спільнотою, для найпоширеніших пристроїв для локального висновку de LLM (особливо для агентів ШІ) та представити їх у чіткому, візуальному та легко порівнянному форматі. Це має на меті протидіяти морю завищених цифр, сумнівним маркетинговим тактикам та заплутаним специфікаціям, які заполонили ринок прискорювачів ШІ та графічних процесорів.

Що таке I Agent Local LLM Inference Device? Посібник з розгортання

Пристрої для локального виведення мовних моделей

Дзвінок «Посібник з розгортання пристрою виведення LLM для локального агента штучного інтелекту» – це посібник з розгортання, орієнтований на окремих користувачів. які хочуть запускати великі мовні моделі локально, приділяючи особливу увагу робочим навантаженням агентів (наприклад, Claude Code, Cursor, OpenClaw(PicoClaw тощо). Ці програми зазвичай споживають величезну кількість токенів порівняно з простим чатом, тому продуктивність обладнання стає критично важливою, щоб уникнути розчарування в очікуванні відповідей.

Проєкт розміщено в llmdev.guide Він структурований як відкрита та спільна база даних, де спільнота надає результати продуктивності різних пристроїв, що працюють під керуванням певних моделей. Мінімальна вимога для того, щоб пристрій з'явився в посібнику, полягає в тому, щоб він міг працювати принаймні з однією моделлю приблизно... (9B), тобто щось розумне для складання пристойного ШІ-агента.

Окрім того, що цей довідник слугує каталогом, він також задуманий як своєрідний протиотрута від оманливого маркетингу деяких виробниківЦі пристрої обіцяють величезну потужність у TOPS або TFLOPS, що на практиці не означає збільшення кількості токенів за секунду. У самому посібнику пояснюються найпоширеніші тактики завищених цифр, щоб вас не обдурили під час порівняння пристроїв.

Ще один важливий момент полягає в тому, що посібник зосереджується на обладнання, вартість якого зазвичай нижче 10 000 доларів СШАЦе варіюється від споживчих ПК з графічними процесорами до міні-ПК, покращених однофазних ПК, спеціалізованих прискорювачів і деяких більш серйозних робочих станцій. Ідея полягає не в тому, щоб конкурувати з центрами обробки даних, а в тому, щоб показати, що має найбільший сенс для того, хто хоче створити власну установку зі штучним інтелектом вдома або в офісі. Запустити LLM локально.

Завищені маркетингові тактики в апаратному забезпеченні штучного інтелекту

Однією з додаткових переваг посібника є те, що він розбирає кілька поширені маркетингові трюки для завищення «обчислювальної потужності» пристрою. Їх розуміння дуже допомагає в розумній інтерпретації специфікацій.

Перша тактика полягає у використанні «розріджені обчислення» як головний показник TOPSБагато чіпів рекламують, наприклад, 200 TOPS, але ця цифра досягається лише за умови розрідженості (частина вагових коефіцієнтів встановлена на нуль) та за дуже специфічних умов. Фактичний результат у щільних моделях може легко бути вдвічі меншим, тому, як правило, вважається, що існує щонайменше 2-кратний коефіцієнт інфляції.

Ще один спосіб маніпулювати числами – це покладатися на дуже низька точність, така як FP4 або INT4, при представленні необробленої потужностіЦі цифри значно підвищують теоретичну продуктивність порівняно з INT8 або FP16, але вони не завжди є придатними для використання або забезпечують достатню якість для всіх моделей. Фактичне підвищення продуктивності зазвичай у 2-4 рази перевищує те, що ми спостерігаємо в реальних умовах.

Також досить поширене явище гетерогенне обчислювальне стекуванняІншими словами, це просте додавання потужності центрального процесора, графічного процесора, нейронного процесора, цифрового процесора сигнальної обробки (DSP) та всього іншого, що задіяно, ніби все це можна використовувати одночасно з ідеальною ефективністю. На практиці ефективно спільно використовувати всі ці компоненти дуже складно, і те, що ви отримуєте, — це гарна загальна цифра на папері, але така, яка навряд чи відображає те, що ви насправді побачите за допомогою конкретного LLM.

Зрештою, є пристрої, які складаються один з одного висока обчислювальна потужність з дуже малою пропускною здатністю пам'ятіНа папері вони здаються звірами TOPS, але щойно вони починають обробляти велику мовну модель, вони повністю обмежені пам'яттю. У посібнику наголошується, що реальна межа продуктивності зазвичай визначається радше пропускною здатністю, ніж теоретичним TOPS.

Як структурувати інформацію llmdev.guide

Вебсайт llmdev.guide пропонує кілька способів візуалізувати та порівнювати пристрої для локального виведення LLMрозроблено для користувачів з різним рівнем технічної підготовки. Це не просто плоска таблиця: є кілька інтерактивних подань, які значно полегшують порівняння.

З одного боку, ми маємо Класична «Таблиця лідерів», яка дозволяє сортувати пристрої за одним критеріємнаприклад, швидкість декодування (токени за секунду), співвідношення ціни та якості або енергоефективність. Цей режим ідеально підходить, якщо вас цікавить, наприклад, який варіант дає найбільше токенів на кожне витрачене євро в межах вашого бюджету.

Якщо ви хочете отримати більш детальну інформацію, посібник містить 2D-діаграми розсіювання де ви можете вибрати, яку змінну розмістити на кожній осі (ціна, споживання енергії, пропускна здатність, токени/с тощо) та використовувати розмір бульбашки для представлення додаткової метрики. Це дозволяє вам одразу побачити, наприклад, які пристрої пропонують розумний баланс між вартістю, продуктивністю та споживанням енергії.

Як автоматизувати завдання Office за допомогою Copilot в Microsoft 365

Для тих, хто насолоджується даними сповна, також є інтерактивна 3D-графіка де три параметри перетинаються одночасно, з бульбашками у тривимірному просторі. Хоча це більш "гіківський" погляд, він дуже корисний для розуміння, наприклад, як певні типи обладнання групуються з точки зору токенів/секунди, ціни та ефективності на ват.

Четвертий погляд – це повна таблиця даних з усіма специфікаціями та результатами бенчмарківТут ви можете фільтрувати, сортувати та отримувати доступ до детальної інформації для кожного графічного процесора, нейронного процесора або моделі системи. Кожен пристрій має власну сторінку з технічними характеристиками, результатами тестів та додатковими примітками, а також посиланнями на результати тестування, надані користувачами.

Уніфікована еталонна модель: сімейство Qwen 3.5

Щоб уникнути хаосу порівняння яблук та апельсинів, у посібнику використовується Сімейство моделей Qwen 3.5 як стандартний орієнтирІдея проста: якщо всі бенчмарки проводяться з однаковими архітектурами моделей, порівняння між пристроями є набагато чіткішим.

У сімействі Qwen3.5 розглядаються дві моделі необхідне для включення пристрою до спискуЗ одного боку, є Qwen3.5-9B, який розроблений для невеликих пристроїв або пристроїв початкового рівня. Якщо ваше обладнання не може впоратися з цією моделлю, вона навряд чи підійде для вимогливих агентів штучного інтелекту.

Друга обов'язкова модель - це Qwen3.5-27B, розроблений як еталон для пристроїв середнього класуЯкщо команда може обґрунтовано використовувати цю модель, вона вже вважається надійною для серйозніших застосувань, таких як професійні програми генерації коду, аналіз документів або робота внутрішніх асистентів.

Крім того, посібник включає кілька моделей за участю експертів (MoE) як додаткові опції: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B y Qwen3.5-397B-A17BКожен з них служить орієнтиром для пристроїв з більшою пам'яттю або вищими амбіціями: від пристроїв з великою кількістю оперативної пам'яті до справжніх "флагманів", призначених для дуже важких завдань.

У всіх випадках, а мінімальне квантування 4 біти (INT4/Q4)щоб результати були порівнянні та реалістичними. Якщо пристрій ще не має прямих даних для Qwen 3.5, у виняткових випадках можуть використовуватися оцінки, засновані на подібних моделях, і вони позначені зірочкою, щоб було зрозуміло, що це не прямі вимірювання.

Які показники ефективності насправді вимірюються?

Замість того, щоб загубитися в тисячі цифр, посібник зосереджується на дві фундаментальні метрики для інтерактивного використання агентів штучного інтелекту: швидкість декодування та швидкість попереднього заповнення, обидві виражені в токенах за секунду.

La Швидкість декодування є найважливішим фактором для користувацького досвідуТому що це визначає, скільки токенів за секунду модель може генерувати після початку відповіді. По суті, це визначає, чи бачите ви текст плавним чи уривчастим.

La Швидкість попереднього заповнення впливає на час до появи першого токенаІншими словами, це час, який системі потрібен для обробки початкового запиту (який може бути тривалим в агентах з контекстом, інструментами, історією тощо), перш ніж почати генерувати вивід. Це критично важливо в застосунках, які завантажують величезні контексти або багато документів одночасно.

Окрім цих двох основних показників, у посібнику пильна увага приділяється зв'язок між пропускною здатністю пам'яті та фактично досягнутою швидкістюФактично, повідомлені значення токенів порівнюються з теоретичною стелею, розрахованою на основі доступної пропускної здатності, і якщо показники перевищують розумне, вони позначаються попереджувальним символом, який вказує на наявність підозри.

Все це доповнюється інформацією про Споживання енергії, приблизна ціна, обсяг пам'яті, пропускна здатність та заявлені TOPS (максимально допустимі значення потужності)Потім вони використовуються для визначення таких коефіцієнтів, як продуктивність на євро або продуктивність на ват. Ці коефіцієнти дозволяють швидко побачити, які пристрої є «вигідними», а які явно завищені.

Порівняння апаратного забезпечення з реального світу: важливі приклади

Один із найбільш показових випадків, обговорених за допомогою посібника, – це Порівняйте дорогі відеокарти та преміальні робочі станції зі значно скромнішими опціямиРозмістивши всі дані на одному графіку, стає зрозуміло, що ціна не завжди перетворюється на більшу кількість токенів.

Наприклад, взявши за орієнтир Квен3.5 9BУ посібнику показано, що системи вартістю понад 4.000 доларів, такі як система NVIDIA DGX Spark або Apple Mac Studio з чіпом M3, можуть запропонувати дуже схожу продуктивність у токенах за секунду, як і машина, побудована з набагато більш простим графічним процесором, таким як 12-гігабайтний Intel Arc B580, який коштує близько 260 доларів.

З іншого боку, якщо гроші не є проблемою, а метою є досягнення успіху, тоді... максимально можлива швидкість з моделями компактного розміруЛогічно звернути увагу на найкращі відеокарти, такі як гіпотетична NVIDIA GTX 5090 з 32 ГБ пам'яті, яка пропонує досить розумне співвідношення продуктивності та вартості, якщо ви зацікавлені лише в розширенні можливостей і готові інвестувати.

Коли ви стикаєтеся з справді великими моделями, такими як Квен 122B-A10BСитуація значно змінюється, оскільки пам'ять починає ставати вузьким місцем. У цьому контексті такі пристрої, як NVIDIA DGX Spark, можуть запропонувати напрочуд гарне співвідношення ціни та продуктивності порівняно з такими машинами, як Apple Mac Studio M3 Ultra з 256 ГБ, головним чином завдяки тому, як вони керують пам'яттю та пропускною здатністю.

Слід, однак, враховувати, що Не всі записи в посібнику відображають однаковий рівень деталізації щодо вартості.У деяких випадках вказується ціна всієї системи, а в інших – лише ціна графічного процесора. Незважаючи на це, як загальний інструмент порівняння, посібник дозволяє легко визначити, коли система значно перевантажена розробкою для продуктивності, яку вона фактично забезпечує в LLM.

Пояснення Microsoft Copilot 3D: від фотографії до моделі штучного інтелекту

Параметри перегляду та аналізу в посібнику

Інтерфейс llmdev.guide дозволяє грати з кількома параметри для осей X та Y графіків та для розміру бульбашокВи можете вибрати, наприклад, щоб вісь X представляла ціну, вісь Y – кількість декодованих токенів, а розмір бульбашки – споживання енергії.

Ви також можете перетнути характеристики обладнання (пропускна здатність пам'яті, ємність, заявлений TOPS) з результатами логічного висновку (швидкість попереднього заповнення, швидкість виведення) або з похідними співвідношеннями (продуктивність на ват, продуктивність на долар). Це допомагає виявляти закономірності, такі як пристрої, які працюють значно вище або нижче того, що пропонують їхні характеристики.

Щодо ціноутворення, інструмент спочатку не має пряма фільтрація за діапазоном вартостіОднак, він пропонує можливість використання логарифмічної шкали на ціновій осі, щоб варіанти початкового та середнього рівня не були затьмарені дорожчими станціями. Крім того, ви можете збільшити масштаб, намалювавши прямокутник мишею, щоб зосередитися на певній підмножині пристроїв.

Якщо ви віддаєте перевагу чомусь більш традиційному, то вид у вигляді Список із сортованою таблицею дозволяє змінювати порядок рядків за будь-яким стовпцемвключаючи ціну. Таким чином, ви можете одразу побачити, який найдешевший пристрій відповідає певним мінімальним вимогам, або які з них пропонують найкращу продуктивність у межах певного бюджету.

Клацання на елементі у списку або на бульбашці на діаграмі переведе вас до аркуш з додатковою інформацією про кожен пристрійЦе включає повні технічні характеристики, результати тестів та примітки щодо того, як було проведено бенчмарк. Також вказується, чи дані виміряні, чи екстрапольовані, а також будь-які незвичайні аспекти налаштування.

Дані громади, оцінки та процес внесення внесків

Один із стовпів проекту полягає в тому, що Усі дані про ефективність формуються на основі відгуків спільноти.Це не закритий комплекс тестів, що проводяться однією лабораторією, а активна база даних, до якої кожен може додати свої результати, якщо дотримуватиметься встановленої процедури.

Якщо пристрій не був протестований безпосередньо за допомогою Qwen 3.5, деякі результати можуть відображатися як оцінено за іншими моделями, як-от Llama 7B у випадку Raspberry Pi 5 16 ГБЦе зроблено для надання приблизного орієнтиру, але чітко позначено, щоб ніхто не сплутав це з фактичними вимірами.

Процес внесення внесків включає створити форк репозиторію проектуСкопіюйте шаблон пристрою (devices/_template.md) та заповніть його інформацією про обладнання та отриманими результатами. Крім того, будь ласка, додайте докази ваших тестів, такі як знімки екрана або вивід терміналу, щоб інші могли перевірити правильність чисел.

Обов'язково, як мінімум, бігти Qwen 3.5 9B з достатньо довгою підказкою Щоб отримати змістовні дані про продуктивність, особливо в типових випадках використання агентів штучного інтелекту, також рекомендується зробити фотографії плати або обладнання, що використовується, та задокументувати конфігурацію (квантування, контекст, серверна частина тощо).

Зараз Система не автоматизує збір данихВсе потрібно заповнювати вручну, згідно з шаблоном. Деякі користувачі зазначили, що ідеально було б мати скрипти, такі як «sbc-bench.sh», які запускають тести та надсилають результати, але наразі ручний підхід дозволяє краще контролювати якість і запобігає заповненню таблиць сумнівними результатами.

Контекст: Що таке локальні програми LLM і чому вони важливі?

Окрім самого посібника, важливо розуміти контекст, у якому він виникає: великі мовні моделі, що працюють локально, без залежності від хмариВони переживають бум. Все більше користувачів і компаній хочуть мати власного помічника, агента або систему для спілкування, що працює на їхніх машинах, не надсилаючи конфіденційні дані третім особам.

Локальні LLM-програми представляють собою зміну від традиційних хмарних сервісів, оскільки Вони дозволяють вам зберігати суверенітет над вашими даними та працювати повністю офлайнЗамість того, щоб платити за виклики зовнішнього API, ви завантажуєте модель, запускаєте її на своєму обладнанні та контролюєте як конфігурацію, так і будь-які можливі налаштування чи точне налаштування.

У сучасній екосистемі такі моделі, як Викличте 3.x, Qwen 2.5/3.5, DeepSeek R1 або Phi-4які покращилися в ефективності до такої міри, що версії з параметрами 7B-9B пропонують дуже солідні результати, працюючи на одному споживчому графічному процесорі або навіть лише з потужним процесором та хорошою оперативною пам'яттю.

Для організацій з інтенсивними робочими навантаженнями (масовий аналіз документів, безперервна генерація коду, внутрішні чат-боти…), перехід на локальні LLM може означати величезна економія порівняно з постійними витратами на комерційні APIособливо при обробці мільйонів токенів на місяць. Це ще більше ускладнюється необхідністю точного контролю над моделлю та її поведінкою.

Агенти штучного інтелекту йдуть далі в цьому напрямку, оскільки Вони не просто відповідають на запитання, а радше пов'язують інструменти, контексти та дії у значно довших потоках. Це збільшує кількість токенів і робить продуктивність виведення пристрою ще більш критичним фактором — саме для того типу сценарію, для якого посібник з розгортання пристрою виведення локального LLM I-агента є найбільш корисним; для проектування цих систем корисно розуміти архітектури агентів.

Вимоги до обладнання для локального LLM: графічний процесор, центральний процесор та пам'ять

Одна з найбільших проблем, коли хтось розглядає можливість створення програми LLM на місцевому рівні, полягає в тому, що Розуміння того, яке обладнання вам дійсно потрібне, і яка частина бюджету має найбільший впливГрафічний процесор та пам'ять (відеопам'ять та оперативна пам'ять) зазвичай є вирішальними факторами, але не єдиними.

У сфері графічних процесорів ключ полягає в обсяг відеопам'яті та пропускна здатністьДля моделей початкового рівня з параметрами 7-8B (таких як Llama 3.1 8B або Qwen 2.5 7B) зазвичай достатньо графічного процесора з 8-12 ГБ відеопам'яті, особливо якщо використовується 4-бітне квантування. Це охоплює загальні випадки використання та особисті проекти без особливих ускладнень.

Як переглянути місцезнаходження поїздів Renfe в режимі реального часу в Інтернеті

Якщо метою є оновлення до параметрів моделі 14-32B (таких як Qwen 2.5 14B або DeepSeek R1 32B), Розумним рішенням буде орієнтуватися на відеокарти з 16-24 ГБ відеопам'яті....або конфігурації з кількома відеокартами в певних випадках. Починаючи з параметрів 70B, все починає рухатися вперед, і ми говоримо про 48 ГБ або більше, часто в системах з кількома високопродуктивними відеокартами або спеціалізованими корпоративними прискорювачами.

Існує приблизне правило для обчислити, скільки пам'яті потрібно моделіM = (P × Q/8) × 1,2, де M – пам'ять у ГБ, P – кількість параметрів у мільярдах, а Q – точність у бітах. Таким чином, модель 70B з 16 бітами може мати близько 168 ГБ відеопам'яті, тоді як з 4-бітним квантуванням це буде близько 42 ГБ. Звідти його можна налаштувати відповідно до серверної частини та додаткових буферів.

Не слід недооцінювати роль центрального процесора: сучасні процесори з хорошими векторними розширеннями та хорошою пропускною здатністю пам'яті Вони можуть запускати менші моделі з дивовижною продуктивністю. Нещодавні приклади показують, що процесори, такі як деякі процесори Ryzen AI, здатні перевищувати 50 токенів/с у легких моделях, що відкриває шлях до безграфічних конфігурацій для деяких застосувань.

Стратегії розгортання та оптимізації для агентів штучного інтелекту

Коли метою є запуск складніших агентів штучного інтелекту (з викликами інструментів, навігацією, довгими ланцюжками міркувань тощо), в гру вступають наступні додаткові стратегії оптимізації для використання переваг апаратного забезпечення які у вас вже є або які ви збираєтеся придбати, дотримуючись інструкції.

Квантування — перший великий союзник: Робота з 4 бітами зазвичай забезпечує дуже хороший баланс між якістю та розміром.Це дозволяє моделям з 7-9-бітним процесором комфортно розміщуватися на відеокартах з 8-12 ГБ, а моделям з 30-бітним процесором або потужнішим — на відеокартах з 24 ГБ або конфігураціях з кількома відеокартами. Для випадків, коли потрібна максимальна якість, 8-бітна архітектура пропонує досить компактний, але збалансований компроміс.

Також важливо налаштувати такі параметри, як довжина контексту, розмір пакета та кількість шарів, що вивантажуються на графічний процесор У гібридних конфігураціях CPU/GPU збільшення контексту покращує здатність обробляти довгі історії, але значно збільшує споживання пам'яті; точне налаштування цих значень відповідно до конкретного використання агента є важливим.

У бізнес-середовищі або лабораторних умовах має сенс розглянути Конфігурації з кількома графічними процесорами та розподілене розгортанняВикористання таких методів, як тензорний паралелізм, для розділення великих моделей розміром 70B або більше на кілька карт. Фреймворки, такі як vLLM, або деякі розширені веб-інтерфейси пропонують пряму підтримку цих режимів, хоча вони вимагають більше системних знань.

Зрештою, з точки зору витрат, Локальні розгортання часто стають дуже конкурентними хмарним. Коли обсяг оброблюваних токенів великий, а обладнання амортизується в середньостроковій перспективі, посібник з пристроїв допомагає знайти золоту середину між інвестиціями в обладнання, витратами на енергію та продуктивністю, щоб рівняння працювало на користь розгортання локальних агентів.

Беручи до уваги всі ці елементи — реальні дані бенчмарків, методи фільтрації завищеного маркетингу, відповідні метрики та інструменти розгортання — Посібник з розгортання пристроїв локального LLM-виведення I-агента стає безцінним ресурсом для тих, хто хоче ефективно створювати локальні агенти штучного інтелекту. Він допомагає пріоритезувати пропускну здатність і пам'ять над показовими показниками TOPS, надає рекомендації щодо того, які моделі сімейства Qwen 3.5 використовувати як еталон, і пропонує чітке порівняння ціни, продуктивності та ефективності, щоб допомогти вам вибрати обладнання без переплати.

Як завантажити посібник зі створення агентів ШІ з OpenAI-0

Пов'язана стаття:

Як завантажити та використовувати офіційний посібник зі створення агентів ШІ від OpenAI

Ісаак

Пристрасний письменник про світ байтів і технологій загалом. Я люблю ділитися своїми знаннями, пишучи, і саме це я буду робити в цьому блозі, показуватиму вам все найцікавіше про гаджети, програмне забезпечення, апаратне забезпечення, технологічні тренди тощо. Моя мета — допомогти вам орієнтуватися в цифровому світі в простий і цікавий спосіб.