- Communityguide som sammanställer verkliga riktmärken för enheter för lokal LLM-inferens, med fokus på AI-agenter och modeller baserade på 9B-parametrar.
- Den använder Qwen 3.5-familjen som standardreferens och mäter huvudsakligen avkodningshastighet och förifyllning i tokens/s, vilket jämför resultaten med teoretiska bandbreddsgränser.
- Den avslöjar vanliga taktiker för att blåsa upp siffror inom hårdvarumarknadsföring (spridda TOPS, extrem precision, heterogen stapling) för att undvika vilseledande köp.
- Den erbjuder interaktiva vyer (rankning, 2D/3D-grafer och fullständiga tabeller) och accepterar manuella bidrag från communityn med bevis på testning för att hålla data transparenta och användbara.

Om du funderar på bygg en AI-agent på din egen dator Och beroende på molnet har du förmodligen stött på termen "Implementeringsguide för lokala LLM-inferensenheter för I Agent" eller med webbplatsen llmdev.guide. Bakom det långa namnet döljer sig något väldigt specifikt: en praktisk guide, baserad på verkliga data, som hjälper dig att välja rätt hårdvara för att köra stora språkmodeller lokalt utan att slösa pengar.
Idén bakom det här projektet är enkel men kraftfull: Samla in verkliga riktmärken, mätta av communityn, av de vanligaste enheterna för lokal inferens de LLM (särskilt för AI-agenter) och presentera dem i ett tydligt, visuellt och lätt jämförbart format. Detta syftar till att motverka havet av uppblåsta siffror, tvivelaktiga marknadsföringstaktiker och förvirrande specifikationer som översvämmar marknaden för AI-acceleratorer och GPU:er.
Vad är I Agent Local LLM Inference Device Deployment Guide
Samtalet ”Deploymentguide för AI Agent Local LLM Inference Device” är en distributionsguide inriktad på enskilda användare som vill köra stora språkmodeller lokalt, med särskild uppmärksamhet på agentarbetsbelastningar (som Claude Code, Cursor, OpenClaw(PicoClaw, etc.). Dessa applikationer förbrukar vanligtvis en enorm mängd tokens jämfört med en enkel chatt, så hårdvaruprestanda blir avgörande för att undvika frustration över att vänta på svar.
Projektet är värd i llmdev.guide Den är strukturerad som en öppen och samarbetsinriktad databas, där communityn bidrar med prestandaresultat från olika enheter som kör specifika modeller. Minimikravet för att en enhet ska visas i guiden är att den kan köra minst en modell på cirka (9B), det vill säga något rimligt för att sätta ihop en hyfsad AI-agent.
Förutom att fungera som en katalog är guiden avsedd som ett slags motgift mot vissa tillverkares vilseledande marknadsföringDessa enheter utlovar enorma kapaciteter i TOPS eller TFLOPS, vilket i praktiken inte leder till fler tokens per sekund. Guiden förklarar i sig de vanligaste taktikerna med uppblåsta siffror så att du inte blir lurad när du jämför enheter.
En annan viktig punkt är att guiden fokuserar på utrustning med ett pris vanligtvis under 10 000 dollarDetta sträcker sig från konsumentdatorer med grafikkort till minidatorer, uppgraderade SBC:er, dedikerade acceleratorer och några mer seriösa arbetsstationer. Tanken är inte att konkurrera med datacenter, utan att visa vad som är mest meningsfullt för någon som vill bygga sin egen AI-rigg hemma eller på kontoret. Kör LLM lokalt.
Uppblåsta marknadsföringstaktiker inom AI-hårdvara
Ett av mervärdena med guiden är att den demonterar flera Vanliga marknadsföringsknep för att blåsa upp "datorkraft" av en enhet. Att förstå dem hjälper mycket till att tolka specifikationerna på ett förnuftigt sätt.
En första taktik är att använda "gles databehandling" som den viktigaste TOPS-figurenMånga chip annonserar till exempel 200 TOPS, men den siffran uppnås endast med gleshet (en del av vikterna satta till noll) och under mycket specifika förhållanden. Det faktiska resultatet i täta modeller kan lätt vara hälften så mycket, så som en allmän regel anses det finnas en inflationsfaktor på minst 2x.
Ett annat sätt att manipulera siffror är att förlita sig på mycket låg precision som FP4 eller INT4 vid presentation av rå effektDessa siffror ökar den teoretiska prestandan avsevärt jämfört med INT8 eller FP16, men de är inte alltid användbara eller erbjuder tillräcklig kvalitet för alla modeller. Den faktiska prestandaökningen är vanligtvis mellan 2 och 4 gånger vad vi skulle se under realistiska förhållanden.
Det är också ganska vanligt att heterogen beräkningsstackningMed andra ord, att helt enkelt lägga ihop den råa kraften hos CPU, GPU, NPU, DSP och allt annat som är inblandat, som om allt kunde användas samtidigt med perfekt effektivitet. I praktiken är det mycket svårt att effektivt samanvända alla dessa komponenter, och det man får är en fin övergripande siffra på pappret, men en som knappast är representativ för vad man faktiskt kommer att se med en specifik LLM.
Slutligen finns det enheter som staplas hög datorkraft med mycket liten minnesbandbreddPå pappret verkar de vara TOPS-bestar, men så fort de börjar hantera en stor språkmodell blir de helt flaskhalsade av minnet. Guiden betonar att den verkliga prestandagränsen vanligtvis bestäms mer av bandbredd än av teoretiska TOPS.
Hur man strukturerar information llmdev.guide
Webbplatsen llmdev.guide erbjuder flera sätt att visualisera och jämföra enheter för lokal LLM-inferensutformad för användare med varierande nivåer av teknisk expertis. Det är inte bara en platt tabell: det finns flera interaktiva vyer som underlättar jämförelser avsevärt.
Å ena sidan har vi en Klassisk "Leaderboard" som låter dig sortera enheter efter ett enda kriteriumsåsom avkodningshastighet (tokens per sekund), pris-prestanda-förhållande eller energieffektivitet. Den här vyn är idealisk om du till exempel bara är intresserad av att se vilket alternativ som ger flest tokens per spenderad euro inom din budget.
Om du vill veta mer detaljerad finns det i guiden 2D-spridningsdiagram där du kan välja vilken variabel som ska placeras på varje axel (pris, strömförbrukning, bandbredd, tokens/s, etc.) och använda bubbelstorleken för att representera ett ytterligare mätvärde. Detta gör att du till exempel snabbt kan se vilka enheter som erbjuder en rimlig balans mellan kostnad, prestanda och strömförbrukning.
För de som njuter av data till fullo finns det också interaktiv 3D-grafik där tre parametrar skär varandra samtidigt, med bubblor i ett tredimensionellt rum. Även om det är en mer "nördig" synvinkel är den mycket användbar för att förstå, till exempel, hur vissa typer av hårdvara grupperas i termer av tokens/sekund, pris och effektivitet per watt.
Den fjärde synvinkeln är en komplett datatabell med alla specifikationer och benchmarkresultatHär kan du filtrera, sortera och få åtkomst till detaljerad information för varje GPU, NPU eller systemmodell. Varje enhet har sin egen sida med tekniska specifikationer, testresultat och ytterligare anteckningar, samt länkar till användarinlämnade testbevis.
Enhetlig referensmodell: Qwen 3.5-familjen
För att undvika kaoset med att jämföra äpplen och päron använder guiden Qwen 3.5-modellfamiljen som standardreferensIdén är enkel: om alla riktmärken görs med samma modellarkitekturer blir jämförelsen mellan enheter mycket tydligare.
Det finns två modeller i Qwen3.5-familjen som anses vara krävs för att en enhet ska inkluderas i listanÅ ena sidan har vi Qwen3.5-9B, som är designad för små enheter eller enheter på instegsnivå. Om din hårdvara inte klarar av den här modellen är det osannolikt att den är lämplig för krävande AI-agenter.
Den andra obligatoriska modellen är Qwen3.5-27B, utformad som referens för enheter i mellanklassenOm ett team rimligen kan köra den här modellen anses den redan vara solid för mer seriösa användningsområden, såsom professionella kodgenereringsapplikationer, dokumentanalys eller interna assistenter.
Dessutom innehåller guiden flera modeller för expertmix (MoE) som valfria alternativ: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B y Qwen3.5-397B-A17BVar och en fungerar som referens för enheter med mer minne eller högre ambitioner: från enheter med gott om RAM till riktiga "flaggskepp" designade för mycket krävande uppgifter.
I samtliga fall, en minsta kvantisering på 4 bitar (INT4/Q4)så att resultaten är jämförbara och realistiska. Om en enhet ännu inte har direkta data för Qwen 3.5 kan uppskattningar baserade på liknande modeller användas i undantagsfall, och dessa är markerade med en asterisk för att tydliggöra att de inte är direkta mätningar.
Vilka prestationsmått mäts egentligen?
Istället för att gå vilse i tusen siffror fokuserar guiden på två grundläggande mätvärden för den interaktiva användningen av AI-agenteravkodningshastigheten och förfyllningshastigheten, båda uttryckta i tokens per sekund.
La Avkodningshastighet är den viktigaste faktorn för användarupplevelsenEftersom den avgör hur många tokens per sekund modellen kan generera när svaret väl startar. I grund och botten definierar den om texten visas jämnt eller i nyanser.
La Förfyllningshastigheten påverkar tiden till den första tokenMed andra ord handlar det om hur lång tid det tar för systemet att bearbeta den första prompten (vilket kan vara utdraget i agenter med kontext, verktyg, historik etc.) innan det börjar generera utdata. Detta är avgörande i applikationer som läser in stora kontexter eller många dokument samtidigt.
Utöver dessa två huvudmått uppmärksammar guiden noga förhållandet mellan minnesbandbredd och den faktiska uppnådda hastighetenFaktum är att de rapporterade värdena för token/s jämförs med ett teoretiskt tak beräknat utifrån den tillgängliga bandbredden, och om siffrorna överstiger vad som är rimligt markeras de med en varningssymbol för att indikera att något luktar skumt.
Allt detta kompletteras med information om Energiförbrukning, ungefärligt pris, minneskapacitet, bandbredd och deklarerad TOPSDessa används sedan för att härleda förhållanden som prestanda per euro eller prestanda per watt. Dessa förhållanden gör att du snabbt kan se vilka enheter som är "fynd" och vilka som är uppenbart överprissatta.
Jämförelser av hårdvara i verkligheten: viktiga exempel
Ett av de mest illustrativa fallen som diskuteras med hjälp av guiden är det med Jämför dyra grafikkort och premiumarbetsstationer med betydligt mer blygsamma alternativGenom att lägga all data på samma graf blir det tydligt att priset inte alltid leder till fler tokens/s.
Till exempel att ta som referens Qwen3.5 9BGuiden visar att system som kostar över 4 000 dollar, såsom ett NVIDIA DGX Spark-system eller en Apple Mac Studio med ett M3-chip, kan erbjuda mycket liknande prestanda i tokens per sekund som en maskin byggd med en mycket mer jordnära GPU, såsom en 12 GB Intel Arc B580 som kostar runt 260 dollar.
I andra änden, om pengar inte är ett problem och målet är att uppnå framgång, då... maximal möjlig hastighet med kompakta modellerDet logiska är att titta på grafikkort i toppklass, som ett hypotetiskt 32 GB NVIDIA GTX 5090, vilket erbjuder ett ganska rimligt absolut prestanda/kostnadsförhållande om du bara bryr dig om att tänja på gränserna och är villig att göra investeringen.
När man ger sig in på riktigt stora modeller, som Qwen 122B-A10BSaker och ting förändras avsevärt eftersom minnet börjar bli flaskhalsen. I detta sammanhang kan enheter som NVIDIA DGX Spark erbjuda ett förvånansvärt bra pris/prestanda-förhållande jämfört med maskiner som en Apple Mac Studio M3 Ultra med 256 GB, främst på grund av hur de hanterar minne och bandbredd.
Det måste dock beaktas att Inte alla poster i guiden återspeglar samma detaljnivå vad gäller kostnaden.I vissa fall anges priset för det kompletta systemet, och i andra fall endast priset för grafikkortet. Ändå, som ett generellt jämförelseverktyg, gör guiden det enkelt att identifiera när ett system är betydligt överkonstruerat för den prestanda det faktiskt levererar i LLM:er.
Visnings- och analysalternativ i guiden
Gränssnittet llmdev.guide låter dig spela med flera parametrar för grafernas X- och Y-axlar och för bubblornas storlekDu kan till exempel välja att X-axeln representerar priset, Y-axeln avkodningstoken/tokens och att bubblans storlek representerar energiförbrukningen.
Du kan också korsa hårdvaruegenskaper (minnesbandbredd, kapacitet, deklarerad TOPS) med inferensresultat (förfyllningshastighet, utgångshastighet) eller med härledda förhållanden (prestanda per watt, prestanda per dollar). Detta hjälper till att upptäcka mönster, till exempel enheter som presterar betydligt bättre eller lägre än vad deras specifikationer antyder.
När det gäller prissättning har verktyget initialt ingen direktfiltrering efter kostnadsintervallDen erbjuder dock möjligheten att använda en logaritmisk skala på prisaxeln så att alternativ i instegs- och mellansegmentet inte överskuggas av dyrare stationer. Dessutom kan du zooma in genom att rita en rektangel med musen för att fokusera på en specifik delmängd av enheter.
Om du föredrar något mer traditionellt, utsikten i form av En lista med en sorterbar tabell låter dig ändra ordning på rader efter valfri kolumninklusive priset. På så sätt kan du med en snabb blick se vilken enhet som är billigast och uppfyller vissa minimikrav eller vilka som erbjuder bäst prestanda inom en specifik budget.
Om du klickar på ett objekt i listan eller på en bubbla i diagrammet kommer du till ett ark med mer information om varje enhetDetta inkluderar fullständiga tekniska specifikationer, testresultat och anteckningar om hur riktmärket utfördes. Det anger också om data är uppmätta eller extrapolerade, samt eventuella ovanliga aspekter av installationen.
Gemenskapsdata, uppskattningar och bidragsprocess
En av grundpelarna i projektet är att All prestationsdata är informerad av synpunkter från samhället.Detta är inte ett slutet batteri av tester som utförs av ett enda laboratorium, utan en aktiv databas, till vilken vem som helst kan lägga till sina resultat om de följer den etablerade proceduren.
När en enhet inte har testats direkt med Qwen 3.5 kan vissa resultat visas som uppskattat från andra modeller, såsom Llama 7B i fallet med Raspberry Pi 5 16GBDetta görs för att ge en grov referens, men det är uttryckligen markerat så att ingen förväxlar det med faktiska mått.
Bidragsprocessen innebär förgrena projektförrådetKopiera en enhetsmall (devices/_template.md) och fyll i den med hårdvaruinformationen och de erhållna resultaten. Bifoga dessutom bevis på dina tester, såsom skärmdumpar eller terminalutdata, så att andra kan verifiera att siffrorna är rimliga.
Det är obligatoriskt att springa, åtminstone Qwen 3.5 9B med en tillräckligt lång prompt För att få fram meningsfulla prestandadata, särskilt i typiska användningsfall för AI-agenter, rekommenderas det också att ta bilder av kortet eller utrustningen som används och dokumentera konfigurationen (kvantisering, kontext, backend, etc.).
För nu, Systemet automatiserar inte datainsamlingenAllt måste fyllas i manuellt enligt mallen. Vissa användare har påpekat att det vore idealiskt att ha skript som "sbc-bench.sh" som kör testerna och skickar resultaten, men för närvarande möjliggör den manuella metoden större kvalitetskontroll och förhindrar att tabellerna fylls med tvivelaktiga resultat.
Kontext: Vad är lokala LLM:er och varför är de viktiga?
Utöver själva guiden är det viktigt att förstå det sammanhang i vilket den uppstår: stora språkmodeller som körs lokalt, utan att förlita sig på molnetDe upplever en boom. Fler och fler användare och företag vill ha sina egna assistent-, agent- eller konversationssystem igång på sina maskiner, utan att skicka känsliga uppgifter till tredje part.
Lokala LLM:er representerar en förändring från traditionella molntjänster eftersom De låter dig behålla suveräniteten över dina data och arbeta helt offlineIstället för att betala för anrop till ett externt API laddar du ner modellen, kör den på din hårdvara och kontrollerar både konfigurationen och eventuella anpassningar eller finjusteringar.
I det nuvarande ekosystemet, modeller som Ring 3.x, Qwen 2.5/3.5, DeepSeek R1 eller Phi-4vilka har förbättrats i effektivitet till den grad att versioner av 7B-9B-parametrar ger mycket solida resultat när de körs på en enda konsument-GPU eller till och med bara med en kraftfull CPU och bra RAM.
För organisationer med intensiva arbetsbelastningar (massiv dokumentanalys, kontinuerlig kodgenerering, interna chattrobotar...) kan övergången till lokala LLM:er innebära stora besparingar jämfört med de återkommande kostnaderna för kommersiella API:ersärskilt vid hantering av miljontals tokens per månad. Detta förvärras ytterligare av behovet av finjusterad kontroll över modellen och dess beteende.
AI-agenter tar allt detta ett steg längre, eftersom De svarar inte bara på frågor, utan kopplar snarare samman verktyg, sammanhang och handlingar i betydligt längre flöden. Detta ökar antalet tokens och gör enhetens inferensprestanda till en ännu mer kritisk faktor – just den typ av scenario där I Agent Local LLM Inference Device Deployment-guiden är mest användbar; för att designa dessa system är det bra att förstå agentarkitekturer.
Hårdvarukrav för lokal LLM: GPU, CPU och minne
En av de största huvudvärken när någon funderar på att starta ett LLM-program lokalt är Att förstå vilken hårdvara du verkligen behöver och vilken del av budgeten som har störst inverkanGPU och minne (VRAM och RAM) är oftast de avgörande faktorerna, men inte de enda.
Inom GPU:ernas område ligger nyckeln i mängd VRAM och bandbreddFör instegsmodeller med 7-8B-parametrar (som Llama 3.1 8B eller Qwen 2.5 7B) är en GPU med 8-12 GB VRAM vanligtvis tillräcklig, särskilt om man använder 4-bitars kvantisering. Detta täcker både allmänna användningsfall och personliga projekt utan alltför många komplikationer.
Om målet är att uppgradera till 14-32B-modellparametrar (som Qwen 2.5 14B eller DeepSeek R1 32B), Det kloka är att sikta på grafikkort med 16–24 GB VRAM....eller konfigurationer med flera GPU:er i vissa fall. Från 70B-parametrar tar det fart och vi pratar om 48 GB eller mer, ofta i system med flera avancerade GPU:er eller dedikerade företagsacceleratorer.
Det finns en grov regel för beräkna hur mycket minne en modell kräverM = (P × Q/8) × 1,2, där M är minnet i GB, P är antalet parametrar i miljarder och Q är precisionen i bitar. Således kan en 70B-modell med 16 bitar ha cirka 168 GB VRAM, medan den med 4-bitars kvantisering skulle vara nära 42 GB. Därifrån kan den justeras efter backend och ytterligare buffertar.
CPU:ns roll bör inte underskattas: moderna processorer med bra vektortillägg och bra minnesbandbredd De kan köra mindre modeller med överraskande prestanda. Nyligen presenterade exempel visar processorer som vissa Ryzen AI-processorer som kan överstiga 50 tokens/s med lättviktsmodeller, vilket öppnar dörren för GPU-lösa konfigurationer för vissa användningsområden.
Populära verktyg för att distribuera lokala LLM:er
När hårdvaran är klar är nästa steg att välja mjukvaruplattformen för att hantera modeller och inferensHär kombineras verktyg designade för nybörjare med andra som syftar till att pressa ut varenda liten bit av CPU- eller GPU-kraft ur systemet.
Ollama har etablerat sig som ett av de mest användarvänliga alternativen för att komma igångDen fungerar med en "Docker for Models"-metod, vilket gör att du kan ladda ner och starta modeller med mycket enkla kommandon. Den hanterar automatiskt kvantisering, GPU- och minnesanvändning och erbjuder ett OpenAI-kompatibelt API, vilket avsevärt förenklar integrationen av en agent eller chatbot i dina egna applikationer.
För de som föredrar ett elegant grafiskt gränssnitt erbjuder LM Studio en högkvalitativ visuell miljö för att upptäcka, ladda ner och testa modellerDen integreras direkt med Hugging Face, har ett chattgränssnitt och gör det enkelt att ändra modeller, kvantisering eller backend utan att röra kommandoraden, vilket i sin tur innebär att man förlorar en del extrem flexibilitet.
På en mer teknisk nivå förblir llama.cpp riktmärket när man söker maximal prestanda och fin kontrollDet är en mycket optimerad C++-implementation med stöd för flera backend-system (CUDA, Metal, Vulkan, etc.) och avancerade kvantiseringstekniker. Dessutom har den förbättrats avsevärt på ARM-arkitekturer, vilket gynnar både bärbara datorer med Apple Silicon och enheter med Snapdragon X och liknande processorer.
Vid sidan av dessa finns projekt som GPT4All eller LocalAI som De väljer en enhetlig skrivbordsupplevelse eller att exponera lokala API:er mycket enkel att integrera. Dessutom alternativ som Jan AI Bland alternativen för dem som söker en lokal upplevelse liknande ChatGPT beror valet på vilken balans varje person söker mellan enkelhet, prestanda och anpassning.
Implementerings- och optimeringsstrategier för AI-agenter
När målet är att köra mer komplexa AI-agenter (med verktygsanrop, navigering, långa resonemangskedjor etc.) spelar följande roll ytterligare optimeringsstrategier för att dra nytta av hårdvaran som du redan har eller som du ska köpa enligt guiden.
Kvantisering är den första stora allierade: Att arbeta i 4 bitar ger vanligtvis en mycket bra balans mellan kvalitet och storlek.Detta gör att 7-9B-modeller bekvämt kan köras på 8-12 GB GPU:er, och 30B eller större modeller kan köras på 24 GB GPU:er eller konfigurationer med flera GPU:er. För fall där maximal kvalitet krävs erbjuder 8-bitars en ganska kompakt men balanserad mellanväg.
Det är också viktigt att justera parametrar som kontextlängd, batchstorlek och antalet lager som avlastas till GPU:n I hybrid-CPU/GPU-konfigurationer förbättrar en ökning av kontexten möjligheten att hantera långa historiker, men det ökar minnesförbrukningen avsevärt; det är viktigt att finjustera dessa värden enligt agentens specifika användning.
I affärs- eller laboratoriemiljöer är det klokt att överväga Konfigurationer med flera GPU:er och distribuerade distributionerAnvändning av tekniker som tensorparallellism för att dela upp stora modeller på 70B eller mer över flera kort. Ramverk som vLLM eller vissa avancerade webbgränssnitt erbjuder direkt stöd för dessa lägen, även om de kräver mer systemkunskap.
Slutligen, ur ett kostnadsperspektiv, Lokala implementeringar blir ofta mycket konkurrenskraftiga i förhållande till molnet. När volymen av bearbetade tokens är hög och hårdvaran amorteras på medellång sikt, hjälper enhetsguiden till att hitta det optimala värdet mellan utrustningsinvesteringar, energikostnader och prestanda, så att ekvationen fungerar till förmån för lokal agentdistribution.
Med hänsyn till alla dessa element – verkliga riktmärkesdata, metoder för att filtrera bort överdriven marknadsföring, relevanta mätvärden och distributionsverktyg – blir I Agent Local LLM Inference Device Deployment Guide en ovärderlig resurs för alla som vill bygga AI-agenter lokalt effektivt. Den hjälper till att prioritera bandbredd och minne framför flashiga TOPS-siffror, ger vägledning om vilka modeller i Qwen 3.5-familjen som ska användas som riktmärke och erbjuder tydliga jämförelser av pris, prestanda och effektivitet för att hjälpa dig välja hårdvara utan att betala för mycket.
Passionerad författare om bytesvärlden och tekniken i allmänhet. Jag älskar att dela med mig av min kunskap genom att skriva, och det är vad jag kommer att göra i den här bloggen, visa dig alla de mest intressanta sakerna om prylar, mjukvara, hårdvara, tekniska trender och mer. Mitt mål är att hjälpa dig att navigera i den digitala världen på ett enkelt och underhållande sätt.
