Vad är LiteLLM och hur man använder det för att hantera flera LLM:er

Mundobytes » Mjukvara » Vad är LiteLLM, hur fungerar det och vad används det till i AI-projekt?

LiteLLM förenar åtkomst till över 100 LLM:er via ett OpenAI-kompatibelt API, vilket förenklar utveckling från flera leverantörer.
Den kombinerar ett lättviktigt Python SDK med en självhostande proxyserver som centraliserar säkerhet, kostnader och observerbarhet.
Den erbjuder avancerad routing, reservfunktioner och virtuell nyckelhantering, vilket minskar leverantörslåsning och förbättrar motståndskraften.
Den är öppen källkod, integreras med verktyg som LangChain eller LlamaIndex och passar bra som en AI-gateway i företagsmiljöer.

LiteLLM-språkmodellintegration

När ett företag börjar experimentera med generativ artificiell intelligens stöter det väldigt snabbt på en vägg: Det finns dussintals modeller, var och en med sitt eget API, sina egna parametrar och egenheter.OpenAI å ena sidan, Anthropic å andra sidan, Google med sin egen metod, lokala leverantörer, modeller med öppen källkod… och varje förändring kräver omskrivning av kod, hantering av olika inloggningsuppgifter och hantering av inkompatibla svarsformat. I slutändan slösas tid bort på tekniskt "rörmokeri" istället för att skapa användbara produkter.

I det sammanhanget framstår LiteLLM som ett slags "Rosettastenen" för LLM. LiteLLM är ett abstraktionslager och en gateway som låter dig kommunicera med över hundra AI-modeller med hjälp av i huvudsak samma språk: OpenAI API.Det spelar ingen roll om den kör GPT-4o, Claude 3.5, Gemini, Vertex AI-modeller, Ollama eller Hugging Face: din applikation skickar alltid samma förfrågningsstruktur och får alltid samma typ av svar, medan LiteLLM tar hand om översättning, routing, loggning av kostnader och upprätthållande av säkerhetspolicyer.

Vad exakt är LiteLLM?

LiteLLM är ett projekt med öppen källkod som förenar åtkomst till över 100 språkmodeller och multimodala modeller.LiteLLM paketerar in API:erna från olika leverantörer i ett OpenAI-kompatibelt gränssnitt. Konceptuellt fungerar det som en mellanhand mellan din kod och LLM-ekosystemet, så du tänker i termer av en "logisk modell" (ett alias) och LiteLLM hanterar kommunikationen med den faktiska modellen på andra sidan.

Ur praktisk synvinkel har LiteLLM två distinkta men kompletterande delar: ett lättviktigt Python SDK och en proxyserver (LLM Gateway)SDK:et är utformat för utvecklare som snabbt vill integrera flera LLM:er i sin kod utan att behöva konfigurera ytterligare tjänster. Proxyn, å andra sidan, är inriktad på team, MLO:er och organisationer som behöver centraliserad kostnadskontroll, säkerhet, observerbarhet och hög tillgänglighet.

Tack vare denna arkitektur, Du kan skriva integrationskoden en gång och återanvända den med vilken leverantör som helst.Om du använder GPT-4o idag och imorgon vill testa en Claude 3.5 eller en lokal modell i Ollama, ändrar du normalt bara parametervärdet. model eller det aliaset du definierade i proxyinställningarna, utan att röra något annat.

En annan viktig punkt är att LiteLLM Det standardiserar inte bara samtalen, utan även svarsformatet.Modellernas utdata exponeras konsekvent under strukturer av typen response['choices'][0]['message']['content']Detta förenklar avsevärt arbetet med ramverk som LangChain eller LlamaIndex, eller med vilken backend som helst som förväntar sig den typiska OpenAI-strukturen.

Varför ett lager som LiteLLM behövs i LLM-ekosystemet

Språkmodellernas värld är i full gång: OpenAI, Anthropic, Google, Meta, molnleverantörer som Azure eller Bedrock, och plattformar som Hugging Face eller Ollama De släpper och uppdaterar ständigt modeller. Var och en har sitt eget API, användningsgränser, tokenformat och nyanser inom autentisering, för att inte tala om fakturering och hantering av autentiseringsuppgifter.

Den mångfalden är en fördel eftersom Det låter dig välja den optimala modellen för varje användningsfall: kreativ text, resonemang, kod, vision, röst, video, etc.Men det skapar också enorm komplexitet: om ditt företag verkligen vill vara ett multi-LLM-företag, måste du replikera integrationslogik, nyckellagring, kvothantering och mätvärden över varje tjänst. Dessutom ökar risken för leverantörslåsning om din kod är tätt kopplad till ett specifikt API.

LiteLLM tar itu med det problemet direkt genom att skapa ett standard LLM-åtkomstlager som kan distribueras både lokalt och i molnetUnder huven stöder projektet:

Affärsmodeller såsom GPT-4o och familj, Claude 3.5, Gemini, Vertex AI-modeller, AWS Bedrock, Azure OpenAI, etc.
Öppen källkod och lokala modeller genom integrationer med Ollama, Hugging Face och inferensservrar som vLLM.
Multimodala modeller (text, bild, i vissa fall video) via specialiserade leverantörer som RunwayML eller Fal.ai.

Med detta på spel, LiteLLM fungerar som ett centralt "nav" där modellalias, användningspolicyer, reservrutter och routingstrategier definieras.För team innebär det att de kan experimentera med nya modeller eller byta leverantör utan att störa kunder som redan är i produktion.

Huvudkomponenter: Python SDK och proxyserver

LiteLLM SDK i Python är det mest direkta sättet att komma igångDu installerar det med pip, konfigurerar API-nycklarna via miljövariabler och anropar det. litellm.completion(...) eller motsvarande funktioner, precis som du skulle göra med OpenAI SDK. Skillnaden är att här kan du skicka som model vilken identifierare som helst som stöds, till exempel:

Hallucinationer inom artificiell intelligens: Vad de är, varför de uppstår och hur de påverkar människor

model="gpt-4o" för OpenAI eller model="anthropic/claude-3-5-sonnet-20240620" för Anthropic, med samma funktion och samma meddelandeformat.

Detta alternativ är idealiskt när Du prototypar, gör individuella tester eller sätter ihop små projekt där du inte behöver en dedikerad gateway. Att ändra modellen kokar nästan alltid ner till att modifiera en textsträng.

Den andra stora pelaren är LiteLLM-proxyserver, även kallad LLM-gatewayHär talar vi om en centraliserad tjänst (vanligtvis distribuerad på Docker eller Kubernetes) genom vilken alla LLM-förfrågningar från din organisation passerar. Därifrån hanteras följande:

Modellalias definierad i config.yaml, som pekar på specifika leverantörer och modeller.
Virtuella API-nycklar för utrustning eller applikationer, var och en med sin egen budget, användningsgränser och behörigheter.
Avancerade routingreglermed reservfunktion mellan modeller, lastbalansering och val efter kostnad eller latens.
Loggning och centraliserad observerbarhetinklusive latens, fel, uppmaningar och svar (med anonymiseringsalternativ).

I många företag blir ombudet den obligatoriska ingångspunkten för alla tjänster som vill använda LLM:er, något som är väldigt likt en traditionell API-gateway men specialiserat på generativ AI.

Komma igång med LiteLLM: installation, Docker och modellregistrering

Om du snabbt vill experimentera med LiteLLM-proxyn är det renaste sättet att klona det officiella arkivet och starta containrarna med Docker ComposeDet typiska flödet skulle vara något liknande detta (förenklat kommandona):

Klona GitHub-lagret.
Skapa en fil .env med två viktiga nycklar: LITELLM_MASTER_KEY (för att komma åt panelen och hantera modeller) och LITELLM_SALT_KEY (för att kryptera leverantörsuppgifter).
Bygg infrastrukturen med docker-compose up.

När den väl är påslagen, du normalt har åtkomst till http://localhost:4000 och du loggar in med administratörsanvändaren (som du kan ändra) och huvudnyckeln som definierats i miljön. Från det webbgränssnittet är det möjligt att registrera nya modeller, granska användningen, skapa virtuella nycklar etc.

Att registrera en ny modell är relativt enkelt: I panelen, gå till "Modeller >> Lägg till modell" och välj leverantören.Sedan anger du motsvarande API-nyckel, definierar det interna alias som den här modellen ska ha (till exempel Llama3.2-90B-UltrafastOch om du vill kan du anpassa parametrar som kostnad per token eller maximalt antal inkommande och utgående tokens. Denna namnabstraktion låter dig använda mer användarvänliga alias än leverantörernas långa identifierare.

I praktiken utnyttjar många detta för att visa upp högpresterande modeller som de från Groqsom utmärker sig genom sin mycket låga inferensfördröjning tack vare deras hårdvaru-LPU. I panelen kan du registrera en Groq-modell med dess ursprungliga namn (till exempel, llama-3.2-90b-text-preview) och, utåt, kalla det vad du vill utan att det påverkar logiken i din applikation.

En annan mycket vanlig distributionsmetod är att använda direkt LiteLLM-avbildningen i Docker-containrar bredvid en config.yamlutan att behöva klona hela arkivet. I den YAML:en definierar du en model_list Med varje alias och anslutningsparametrar (verklig modell, bas-API, nyckel, etc.) monterar du filen som en volym till containern och exponerar port 4000 för ditt interna nätverk.

Hur man gör förfrågningar till LiteLLM (med hjälp av dess eget SDK, OpenAI SDK och cURL)

När du väl har fått proxyn att fungera är det enklaste du kan göra behandla det som om det vore OpenAI-slutpunktenDet betyder att alla SDK:er eller klienter som är kompatibla med OpenAI API:et kan pekas mot dem. base_url från din LiteLLM och dra nytta av de modellalias du har konfigurerat.

Om du använder LiteLLM SDK i Python, Rekommendationen är att tydligt ange leverantör och modell. i parametern modelfölja mönstret "proveedor/nombre_modelo". Till exempel:

model="groq/Llama3.2-90B-Ultrafast"

Resten av anropet liknar OpenAI: Du skickar honom en lista med meddelanden med hans role (användare, system, assistent) och dess innehåll, kan du aktivera stream=True att ta emot texten i bitar och bearbeta varje bit i en loop. SDK:n exponerar deltana i en struktur som chunk['choices'][0]['delta']['content'].

Om du föredrar att arbeta med det officiella OpenAI SDK är det ännu enklare: Du konfigurerar klienten med base_url="http://tu-litellm" och en "virtuell" API-nyckel (vilket kan vara vilken sträng som helst om du har definierat den på det sättet i proxyn), och du anropar client.chat.completions.create Som alltid. I det här scenariot är det enda som förändras värdet på model, vilket kommer att vara det alias du definierade i LiteLLM, utan att behöva inkludera leverantören.

Slutligen har du alltid möjlighet att dra cURL direkt mot slutpunkten /v1/chat/completions från din gateway. I det här fallet skickar du ett JSON-objekt med modellen, meddelandelistan och streamingflaggan om det behövs, och LiteLLM svarar precis som det officiella OpenAI API:et. Den här metoden är utmärkt för snabba terminaltester, skript på andra språk eller felsökning.

Avancerade funktioner: routing, reservfunktioner, kostnader och observerbarhet

LiteLLM är inte bara "ett fint omslag" för att inte lära sig 20 SDK:er; Den är utformad för produktion och täcker hela livscykeln för integration med LLM:erNågra viktiga funktioner:

Komplett guide för att installera DeepSeek på din dator

Avancerad routing och feltoleransDu kan definiera kedjor för reservmodeller: om den primära modellen misslyckas, överskrider sin kvot eller får slut på kapacitet, försöker LiteLLM automatiskt igen med nästa modell i listan. Dessutom stöder den olika lastbalanseringsstrategier (efter kostnad, latens eller vikt) för att fördela belastningen över flera distributioner av samma modell eller motsvarande modeller.

Kostnads- och budgetuppföljningProxyservern erbjuder en Spårning av utgifter i realtid per leverantör, per virtuell nyckel, per användare eller per teamDetta låter dig sätta månatliga eller dagliga gränser: om ett team överskrider sin budget kan förfrågningar blockeras eller nedgraderas till ett billigare abonnemang. För en produktchef eller CTO är detta ett mycket användbart verktyg för att undvika överraskningar på AI-räkningen.

Centraliserad observerbarhetLiteLLM Den registrerar indata, utdata, latenser och fel på en enda punkt.Detta underlättar både felsökning och kvalitetsövervakning. Det finns färdiga integrationer med verktyg som Langfuse, Helicone, Datadog och OpenTelemetry, såväl som traditionella loggsystem. I reglerade miljöer kan du konfigurera hur och hur mycket som ska loggas, och till och med anonymisera delar av prompten.

Multimodalt stödÄven om det initiala fokuset låg på textmodeller, LiteLLM har redan utökat sin kapacitet att hantera bilder och video. genom specifika leverantörer. Allt detta samtidigt som filosofin "samma gränssnitt, olika modeller" bibehålls, vilket gör det enkelt att experimentera med bildgenerering, video eller blandade pipelines utan att behöva omdesigna integrationen.

Teamledning och säkerhetVia proxypanelen kan du utfärda virtuella API-nycklar med specifika behörigheter och budgetarDet här innebär att slutanvändare aldrig ser de faktiska nycklarna från OpenAI, Anthropic etc., utan snarare interna "tokens" som LiteLLM mappar till huvuduppgifterna. Du kan också begränsa vilka modeller varje team kan använda, konfigurera kvoter per projekt eller kräva specifika rubriker för granskning.

Säkerhet, nyckelhantering och attackkontext i leveranskedjan

Mitt i AI-boomen, Säkerhet har blivit en kritisk faktor, särskilt när det gäller hantering av nycklar och tredjepartsberoenden.Särskilt Python-ekosystemet har drabbats av flera attacker från leveranskedjorna på PyPI de senaste åren, med skadliga paket som stjäl tokens, exfiltrerar data eller modifierar CI/CD-pipelines.

Kampanjer som GlassWorm/ForceMemo, där GitHub-arkiv komprometterades för att stjäla inloggningsuppgifter...eller incidenter som Ultralytics-intrånget, som drabbade vanligt förekommande datorseendeprogram. Typo-squatting-attacker (till exempel paket med namn nästan identiska med "colorama") som infogade bakdörrar i produktionsmiljöer har också varit vanliga.

I det specifika fallet med LiteLLM, Hittills finns det inga bekräftade bevis för att paketet komprometterades via en attack i leveranskedjan.Vissa problem på GitHub har indikerat problem med minnesförbrukning eller CPU-toppar, men inga exploaterbara sårbarheter eller dataexfiltrering kopplade till projektet har rapporterats. Ändå är det förståeligt att säkerhetsteamen är i högsta beredskap i en så dynamisk miljö.

För grundare, CTO:er och plattformsansvariga är det klokt att vidta extra försiktighetsåtgärder: Verifiera paketens ursprung och rykte, använd signerings- och verifieringsverktyg (som Sigstore) och övervaka avvikande beteenden på servrar och containrar.Vid misstanke är aggressiv rotation av autentiseringsuppgifter och granskning av åtkomst i pipelines och distributioner rätt åtgärd, oavsett om det misstänkta beroendet är LiteLLM eller något annat nyckelpaket.

Teknisk konfiguration, förutsättningar och distribution med Docker Compose

För att LiteLLM ska fungera stabilt i en seriös miljö, Det finns ett antal grundläggande krav som bör vara väl definierade.Först behöver du en kompatibel version av Python (om du ska använda SDK eller administratörsskript), en pakethanterare som pip och en hyfsad editor (VS Code, PyCharm eller liknande) för att utveckla dina integrationer.

Dessutom, Du måste ha konton hos de LLM-leverantörer du kommer att arbeta med. (OpenAI, Anthropic, Google Cloud, AWS, Hugging Face, etc.) och deras motsvarande API-nycklar. Vanligtvis laddas dessa som miljövariabler eller via en hemlighetshanterare (Vault, AWS Secrets Manager, GCP Secret Manager, etc.), och sedan konsumerar LiteLLM dem säkert.

Angående konfiguration, Det finns två viktiga block: LiteLLM-miljövariablerna och proxykonfigurationsfilen.Bland de första utmärker sig följande:

LITELLM_MASTER_KEYhuvudnyckel för att komma åt administrationspanelen.
LITELLM_SALT_KEY: frö som används för att kryptera och dekryptera leverantörernas inloggningsuppgifter.
Leverantörens API-nycklar (till exempel, OPENAI_API_KEY, ANTHROPIC_API_KEY, Etc.).

sedan, filen config.yaml Definiera vilka modeller som exponeras via proxyn och under vilket aliasVarje inträde i model_list inkluderar vanligtvis model_name som din applikation kommer att se, den faktiska leverantörsmodellen, referensen till API-nyckeln (ofta deklarerad som os.environ/NOMBRE_VARIABLE) och justeringar som utförlighet eller modellspecifika parametrar.

Exempel på RANK-funktioner i Excel, 2021 Guide

Docker Compose är mycket praktiskt för orkestrera LiteLLM-instansen tillsammans med beroenden som Redis (för cachning), databaser eller observationsverktygVarje tjänst körs i sin egen container, vilket ger isolering, reproducerbarhet och enkel horisontell skalning allt eftersom trafiken växer. Med en enda YAML-fil kan du definiera hur alla komponenter ansluter och distribuerar hela stacken i utvecklings-, staging- och produktionsmiljöer med praktiskt taget samma kommando.

LiteLLM jämfört med andra LLM-gateways

På en marknad som rör sig så snabbt, LiteLLM konkurrerar med (och kompletterar samtidigt) lösningar som OpenRouter, Portkey eller Kong AI GatewayDe tar alla upp samma underliggande problem: centralisering och standardisering av åtkomst till flera modeller, men med betydande skillnader i tillvägagångssätt och implementering.

LiteLLM utmärker sig för att vara Helt öppen källkod, självhostbar och utan tokenavgifterDu hanterar infrastrukturen (oavsett om det är en blygsam server eller ett Kubernetes-kluster) och betalar bara LLM- och hostingleverantörernas räkningar. Detta gör det särskilt attraktivt för företag som vill ha maximal kontroll över data och regelefterlevnad, eller som hanterar känslig information som inte kan lämna deras nätverk.

OpenRouter, å andra sidan, Den fungerar främst som en aggregerad SaaS som exponerar hundratals modeller via ett enda API som de hanterar.Det är väldigt bekvämt eftersom du inte behöver driftsätta någonting, men det innebär att du avstår från viss kontroll över dataflödet och betalar en liten avgift utöver tokenkostnaden. Det kan vara vettigt om du prioriterar bekvämlighet framför kontroll.

Portkey och Kong AI Gateway är mer positionerade som avancerade observations-, säkerhets- och styrningsplattformarMed mycket kraftfulla funktioner för företagsvärlden tenderar LiteLLM att vara mer tilltalande när öppen källkod och flexibilitet är prioriterade, medan dess andra styrkor kan vara mer attraktiva när du redan har en väletablerad stack av API-gateways och observationsverktyg.

Kort sagt, LiteLLM passar särskilt bra för team som vill ha en AI-gateway som de kan granska, modifiera och driftsätta var de än behöver den.utan att vara helt beroende av en tredje part. Och om du någon gång behöver integrera det med andra gateways eller ramverk som LangChain eller LlamaIndex, gör det faktum att det emulerar OpenAI API det hela mycket enklare.

Praktiska konsekvenser för utvecklare, produkter och MLO:er

Att införa LiteLLM är inte bara en teknisk förändring, det är också Det påverkar hur team tänker och arbetar med AIFör utvecklare är den mest uppenbara fördelen den tidsbesparing de sparar: istället för att lära sig tre eller fyra olika SDK:er hanterar de ett och fokuserar på affärslogiken. Mindre "klister" och mer verklig funktionalitet.

För produkt- eller tekniska ledarskapsprofiler, Värdet ligger i synlighet och kostnadskontrollAtt ha en enda punkt för att se vilka modeller som används, hur mycket de kostar, vilka team som förbrukar mest tokens och vilken inverkan ett byte från en dyr modell till en billigare har, ger manöverutrymme vid prioritering av initiativ och budgetjusteringar.

Inom området MLOps och AI-plattformar kan LiteLLM bli kärnan i en strategi för flera LLM-projektDärifrån definieras användningspolicyer, observationsverktyg integreras, reservflöden orkestreras och gemensamma tjänster tillhandahålls resten av organisationen (”AI som en intern tjänst”). Detta innebär också nya ansvarsområden: robust hantering av infrastruktur, automatisering av distributioner, övervakning av prestanda och latens samt noggrant uppföljning av projektets utveckling på GitHub.

Allt detta sker parallellt med en underliggande trend: Branschen går från att tänka på "vilken modell man ska använda" till "vilken applikation man ska bygga och vilken kombination av modeller som bäst låter mig göra det".Genom att minska friktionen vid testning och blandning av modeller är LiteLLM väl positionerat för den framtida applikationer som drivs av flera specialiserade LLM:er och SLM:er som samarbetar med varandra.

Med tanke på allt ovanstående är det lätt att förstå varför LiteLLM har blivit en så framträdande aktör i AI-ekosystemet: Det minskar påtagligt komplexiteten i att arbeta med många modeller, förbättrar kostnadskontroll och säkerhet och öppnar dörren för företag av alla storlekar att på allvar sträva efter en multi-LLM-strategi utan att fastna i implementeringsdetaljer.Om din utmaning idag är att tämja kaoset av AI-API:er utspridda i din stack, är det ofta ett av de mest lönsamma draget att placera ett LiteLLM-lager i mitten.

Isaac

Passionerad författare om bytesvärlden och tekniken i allmänhet. Jag älskar att dela med mig av min kunskap genom att skriva, och det är vad jag kommer att göra i den här bloggen, visa dig alla de mest intressanta sakerna om prylar, mjukvara, hårdvara, tekniska trender och mer. Mitt mål är att hjälpa dig att navigera i den digitala världen på ett enkelt och underhållande sätt.