Шта је LiteLLM и како га користити за управљање више LLM-ова

Мундобитес » софтвер » Шта је LiteLLM, како функционише и за шта се користи у AI пројектима?

LiteLLM обједињује приступ преко 100 LLM-ова путем OpenAI компатибилног API-ја, поједностављујући развој за више произвођача.
Комбинује лагани Пајтон СДК са самосталним прокси сервером који централизује безбедност, трошкове и видљивост.
Нуди напредно рутирање, резервне опције и управљање виртуелним кључевима, смањујући везаност за добављача и побољшавајући отпорност.
Отвореног је кода, интегрише се са алатима као што су LangChain или LlamaIndex и добро се уклапа као АИ капија у пословним окружењима.

Интеграција језичког модела LiteLLM

Када компанија почне да експериментише са генеративном вештачком интелигенцијом, веома брзо наиђе на препреку: Постоје десетине модела, сваки са својим API-јем, параметрима и особеностима.OpenAI с једне стране, Anthropic с друге, Google са својим приступом, локални провајдери, модели отвореног кода… и свака промена захтева преписивање кода, управљање различитим акредитивима и рад са некомпатибилним форматима одговора. На крају, време се губи на техничке „водовод“ уместо на стварање корисних производа.

У том контексту, LiteLLM се појављује као нека врста „Розетског камена“ за LLM. LiteLLM је слој апстракције и капија који вам омогућава да комуницирате са преко стотину вештачке интелигенције користећи, у суштини, исти језик: OpenAI API.Није битно да ли се користе GPT-4o, Claude 3.5, Gemini, Vertex AI модели, Ollama или Hugging Face: ваша апликација увек шаље исту структуру захтева и увек добија исту врсту одговора, док LiteLLM брине о превођењу, рутирању, евидентирању трошкова и спровођењу безбедносних политика.

Шта је тачно LiteLLM?

LiteLLM је пројекат отвореног кода који обједињује приступ преко 100 језичких модела и мултимодалних модела.LiteLLM обавија API-је различитих провајдера у интерфејс компатибилан са OpenAI. Концептуално, делује као посредник између вашег кода и LLM екосистема, тако да размишљате у смислу „логичког модела“ (алијаса), а LiteLLM се бави комуникацијом са стварним моделом на другој страни.

Са практичне тачке гледишта, LiteLLM има два различита, али комплементарна дела: лагани Python SDK и прокси сервер (LLM Gateway)SDK је дизајниран за програмере који желе да брзо интегришу више LLM-ова у свој код без подешавања додатних сервиса. Прокси је, с друге стране, намењен тимовима, MLO-овима и организацијама којима је потребна централизована контрола трошкова, безбедност, видљивост и висока доступност.

Захваљујући овој архитектури, Можете написати интеграциони код једном и поново га користити са било којим провајдером.Ако данас користите GPT-4o, а сутра желите да испробате Claude 3.5 или локални модел у Ollama-и, обично ћете променити само вредност параметра model или алиас који сте дефинисали у подешавањима проксија, без додиривања било чега другог.

Још једна кључна ствар је да LiteLLM Стандардизује не само позиве, већ и формат одговора.Излази модела су константно изложени под структурама типа response['choices'][0]['message']['content']Ово знатно поједностављује рад са фрејмворцима као што су LangChain или LlamaIndex, или са било којим бекендом који очекује типичну OpenAI структуру.

Зашто је слој попут LiteLLM-а потребан у LLM екосистему

Свет језичких модела је у пуном јеку: OpenAI, Anthropic, Google, Meta, cloud провајдери као што су Azure или Bedrock и платформе као што су Hugging Face или Ollama Они стално објављују и ажурирају моделе. Сваки има свој API, ограничења коришћења, формат токена и нијансе у аутентификацији, а да не помињемо управљање наплатом и акредитивима.

Та разноликост је предност јер Омогућава вам да изаберете оптималан модел за сваки случај употребе: креативни текст, резоновање, код, визија, глас, видео итд.Али то такође ствара огромну сложеност: ако ваша компанија заиста жели да буде мулти-LLM, на крају ћете реплицирати логику интеграције, складиштење кључева, управљање квотама и метрике у свакој услузи. Штавише, ризик од везаности за добављача се повећава ако је ваш код чврсто повезан са одређеним API-јем.

LiteLLM се директно бави тим проблемом креирањем стандардни LLM слој приступа који се може применити и локално и у облакуУ суштини, пројекат подржава:

Пословни модели као што су GPT‑4o и породица, Claude 3.5, Gemini, Vertex AI модели, AWS Bedrock, Azure OpenAI, итд.
Отворени код и локални модели кроз интеграције са Ollama, Hugging Face и серверима за закључивање као што је vLLM.
Мултимодални модели (текст, слика, у неким случајевима видео) преко специјализованих провајдера као што су RunwayML или Fal.ai.

Са овим у питању, LiteLLM делује као централно „чвориште“ где се дефинишу алијаси модела, политике коришћења, резервне руте и стратегије рутирања.За тимове, то значи да могу експериментисати са новим моделима или променити добављаче без ометања купаца који су већ у производњи.

Главне компоненте: Пајтон СДК и прокси сервер

LiteLLM SDK у Пајтону је најдиректнији начин за почетакИнсталирате га помоћу pip-а, конфигуришете API кључеве преко променљивих окружења и позовете га. litellm.completion(...) или еквивалентне функције, баш као што бисте то урадили са OpenAI SDK-ом. Разлика је у томе што овде можете проследити као model било који подржани идентификатор, на пример:

Халуцинације у вештачкој интелигенцији: шта су, зашто се дешавају и како утичу на људе

model="gpt-4o" за OpenAI или model="anthropic/claude-3-5-sonnet-20240620" за Anthropic, користећи исту функцију и исти формат поруке.

Ова опција је идеална када Правите прототипове, радите појединачна тестирања или састављате мале пројекте где вам није потребан посебан мрежни пролаз. Промена модела се скоро увек своди на модификацију низа текста.

Други велики стуб је LiteLLM прокси сервер, такође назван LLM GatewayОвде говоримо о централизованом сервису (обично распоређеном на Docker-у или Kubernetes-у) кроз који пролазе сви LLM захтеви из ваше организације. Одатле се управља следећим:

Алијаси модела дефинисано у config.yaml, који указују на одређене добављаче и моделе.
Виртуелни API кључеви за опрему или апликације, свака са својим буџетом, ограничењима коришћења и дозволама.
Напредна правила рутирањаса резервним моделима, балансирањем оптерећења и избором према цени или латенцији.
Евиденција и централизована надгледаностукључујући латенцију, грешке, упите и одговоре (са опцијама анонимизације).

У многим компанијама, пуномоћник постаје обавезна улазна тачка за све сервисе који желе да користе LLM-ове, нешто веома слично традиционалном API Gateway-у, али специјализовано за генеративну вештачку интелигенцију.

Почетак рада са LiteLLM-ом: инсталација, Docker и регистрација модела

Ако желите брзо да се позабавите LiteLLM проксијем, најчистији начин је Клонирајте званични репозиторијум и покрените контејнере помоћу Docker Compose-аТипичан ток би био нешто попут овог (поједностављивање команди):

Клонирајте GitHub репозиторијум.
Направи датотеку .env са два важна кључа: LITELLM_MASTER_KEY (за приступ панелу и управљање моделима) и LITELLM_SALT_KEY (за шифровање акредитива добављача).
Изградите инфраструктуру са docker-compose up.

Једном укључен, обично приступате http://localhost:4000 и пријавите се као администраторски корисник (који можете променити) и главни кључ дефинисан у окружењу. Са тог веб интерфејса могуће је регистровати нове моделе, прегледати коришћење, креирати виртуелне кључеве итд.

Регистрација новог модела је релативно једноставна: У панелу идите на „Модели >> Додај модел“ и изаберите добављача.Затим уносите одговарајући API кључ, дефинишете интерни алиас који ће овај модел имати (на пример, Llama3.2-90B-UltrafastИ, ако желите, можете прилагодити параметре као што су цена по токену или максималан број долазних и одлазних токена. Ова апстракција имена вам омогућава да користите алијасе који су једноставнији за коришћење од дугих идентификатора провајдера.

У пракси, многи људи користе ову предност да представити моделе високих перформанси попут оних компаније Groqкоји се истичу по веома ниској латенцији инференције захваљујући свом хардверском LPU-у. У панелу можете регистровати Groq модел са његовим оригиналним именом (на пример, llama-3.2-90b-text-preview) и, споља, назовите га како год желите без утицаја на логику ваше апликације.

Још један веома уобичајен метод распоређивања је директна употреба LiteLLM слика у Docker контејнерима поред а config.yamlбез потребе за клонирањем целог репозиторијума. У том YAML-у дефинишете model_list Са сваким алијасом и параметрима везе (стварни модел, основни АПИ, кључ итд.), монтирате датотеку као волумен у контејнер и излажете порт 4000 вашој интерној мрежи.

Како поднети захтеве LiteLLM-у (користећи његов сопствени SDK, OpenAI SDK и cURL)

Када прокси ради, најлакше је третирајте га као да је крајња тачка OpenAI-аТо значи да било који SDK или клијент компатибилан са OpenAI API-јем може бити усмерен ка њему. base_url из вашег LiteLLM-а и искористите предности алијаса модела које сте конфигурисали.

Ако користите LiteLLM SDK у Пајтону, Препорука је да се експлицитно наведе добављач и модел. у параметру modelпратећи образац "proveedor/nombre_modelo". На пример:

model="groq/Llama3.2-90B-Ultrafast"

Остатак позива је сличан OpenAI-у: Шаљеш му листу порука са његовим role (корисник, систем, асистент) и његов садржај, можете активирати stream=True да прими текст у деловима и обради сваки део у петљи. SDK открива делте у структури као што је chunk['choices'][0]['delta']['content'].

Ако више волите да радите са званичним OpenAI SDK-ом, то је још једноставније: Конфигуришете клијента са base_url="http://tu-litellm" и „виртуелни“ API кључ (што може бити било који стринг ако сте га тако дефинисали у проксију), и позивате client.chat.completions.create Као и увек. У овом сценарију, једино што се мења је вредност model, што ће бити алиас који сте дефинисали у LiteLLM-у, без потребе да укључите провајдера.

На крају крајева, увек имате могућност да директно повуците cURL према крајњој тачки /v1/chat/completions са вашег гејтвеја. У овом случају, шаљете JSON објекат са моделом, листом порука и заставицом стримовања ако је потребно, а LiteLLM реагује баш као и званични OpenAI API. Овај приступ је одличан за брзе терминалне тестове, скрипте на другим језицима или дебаговање.

Напредне функције: рутирање, резервне опције, трошкови и видљивост

LiteLLM није само „лепа омотач“ за неучење 20 SDK-ова; Дизајниран је за производњу и покрива цео животни циклус интеграције са LLM-овима.Неке кључне могућности:

Комплетан водич за инсталирање ДеепСеек-а на ваш рачунар

Напредно рутирање и толеранција на грешкеМожете дефинисати ланце резервних модела: ако примарни модел не успе, прекорачи своју квоту или му понестане капацитета, LiteLLM аутоматски покушава поново са следећим моделом на листи. Штавише, подржава различите стратегије балансирања оптерећења (према цени, латенцији или тежини) како би се оптерећење распоредило на више имплементација истог модела или еквивалентних модела.

Праћење трошкова и буџетаПрокси сервер нуди праћење трошкова у реалном времену по добављачу, по виртуелном кључу, по кориснику или по тимуОво вам омогућава да поставите месечне или дневне лимите: ако тим прекорачи свој буџет, захтеви могу бити блокирани или враћени на јефтинији план. За менаџера производа или техничког директора, ово је веома користан алат за избегавање изненађења на рачуну за вештачку интелигенцију.

Централизована посматраностLiteLLM Бележи улазе, излазе, латенције и грешке у једној тачки.Ово олакшава и отклањање грешака и праћење квалитета. Постоје готове интеграције са алатима као што су Langfuse, Helicone, Datadog и OpenTelemetry, као и традиционални системи за евидентирање. У регулисаним окружењима можете конфигурисати како и колико евидентирати, па чак и анонимизовати делове промпта.

Мултимодална подршкаИако је почетни фокус био на текстуалним моделима, LiteLLM већ проширује своје капацитете за обраду слика и видеа. преко одређених добављача. Све ово уз очување филозофије „исти интерфејс, различити модели“, што олакшава експериментисање са генерисањем слика, видеа или мешовитих цевовода без редизајнирања интеграције.

Управљање тимом и безбедностПреко прокси панела можете издати виртуелне API кључеве са одређеним дозволама и буџетимаТо значи да крајњи корисници никада не виде стварне кључеве из OpenAI, Anthropic итд., већ интерне „токене“ које LiteLLM мапира на главне акредитиве. Такође можете ограничити које моделе сваки тим може да користи, конфигурисати квоте по пројекту или захтевати посебне заглавља за ревизију.

Безбедност, управљање кључевима и контекст напада у ланцу снабдевања

Усред бума вештачке интелигенције, Безбедност је постала кључни фактор, посебно у погледу управљања кључевима и зависностима трећих страна.Пајтон екосистем је, посебно, последњих година претрпео неколико напада на ланац снабдевања на PyPI, при чему су злонамерни пакети крали токене, извлачили податке или модификовали CI/CD цевоводе.

Кампање као што су GlassWorm/ForceMemo, где су GitHub репозиторијуми компромитовани ради крађе акредитива...или инциденти попут кршења Ултралитикс безбедности, који је погодио широко коришћене пакете за рачунарски вид. Напади типа „сквотинга“ (на пример, пакети са именима готово идентичним „colorama“) који су убацили задња врата у производна окружења такође су били распрострањени.

У конкретном случају LiteLLM-а, До данас нема потврђених доказа да је пакет угрожен путем напада на ланац снабдевања.Неки проблеми на GitHub-у указивали су на проблеме са потрошњом меморије или скоковима процесора, али нису пријављене никакве рањивости које се могу искористити или крађа података повезана са пројектом. Упркос томе, у тако динамичном окружењу, разумљиво је да су безбедносни тимови у стању високе приправности.

За осниваче, техничке директоре и менаџере платформи, има смисла предузети додатне мере предострожности: Проверите порекло и репутацију пакета, користите алате за потписивање и верификацију (као што је Sigstore) и пратите аномално понашање на серверима и контејнерима.У случају било какве сумње, агресивна ротација акредитива и ревизија приступа у цевоводима и имплементацијама је прави потез, без обзира да ли је сумњива зависност LiteLLM или било који други кључни пакет.

Техничка конфигурација, предуслови и имплементација помоћу Docker Compose-а

Да би LiteLLM стабилно функционисао у озбиљном окружењу, Постоји низ основних захтева које треба добро дефинисати.Прво, потребна вам је компатибилна верзија Пајтона (ако ћете користити SDK или администраторске скрипте), менаџер пакета као што је pip и пристојан едитор (VS Code, PyCharm или слично) за развој ваших интеграција.

Поред тога, Морате имати налоге код провајдера LLM-а са којима ћете сарађивати. (OpenAI, Anthropic, Google Cloud, AWS, Hugging Face, итд.) и њихови одговарајући API кључеви. Обично се учитавају као променљиве окружења или путем менаџера тајни (Vault, AWS Secrets Manager, GCP Secret Manager, итд.), а затим их LiteLLM безбедно користи.

Што се тиче конфигурације, Постоје два важна блока: променљиве окружења LiteLLM и конфигурациона датотека проксија.Међу првима се истичу следећи:

LITELLM_MASTER_KEY: главни кључ за приступ административном панелу.
LITELLM_SALT_KEY: семе које се користи за шифровање и дешифровање акредитива провајдера.
API кључеви добављача (на пример, OPENAI_API_KEY, ANTHROPIC_API_KEY, Итд).

После фајл config.yaml Дефинишите који модели су изложени преко проксија и под којим алијасомСваки унос у model_list обично укључује model_name који ће ваша апликација видети, стварни модел провајдера, референцу на API кључ (често декларисан као os.environ/NOMBRE_VARIABLE) и подешавања као што су детаљност или параметри специфични за модел.

Примери РАНК функција у Екцел-у, Водич за 2021

Докер Компоуз је веома практичан за оркестрирајте LiteLLM инстанцу заједно са зависностима као што су Redis (за кеширање), базе података или алати за посматрањеСвака услуга ради у свом контејнеру, што пружа изолацију, репродуктивност и лако хоризонтално скалирање како саобраћај расте. Са једном YAML датотеком, можете дефинисати како се све компоненте повезују и распоређују цео стек у развојном, припремном и производном окружењу практично истом командом.

LiteLLM у односу на друге LLM методе

На тржишту које се креће тако брзо, LiteLLM се такмичи са (и истовремено их допуњује) решењима као што су OpenRouter, Portkey или Kong AI GatewayСви се баве истим основним проблемом: централизацијом и стандардизацијом приступа вишеструким моделима, али са значајним разликама у приступу и примени.

LiteLLM се истиче по томе што је Потпуно отвореног кода, самостално хостован и без накнада за токенеВи управљате инфраструктуром (било да је у питању скромни сервер или Kubernetes кластер) и плаћате само рачуне за LLM и хостинг провајдере. Ово га чини посебно атрактивним за компаније које желе максималну контролу над подацима и усклађеност са прописима или које рукују осетљивим информацијама које не могу да напусте њихову мрежу.

С друге стране, OpenRouter Првенствено функционише као агрегирани SaaS који излаже стотине модела путем једног API-ја којим они управљају.Веома је згодно јер не морате ништа да имплементирате, али значи да се одричете дела контроле над протоком података и плаћате малу додатну накнаду поред цене токена. Можда има смисла ако дате приоритет погодности у односу на контролу.

Порткеј и Конг АИ Гејтвеј су позиционирани више као напредне платформе за надгледање, безбедност и управљањеСа веома моћним функцијама за пословни свет, LiteLLM има тенденцију да буде привлачнији када су отворени код и флексибилност приоритети, док његове друге предности могу бити привлачније када већ имате добро успостављен стек API пролаза и алата за посматрање.

Укратко, LiteLLM је посебно добар избор за тимове који желе AI gateway који могу да ревидирају, модификују и примене где год им је потребан.без потпуне зависности од треће стране. А ако у било ком тренутку затреба да га интегришете са другим gateway-има или фрејмворцима попут LangChain-а или LlamaIndex-а, чињеница да емулира OpenAI API чини ствари много лакшим.

Практичне импликације за програмере, производ и MLO-ове

Усвајање LiteLLM-а није само техничка промена, већ и Утиче на начин на који тимови размишљају и раде са вештачком интелигенцијомЗа програмере, најочигледнија предност је уштеђено време: уместо учења три или четири различита SDK-а, они управљају једним и фокусирају се на пословну логику. Мање „лепка“ и више стварне функционалности.

За профиле лидерства у производу или техничком сектору, Вредност лежи у видљивости и контроли трошковаИмање једне тачке са које се може видети који се модели користе, колико коштају, који тимови троше највише токена и какав утицај има прелазак са скупљег на јефтинији модел, пружа простор за маневрисање приликом одређивања приоритета иницијатива и прилагођавања буџета.

У области MLOps и AI платформи, LiteLLM може постати централни део мулти-LLM стратегијеОдатле се дефинишу политике коришћења, интегришу алати за праћење, оркестрирају резервни токови и пружају се заједничке услуге остатку организације („вештачка интелигенција као интерна услуга“). То такође подразумева нове одговорности: робусно управљање инфраструктуром, аутоматизацију имплементација, праћење перформанси и латенције и пажљиво праћење еволуције пројекта на GitHub-у.

Све се ово дешава паралелно са основним трендом: Индустрија се пребацује са размишљања о „који модел користити“ на „коју апликацију направити и која комбинација модела ми то најбоље омогућава“.LiteLLM, смањењем трења у моделима тестирања и комбиновања, је добро позициониран за будућност апликација вођених вишеструким специјализованим LLM-овима и SLM-овима који сарађују једни са другима.

С обзиром на све наведено, лако је разумети зашто је LiteLLM постао тако истакнути играч у екосистему вештачке интелигенције: То значајно смањује сложеност рада са многим моделима, побољшава контролу трошкова и безбедност и отвара врата компанијама било које величине да озбиљно примене мулти-LLM приступ, а да се не заглаве у детаљима имплементације.Ако је ваш данашњи изазов да укротите хаос AI API-ја раштрканих по вашем стеку, стављање LiteLLM слоја у средину је често један од најпрофитабилнијих потеза.

Исак

Страствени писац о свету бајтова и технологије уопште. Волим да делим своје знање кроз писање, и то је оно што ћу радити на овом блогу, показивати вам све најзанимљивије ствари о гаџетима, софтверу, хардверу, технолошким трендовима и још много тога. Мој циљ је да вам помогнем да се крећете у дигиталном свету на једноставан и забаван начин.