Hva er ERNIE-4.5-VL-28B-A3B-Thinking og hvordan få mest mulig ut av det

Siste oppdatering: 14/11/2025
Forfatter: Isaac
  • Effektiv MoE-arkitektur: 28 milliarder totalt og ~3 milliarder eiendeler per token med ViT og spesifikke tap for multimodal balanse.
  • Avansert multimodal resonnering: RL (GSPO, IcePop), tilgjengelig forankring og «Tenkning med bilder» for detaljer og long-tail.
  • Fleksibel utplassering: BaiduKompatible API-er, ERNIEKit, vLLM og kvantisering opptil 2 bits med variable VRAM-krav.

ERNIE 4.5 VL Tenkemodell visjonsspråk

Etiketten «Thinking» har i all stillhet dukket opp på Baidus ERNIE-4.5-VL-serie av disker og har skapt en del kontrovers. Midt i kommentarer om at lanseringen var nesten helt hemmelig, ble det fremført en liten oversikt som sammenlignet den med konkurrenter som Gemini 2.5 Pro og en hypotetisk "høy" GPT-5, og løftet om en modus for «å tenke i bilder» Fordi det ikke er særlig godt forklart, lurer mange på om denne modellen virkelig er så god som markedsføringen antyder. Sannheten er at tidligere versjoner av Ernie allerede var ganske kapable, så det er verdt å se nærmere under panseret og skille hypen fra virkeligheten.

Kort sagt er ERNIE-4.5-VL-28B-A3B-Thinking en multimodal visjonsspråkmodell med en blanding av eksperter (MoE)-arkitektur som aktiverer bare ~3 milliarder parametere per token av totalt 28B. Dette gir en svært interessant balanse mellom kraft og effektivitet. «Tenkning»-varianten inkluderer mellomliggende trening fokusert på multimodal resonnering, forsterker semantisk tilpasning mellom tekst og bilde, og legger til forsterkningsstrategier som GSPO og IcePop for å stabilisere MoE i verifiserbare oppgaver, i tillegg til den berømte «tenkning med bilder»-funksjonen som kombinerer zoom og visuelt søk å trekke ut fine detaljer og langhalet kunnskap.

Hva er ERNIE-4.5-VL-28B-A3B-Thinking, og hvorfor er det viktig?

Innenfor ERNIE 4.5-familien er VL-28B-A3B-Thinking-versjonen posisjonert som en modell lett, men ambisiøs i multimodal resonnering. Den utnytter en MoE-arkitektur med 28.000 milliarder totale parametere og ~3.000 milliarder eiendeler per token, noe som reduserer inferenskostnader samtidig som den opprettholder konkurransedyktig ytelse mot større, tettere modeller.

De tekniske spesifikasjonene nevner opptil 130 eksperter med 14 aktive på hvert trinn, en konfigurasjon som samsvarer med målet om spesialisering etter inngangstype, kontroll av strømforbruk og latens. Ideen er at ruteren velger «de riktige ekspertene» når bilder, tekst eller kombinasjoner av begge mottas, noe som maksimerer effektiviteten. mangfold av representasjoner og effektiviteten av beregningen.

For den visuelle komponenten er ryggraden en Vision Transformer (ViT) som deler bildet inn i flekker og behandler dem som tokens. Denne projeksjonen på samme innebyggingsrom som teksten legger til rette for en flytende «dialog» mellom modaliteter, støttet av treningsteknikker som ortogonalt tap av router (slik at ekspertene ikke overlapper for mye) og en tokenbalansert multimodalt tap som hindrer at én modalitet overskygger den andre.

Sammen med «Tenkning»-taggen kan Baidu skryte av betydelige forbedringer innen visuell resonnering, grafanalyse, kausalitet, forankring og å følge visuelle instruksjoner. Videre muligheten til å kalle verktøy og generere utdata... strukturert i JSON Og det å ha integrert innholdsmoderering gjør det til et solid verktøy for multimodale agenter.

Viktige funksjoner ved ERNIE 4.5 VL 28B Thinking

Arkitektur, opplæring og ferdigheter: hva det egentlig bringer

MoE-filosofien tillater at bare en brøkdel av parameterne aktiveres per token, noe som betyr beregningseffektivitet uten å ofre modellens overordnede skala. Hver «ekspert» kan spesialisere seg i mønstre eller oppgaver (f.eks. OCR, diagrammer, numerisk resonnering), og ruteren lærer å kombinere dem i henhold til konteksten.

I praksis forsterkes dette av to sentrale treningsideer: et ortogonalt tap for ruteren – som oppmuntrer til mangfold blant eksperter – og en token-balansert multimodal tapsfunksjon, som opprettholder balansen mellom tekst og bilde under trening. Dette forhindrer at modellen presterer eksepsjonelt bra med tekst, men sliter med syn (eller omvendt). I VL-28B-A3B-Thinking øker dessuten midtopplæring dedikert til resonnement om bilde-tekst-par representasjonskraften og herder ... multimodal semantisk justering.

Når det gjelder referansetester, plasserer uavhengige sammenlignende analyser (f.eks. Galaxy.AI) ERNIE-4.5-VL-28B-A3B på nivå med – eller til og med overgår – alternativer som Qwen2.5-VL-7B og Qwen2.5-VL-32B i visuell persepsjon, dokumentforståelse og multimodal resonnering. Dette stemmer overens med den lille reklamegrafikken (ja, veldig vanskelig å lese) som antyder at den holder tritt med eller overgår tungvektere som Gemini 2.5 Pro eller en "høy" GPT-5. Noen mistenker referansetester, men sannheten er at med forsterkningsforbedringene (GSPO, IcePop) og dynamisk vanskelighetsgradssampling er det forståelig at modellen har blitt forbedret. robusthet i verifiserbare oppgaver.

  GlobalGPT: Hva er denne alt-i-ett AI og hvordan fungerer den?

Funksjonen «Thinking with Images» fortjener spesiell omtale: det er ikke magi, men en arbeidsflyt som kombinerer bildezoom og visuelle søkeverktøy for å fange opp svært fine detaljer (tavler, små skilt, ikonografi) og få tilgang til langhalekunnskap når intern kunnskap er utilstrekkelig. Denne funksjonen, sammen med mer tilgjengelig forankring (aktivering av forankringsfunksjoner med enkle instruksjoner), gjør modellen til en sterk kandidat for industrielle applikasjoner og scenarier med komplekse bilder.

I flerspråklige miljøer opprettholder ERNIE 4.5-serien høy ytelse uten å ofre visuell forståelse, en nøkkelfunksjon i globale arbeidsflyter. Videre åpner strukturert utdata (JSON) og funksjonskall døren for brukstilfeller der modellen ikke bare observerer og reagerer, men også... virker på verktøy (for eksempel å finne objekter og returnere avgrensningsboksene deres med koordinater).

MoE-arkitektur og multimodal flyt i ERNIE

Velprøvde brukstilfeller

Visuell resonnering i trengselsdiagrammer: modellen kan kryssreferere datoer med ukedager, tolke diagrammets struktur, oppdage perioder med lavere tetthet (f.eks. 12:00–14:00) og generere en klar anbefaling av de beste tidspunktene å besøke. Her ser vi resonnering fra flere trinn som kombinerer kalender, visuell lesing og logikk.

STEM-problemer fra bilder: Stilt overfor en brokrets som ikke kan løses med enkel serie-parallellkobling, anvender modellen Ohms og Kirchhoffs lover, setter opp nodeligninger og utleder et korrekt analytisk resultat (f.eks. R = 7/5 Ω). Dette illustrerer dens evne til å teknisk lese diagrammer og symbolsk resonnement.

Visuell jording med strukturert utdata: gitt «Identifiser alle personer i dress og returner avgrensningsboksene deres i JSON», oppdager den individene og leverer presise numeriske koordinater. Nøkkelen er å kombinere jording med følgende instruksjoner og programmerbart utgangsformat.

«Tenkning i bilder» for detaljert OCR: Hvis brukeren ber om teksten på et blått skilt i bakgrunnen, aktiveres zoomverktøyet, slik at små etiketter (som «HOTEL BUZA») kan identifiseres med flere detaljer. pålitelighetDet er et eksempel på dynamisk fokus i fine regioner.

Bruk av kunnskapsverktøy med lang hale: Stilt overfor et rundt gult kosedyr bestemmer modellen seg for å aktivere et eksternt bildesøk, sammenligner attributter og konkluderer med at det er «Dundun», assosiert med MINISO. Denne pipelinen demonstrerer dens orkestreringskapasitet av trinn med verktøy.

Videokomprimering: utdrag teksting med tidsstempler og lokaliserer spesifikke scener (for eksempel segmenter rundt 17, 37 og 47 filmet på en bro). Her blander den tekstutvinning, temporal resonnement og spatiotemporal analyse av innhold.

En annen bemerkelsesverdig variant: ERNIE‑4.5‑21B‑A3B‑Thinking

Ved siden av VL-28B-utgaven finnes det en variant som fokuserer på tekst-/koderesonnement med totalt 21 milliarder tokens og 3 milliarder aktive tokens per token. Den ble laget med ideen om «smartere, ikke større», og demonstrerer bemerkelsesverdig ytelse innen logikk, matematikk, programmering og langvarige resonnementskjeder. Publisert under Apache-2.0 Og med et utvidet kontekstvindu (i området 128K–131K) er det svært attraktivt for oppgaver i langt format og sammenlignende analyse av flere dokumenter.

Et av salgsargumentene er prisen: veiledende avgifter har blitt annonsert gjennom visse plattformer med svært aggressive kostnader per million tokens (for eksempel $0,07 inngang og $0,28 utgang, og til og med «$0/$0» i noen 21B-konfigurasjoner), selv om det er tilrådelig å bekrefte faktisk tilgjengelighet og betingelser, fordi utrullingsøkosystemet og handelsavtaler Kan variere.

  Samsung lanserer 'The Mind Guardian', et AI-drevet videospill designet for å oppdage minnetap.

Markedssammenligninger og støy

Angående den berømte lille grafen som sammenligner den med Gemini 2.5 Pro og en "høy" GPT-5: det er markedsføring, ikke en uavhengig revisjon. Likevel, sammenlignet med offentlig tilgjengelige batterier (Qwen2.5-VL-7B/32B, osv.), holder modellen mål. Som alltid er det best å teste den på måldataene og beregningene dine, fordi generalisering Det varierer avhengig av domenet, kvaliteten på ledetekstene, tilgjengelige verktøy og blandingen av inndata (tekst/bilde/video).

Kvantisering og minnekrav

I lokale distribusjoner hjelper kvantisering. Med FP16 er det estimert til å være rundt ~56 GB VRAM; med 4-bit, rundt ~14 GB; og med 2-bit, ~7 GB. Merk: disse tallene avhenger av kjøretid og pakning. For eksempel nevner noen FastDeploy-guider minimum 24 GB per kort, og i andre miljøer (f.eks. mer krevende vLLM) er 80 GB oppgitt for spesifikke konfigurasjoner. Avhengig av stacken (PaddlePaddle, PyTorch, kjerner, sekvenslengde(, batch, KV-cache), den praktiske figuren kan bevege seg.

Flerspråklig støtte og moderering

Flerspråklig støtte uten at det går på bekostning av synlighet er en annen styrke. Og for brukerrettet produksjon legger innebygd moderering til et sikkerhetslag som reduserer distribusjonsrisikoer. Strukturert utdata og funksjonskall gjør at modellen kan integreres som en "motor" i pipelines med eksterne verktøyikke bare som en chatbot.

Et ekstremt eksempel på dokumentarisk forståelse

Modellen kan håndtere komplekse historiske transkripsjoner, som tekster om «Wōs fem konger» i kinesiske kilder, kryssreferanser fra «Sangboken», inskripsjoner på Gwanggaeto-stelen eller fotnoter med årstall (f.eks. 478) og steder (Ji'an, Jilin). Denne typen input blander oversettelser, forklarende notater og arkeologisk kontekst (gravhauger, sverd med inskripsjoner som «Daio» assosiert med Bu/Yūryaku). Et system som ERNIE-4.5-VL-28B-Thinking kan segmentere dette materialet, gjenkjenne egennavn (Yomi, Mí, Sei, Ō, Bu) og koble dem til keiserlige figurer Japansk og formuler et sammenhengende sammendrag med fakta: hyllester til sør-kinesiske dynastier, konflikt på den koreanske halvøya, base i Kara/Imna for jernressurser, osv.

Implementering, tilgang og ofte stilte spørsmål

Det finnes flere måter å teste og distribuere ERNIE 4.5 på. Baidu tilbyr nettilgang for å komme i gang uten installasjon. Integrasjoner med tredjepartsplattformer (f.eks. Novita API Playground) gjør det enkelt å evaluere modellen i utviklingsmiljøer og måle kostnader. For lokale distribusjoner er den anbefalte stakken vanligvis... Linuxmed PaddlePaddle (ERNIEKit) og krysskompatibilitet med Transformers i PyTorch ved bruk av tillits_fjern_kode når den berører.

Implementering og bruk av ERNIE 4.5 i lokale og skybaserte miljøer

Implementering med Transformers (PyTorch)

Den typiske ruten innebærer å laste modellen med AutoModelForCausalLM, legge til bildeforbehandling fra AutoProcessor og bygge multimodale meldinger som kombinerer tekst og bilde/video. Deretter genereres den med passende tokengrenser, og utdataene dekodes. Nøkkelen er at prosessor administrere både chatmalen og utarbeidelsen av visuelle tensorer.

<!-- Ejemplo orientativo (parafraseado) -->
from transformers import AutoModelForCausalLM, AutoProcessor
import torch

name = "baidu/ERNIE-4.5-VL-28B-A3B-Thinking"
model = AutoModelForCausalLM.from_pretrained(
    name, device_map="auto", dtype=torch.bfloat16, trust_remote_code=True
)
processor = AutoProcessor.from_pretrained(name, trust_remote_code=True)
model.add_image_preprocess(processor)

messages = [{
  "role": "user",
  "content": [
    {"type": "text", "text": "¿De qué color es la ropa de la chica?"},
    {"type": "image_url", "image_url": {"url": "https://.../example1.jpg"}}
  ]
}]

text = processor.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
image_inputs, video_inputs = processor.process_vision_info(messages)
inputs = processor(text=[text], images=image_inputs, videos=video_inputs, padding=True, return_tensors="pt")

out_ids = model.generate(**{k: v.to(model.device) for k, v in inputs.items()}, max_new_tokens=256)
print(processor.decode(out_ids[0][len(inputs["input_ids"][0]):]))

Inferens med vLLM

vLLM akselererer inferens og legger til alternativer som parsere spesielt utviklet for resonnement og verktøykall. Husk å aktivere det. –trust-fjernkode når modellen serveres hvis depotet krever det.

# Instalar nightly (orientativo)
pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly

# Servir el modelo
vllm serve baidu/ERNIE-4.5-VL-28B-A3B-Thinking --trust-remote-code

# Con parsers de razonamiento y herramientas
evllm serve baidu/ERNIE-4.5-VL-28B-A3B-Thinking \
  --trust-remote-code \
  --reasoning-parser ernie45 \
  --tool-call-parser ernie45 \
  --enable-auto-tool-choice

FastDeploy og ERNIEKit

FastDeploy tillater eksponering av raske tjenester med parametere for å kontrollere maksimal lengde, antall sekvenser, kvantisering (wint8/INT4), resonnementsparsere og multimodale prosessorinnstillinger (f.eks. image_max_pixels). De siterte VRAM-kravene varierer; kommentarer har blitt gitt siden 24 GB per kort opptil scenarier som krever 80 GB i andre guider; det avhenger av kombinasjonen av modell, presisjon, batch og lengder.

# Ejemplo orientativo
fastdeploy serve --model baidu/ERNIE-4.5-VL-28B-A3B-Thinking \
  --max-model-len 131072 \
  --max-num-seqs 32 \
  --port 8180 \
  --quantization wint8 \
  --reasoning-parser ernie-45-vl-thinking \
  --tool-call-parser ernie-45-vl-thinking \
  --mm-processor-kwargs '{"image_max_pixels": 12845056 }'

Finjustering (SFT/LoRA) og justering (DPO)

ERNIEKit, basert på PaddlePaddle, tilbyr ferdige konfigurasjoner for SFT med og uten LoRA, og for DPO. Det er nyttig for å tilpasse modellen til spesifikke domener (f.eks. industrielle dokumenter, visuell inspeksjon, skjemaer) samtidig som det opprettholder multimodal robusthetDu kan laste ned modellarkivet og kjøre opplæringsmalene som er inkludert i verktøysetteksemplene.

  All Music Works: Den musikalske nyvinningen som markerer et før og etter

Tilgang via API-er og plattformer

I tillegg til Baidu-plattformen finnes det integrasjoner som er kompatible med standarden. OpenAI API-er. Dette forenkler migrering fra eksisterende verktøy (f.eks. kommandolinjeklienter eller redigeringsprogrammer som Cursor) ved å unngå behovet for å gjøre integrasjoner på nytt. Noen GPU-skyer (som Novita AI) annonserer instanser med rikelig med VRAM og timepris, samt skalerbarhet til flere GPU-er, noe som er nyttig hvis du vil teste store konfigurasjoner uten å investere i maskinvare seg selv.

Kommersiell lisens og bruk

ERNIE 4.5-familien er utgitt under Apache 2.0, en permissiv lisens som tillater kommersiell bruk samtidig som vilkår og merknader respekteres. Dette gjør det enkelt å lage betalte produkter ved å integrere modellen og dens derivater, så lenge du opprettholder lisenssamsvar og den tilhørende attribusjonen (f.eks. sitering av den tekniske rapporten).

Priser og kontekst

Referanser til svært konkurransedyktige priser har blitt delt. For eksempel, for 300B A47B-utgaven er konteksten som er nevnt 123 000 dollar, med indikative kostnader på $0,28/M input og $1,10/M output. For 21B A3B er det sett annonserte tall så lave som $0/$0. Det anbefales å sjekke tilgjengelighet og nøyaktige betingelser på den aktuelle plattformen, ettersom prisene avhenger av leverandøren. bruksavgift, regionen og SLA-en.

Ytelse i oppgaver i det virkelige liv

Utover papiret er det interessante hvor det skinner: lesing av dokumenter med en blanding av tekst og visuelle elementer (stempler, tabeller, signaturer), utvinning av data med grunnlag (koordinater), løsning av STEM-problemer fra fotografier eller tavler, sammendrag av videoer med tidsmessig plassering av hendelser, og verktøybruk For kunnskap med lang hale. Hvis søknaden din passer til den profilen, legger «Thinking» til nyttige deler.

Raske vanlige spørsmål

  • Hva betyr «å tenke med bilder»? – Det er en arbeidsflyt som kombinerer zooming og visuell søking for å fange opp detaljer og konsultere ekstern kunnskap når intern kunnskap ikke er nok, noe som forbedrer fin resonnement.
  • Hvor mye VRAM trenger jeg? – Det kommer an på. Som en grov pekepinn: FP16 ~56 GB; INT4 ~14 GB; 2-bit ~7 GB. Men kjøretid og kontekststørrelse kan heve standarden, spesielt med vLLM.
  • Integreres den med verktøy? – Ja, den støtter funksjonskall og JSON-utdata, noe som muliggjør multimodale agenter med jording, OCR, søk osv., som kan lenkes sammen verifiserbare trinn.
  • Finnes det et sterkt «kun tekst»-alternativ? — ERNIE‑4.5‑21B‑A3B‑Tenkning utmerker seg i logikk, matematikk og koding, med et godt forholdstall kostnadseffektivitet og bredere kontekst.

Hvis du ser etter en multimodal modell som balanserer effektivitet og kapasitet, er ERNIE-4.5-VL-28B-A3B-Thinking spesielt tiltalende. Søylene er en finjustert MoE (130 eksperter med 14 aktive brukere), en ViT koblet til et delt tekstområde, ortogonalt rutertap og token-balansert multimodalt tap, forsterket av resonnering midt i treningen, RL med GSPO/IcePop og "tenkning i bilder". Demoene demonstrerer dette. visuell resonnering Flertrinns, presis forankring, STEM fra bilder, verktøybruk og tidsbevisst videoforståelse. Fleksibel tilgang (Baidu, kompatible API-er, lokal distribusjon med Paddle/Transformers), Apache 2.0-lisensen og kvantiseringsalternativer fullfører en pakke som, bortsett fra markedsføring, har det tekniske grunnlaget for å konkurrere svært godt.