ERNIE-4.5-VL-28B-A3B-Thinking nedir ve bundan en iyi şekilde nasıl yararlanılır?

Son Güncelleme: 14/11/2025
Yazar: isaac
  • Verimli MoE mimarisi: ViT ve çok modlu bakiye için belirli kayıplarla toplam 28 milyar ve token başına ~3 milyar varlık.
  • Gelişmiş çok modlu muhakeme: RL (GSPO, IcePop), erişilebilir temellendirme ve ayrıntı ve uzun kuyruk için “Görsellerle Düşünme”.
  • Esnek dağıtım: baiduUyumlu API'ler, ERNIEKit, vLLM ve değişken VRAM gereksinimleriyle 2 bite kadar kantizasyon.

ERNIE 4.5 VL Düşünme Modeli vizyon-dil

"Thinking" etiketi, Baidu'nun ERNIE-4.5-VL sürücü ailesinde sessizce belirdi ve bazı tartışmalara yol açtı. Lansmanın neredeyse tamamen gizli olduğu yönündeki yorumlar arasında, onu şu rakiplerle karşılaştıran küçük bir grafik de yer alıyor: İkizler burcu 2.5 Pro ve varsayımsal bir "yüksek" GPT-5 ve bir mod vaadi "görüntülerle düşünme" Çok iyi açıklanmadığı için birçok kişi bu modelin pazarlamada iddia edildiği kadar iyi olup olmadığını merak ediyor. Gerçek şu ki, Ernie'nin önceki versiyonları zaten oldukça yetenekliydi, bu yüzden kaputun altına daha yakından bakıp abartıyı gerçeklikten ayırmakta fayda var.

Kısacası, ERNIE-4.5-VL-28B-A3B-Thinking, Uzmanların Karışımı (MoE) mimarisine sahip çok modlu bir görme-dil modelidir ve bu da jeton başına yalnızca ~3B parametre Toplam 28 milyarın üzerinde. Bu, güç ve verimlilik arasında oldukça ilginç bir denge sağlıyor. "Düşünme" varyantı, çok modlu akıl yürütmeye odaklanan orta düzey eğitimi içeriyor, metin ve görsel arasındaki anlamsal uyumu güçlendiriyor ve doğrulanabilir görevlerde MoE'yi dengelemek için GSPO ve IcePop gibi pekiştirme stratejilerinin yanı sıra, yakınlaştırma ve uzaklaştırmayı birleştiren ünlü "görsellerle düşünme" işlevine de yer veriyor. görsel arama ince ayrıntıları ve uzun kuyruklu bilgiyi çıkarmak için.

ERNIE-4.5-VL-28B-A3B-Thinking nedir ve neden önemlidir?

ERNIE 4.5 ailesi içerisinde VL-28B-A3B-Thinking versiyonu bir model olarak konumlandırılmıştır hafif ama iddialı Çok modlu akıl yürütmede. 28.000 milyar toplam parametre ve jeton başına yaklaşık 3.000 milyar varlığa sahip bir MoE mimarisinden yararlanarak, daha büyük ve daha yoğun modellere karşı rekabetçi performansı korurken çıkarım maliyetlerini azaltır.

Teknik özelliklerinde, her adımda 14 aktif olmak üzere 130'a kadar uzmandan bahsediliyor. Bu yapılandırma, giriş türüne göre uzmanlaşma, güç tüketimi ve gecikmeyi kontrol etme hedefine uygun. Buradaki fikir, yönlendiricinin görüntü, metin veya her ikisinin bir kombinasyonu alındığında "uygun uzmanları" seçerek verimliliği en üst düzeye çıkarmasıdır. temsil çeşitliliği ve hesaplamanın verimliliği.

Görsel bileşen için omurga, görüntüyü parçalara bölen ve bunları jeton olarak ele alan bir Görüntü Dönüştürücüsüdür (ViT). Metinle aynı yerleştirme alanına yansıtılan bu projeksiyon, ortogonal görüntü kaybı gibi eğitim teknikleriyle desteklenen, modaliteler arasında akıcı bir "diyalog" sağlar. yönlendirici (uzmanların aşırı örtüşmemesi için) ve token dengeli çok modlu kayıp bir modalitenin diğerini gölgede bırakmasını önler.

Baidu, "Düşünme" etiketinin yanı sıra görsel akıl yürütme, grafik analizi, nedensellik, temellendirme ve görsel talimatları takip etme konularında da önemli gelişmeler sunuyor. Dahası, araçları çağırıp çıktı üretme yeteneği de cabası... JSON'da yapılandırılmış Ve entegre içerik denetiminin olması onu çok modlu aracılar için sağlam bir parça haline getiriyor.

ERNIE 4.5 VL 28B Thinking'in Temel Özellikleri

Mimarlık, eğitim ve yetenekler: Gerçekte ne getiriyor?

MoE felsefesi, belirteç başına parametrelerin yalnızca bir kısmının etkinleştirilmesine izin verir; bu da şu anlama gelir: hesaplama verimliliği Modelin genel ölçeğinden ödün vermeden. Her "uzman", desenler veya görevler (örneğin, OCR, diyagramlar, sayısal akıl yürütme) konusunda uzmanlaşabilir ve yönlendirici bunları bağlama göre birleştirmeyi öğrenir.

Pratikte bu, iki temel eğitim fikriyle desteklenir: Yönlendirici için ortogonal bir kayıp (uzmanlar arasında çeşitliliği teşvik eder) ve eğitim sırasında metin ve görüntü arasındaki dengeyi koruyan, token dengeli çok modlu bir kayıp fonksiyonu. Bu, modelin metinle olağanüstü performans gösterirken görmeyle (veya tam tersi) başa çıkamamasını önler. Dahası, VL-28B-A3B-Düşünme'de, görüntü-metin çiftleri hakkında akıl yürütmeye ayrılmış bir eğitim ortası, temsil gücünü artırır ve çok modlu anlamsal hizalama.

Kıyaslama ölçütlerine gelince, bağımsız karşılaştırmalı analizler (örneğin Galaxy.AI), ERNIE-4.5-VL-28B-A3B'yi görsel algı, belge anlama ve çok modlu akıl yürütme açısından Qwen2.5-VL-7B ve Qwen2.5-VL-32B gibi alternatiflerle aynı seviyeye, hatta onları geride bırakacak şekilde konumlandırıyor. Bu durum, Gemini 2.5 Pro veya "yüksek" bir GPT-5 gibi ağır toplarla aynı hızda ilerlediğini veya onları geride bıraktığını ima eden küçük tanıtım görseliyle (evet, okunması çok zor) örtüşüyor. Bazıları kıyaslama yönteminden şüpheleniyor, ancak gerçek şu ki, güçlendirme geliştirmeleri (GSPO, IcePop) ve dinamik zorluk örneklemesi sayesinde modelin gelişmesi anlaşılabilir bir durum. doğrulanabilir görevlerde sağlamlık.

  GlobalGPT: Bu hepsi bir arada yapay zeka nedir ve nasıl çalışır?

"Görsellerle Düşünme" işlevi özel bir bahsi hak ediyor: Bu bir sihir değil, çok ince ayrıntıları (levhalar, küçük tabelalar, ikonografi) yakalamak ve dahili bilginin yetersiz olduğu durumlarda uzun kuyruklu bilgilere erişmek için görüntü yakınlaştırma ve görsel arama araçlarını birleştiren bir iş akışı. Bu özellik, daha erişilebilir temellendirmeyle (basit talimatlarla temellendirme işlevlerini etkinleştirme) birlikte, modeli güçlü bir aday haline getiriyor. endüstriyel uygulamalar ve karmaşık görsellere sahip senaryolar.

Çok dilli ortamlarda, ERNIE 4.5 serisi, küresel iş akışlarının temel bir özelliği olan görsel anlayıştan ödün vermeden yüksek performansı korur. Dahası, yapılandırılmış çıktı (JSON) ve fonksiyon çağrıları, modelin yalnızca gözlemleyip yanıt vermekle kalmayıp aynı zamanda... araçlar üzerinde hareket eder (örneğin, nesnelerin yerini tespit etmek ve onların sınırlayıcı kutularını koordinatlarıyla döndürmek).

MoE mimarisi ve ERNIE'deki çok modlu akış

Kanıtlanmış kullanım durumları

Kalabalık grafiklerde görsel akıl yürütme: Model, tarihleri ​​haftanın günleriyle çapraz referanslayabilir, grafiğin yapısını yorumlayabilir, daha düşük yoğunluklu dönemleri (örneğin 12:00-14:00) tespit edebilir ve ziyaret için en iyi zamanlara dair net bir öneri üretebilir. Burada, akıl yürütmenin şu şekilde olduğunu görüyoruz: birden fazla adım Takvim, görsel okuma ve mantığı bir araya getiren.

Fotoğraflardan STEM problemleri: Basit seri-paralel bağlama ile çözülemeyen bir köprü devresiyle karşı karşıya kalan model, Ohm ve Kirchhoff Yasalarını uygular, düğüm denklemlerini kurar ve doğru bir analitik sonuç elde eder (örneğin, R = 7/5 Ω). Bu, diyagramları teknik olarak okuma ve sembolik akıl yürütme.

Yapılandırılmış çıktıyla görsel temellendirme: "Takım elbise giyen tüm kişileri tanımlayın ve sınırlayıcı kutularını JSON olarak döndürün" komutu verildiğinde, kişileri algılar ve hassas sayısal koordinatlar sunar. Buradaki anahtar, temellendirmeyi talimatları takip etmek ve programlanabilir çıktı formatı.

Detaylı OCR için “resimlerle düşünme”: Kullanıcı arka plandaki mavi tabelanın üzerindeki metni sorduğunda, yakınlaştırma aracı devreye girerek küçük etiketlerin (“HOTEL BUZA” gibi) daha detaylı tanımlanmasını sağlar. güvenilirlikBu bir örnektir dinamik odak güzel bölgelerde.

Uzun kuyruklu bilgi araçlarının kullanımı: Yuvarlak sarı bir peluş oyuncakla karşılaşan model, harici bir görsel araması başlatmaya karar verir, niteliklerini karşılaştırır ve bunun MINISO ile ilişkilendirilen "Dundun" olduğu sonucuna varır. Bu işlem hattı, orkestrasyon kapasitesi aletlerle basamakların.

Video sıkıştırma: özetler Altyazılar zaman damgalarıyla belirli sahneleri bulur (örneğin, bir köprüde çekilen 17 saniye, 37 saniye ve 47 saniye civarındaki bölümler). Burada metin çıkarma, zamansal akıl yürütme ve uzaysal-zamansal analiz içerik.

Dikkat çeken bir diğer varyant: ERNIE‑4.5‑21B‑A3B‑Thinking

VL-28B sürümünün yanı sıra, toplam 21 milyar jeton ve jeton başına 3 milyar aktif jeton içeren, metin/kod muhakemesine odaklanan bir varyant da mevcuttur. "Daha büyük değil, daha akıllı" fikriyle oluşturulan bu sürüm, mantık, matematik ve diğer alanlarda olağanüstü performans göstermektedir. programación ve uzun akıl yürütme zincirleri. Yayınlandı Apache-2.0 Ayrıca genişletilmiş bağlam penceresiyle (128K–131K aralığında), uzun formatlı görevler ve birden fazla belgenin karşılaştırmalı analizi için oldukça caziptir.

Satış noktalarından biri de fiyatıdır: belirli platformlar aracılığıyla milyon token başına çok agresif maliyetlerle (örneğin, 0,07$ giriş ve 0,28$ çıkış ve hatta bazı 21B konfigürasyonlarında "0$/0$") gösterge ücretleri ilan edildi, ancak dağıtım ekosistemi ve iş anlaşmaları değişebilir.

  Samsung, hafıza kaybını tespit etmek için tasarlanmış yapay zeka destekli video oyunu 'The Mind Guardian'ı piyasaya sürdü.

Pazar karşılaştırmaları ve gürültü

Gemini 2.5 Pro ve "yüksek" bir GPT-5 ile karşılaştıran meşhur küçük grafiğe gelince: bu bir pazarlama çalışması, bağımsız bir denetim değil. Yine de, halka açık pillerle (Qwen2.5-VL-7B/32B vb.) karşılaştırıldığında, model kendini kanıtlıyor. Her zaman olduğu gibi, hedef verileriniz ve ölçümleriniz üzerinde test etmeniz en iyisidir, çünkü genelleme Alana, istemlerin kalitesine, mevcut araçlara ve girdilerin (metin/resim/video) karışımına bağlı olarak değişir.

Nicemleme ve bellek gereksinimleri

Yerel dağıtımlarda nicemleme yardımcı olur. FP16 ile yaklaşık 56 GB VRAM; 4 bit ile yaklaşık 14 GB; 2 bit ile yaklaşık 7 GB VRAM tahmin edilmektedir. Not: Bu sayılar çalışma zamanına ve paketlemeye bağlıdır. Örneğin, bazı FastDeploy kılavuzlarında kart başına minimum 24 GB belirtilirken, diğer ortamlarda (örneğin, daha zorlu vLLM) belirli yapılandırmalar için 80 GB belirtilir. Yığına (PaddlePaddle, PyTorch, çekirdekler, dizi uzunluğu(, toplu, KV önbellek), pratik şekil hareket edebilir.

Çok dilli destek ve moderasyon

Görünürlükten ödün vermeden çoklu dil desteği de bir diğer güçlü yanıdır. Kullanıcı odaklı üretim için yerleşik moderasyon, dağıtım risklerini azaltan bir güvenlik katmanı ekler. Yapılandırılmış çıktı ve fonksiyon çağrıları, modelin işlem hatları içinde bir "motor" olarak entegre edilmesini sağlar. harici araçlarsadece bir chatbot olarak değil.

Belgesel anlayışın aşırı bir örneği

Model, Çin kaynaklarındaki "Wō'nun Beş Kralı" hakkındaki metinler, "Şarkı Kitabı"ndan çapraz referanslar, Gwanggaeto Dikilitaşı'ndaki yazıtlar veya yıl (örneğin 478) ve konum (Ji'an, Jilin) ​​içeren dipnotlar gibi karmaşık tarihsel transkripsiyonları işleyebilir. Bu tür girdiler, çevirileri, açıklayıcı notları ve arkeolojik bağlamı (mezar höyükleri, Bu/Yūryaku ile ilişkilendirilen "Daio" gibi yazıtlı kılıçlar) birleştirir. ERNIE-4.5-VL-28B-Thinking gibi bir sistem bu materyali parçalara ayırabilir, özel isimleri (Yomi, Mí, Sei, Ō, Bu) tanıyabilir ve bunları imparatorluk figürleri Japonca ve gerçeklerle tutarlı bir özet oluşturun: Güney Çin hanedanlarına övgüler, Kore yarımadasındaki çatışma, demir kaynakları için Kara/İmna'daki üs, vb.

Uygulama, erişim ve sık sorulan sorular

ERNIE 4.5'i test etmenin ve dağıtmanın birkaç yolu vardır. Baidu, kurulum gerektirmeden başlamak için web erişimi sunar. Üçüncü taraf platformlarla (örneğin Novita API Playground) entegrasyonlar, modeli geliştirme ortamlarında değerlendirmeyi ve maliyetleri ölçmeyi kolaylaştırır. Yerel dağıtımlar için önerilen yığın genellikle... LinuxPaddlePaddle (ERNIEKit) ile ve PyTorch'ta Transformatörlerle çapraz uyumluluk kullanarak güven_uzaktan_kodu dokunduğunda.

ERNIE 4.5'in yerel ve bulut ortamlarında dağıtımı ve kullanımı

Transformers (PyTorch) ile Dağıtım

Tipik yol, modeli AutoModelForCausalLM ile yüklemeyi, AutoProcessor'dan görüntü ön işleme eklemeyi ve metin ile görüntü/videoyu birleştiren çok modlu mesajlar oluşturmayı içerir. Ardından, uygun belirteç sınırlarıyla oluşturulur ve çıktı kodlanır. Önemli olan, işlemci Hem sohbet şablonunu hem de görsel tensörlerin hazırlanmasını yönetin.

<!-- Ejemplo orientativo (parafraseado) -->
from transformers import AutoModelForCausalLM, AutoProcessor
import torch

name = "baidu/ERNIE-4.5-VL-28B-A3B-Thinking"
model = AutoModelForCausalLM.from_pretrained(
    name, device_map="auto", dtype=torch.bfloat16, trust_remote_code=True
)
processor = AutoProcessor.from_pretrained(name, trust_remote_code=True)
model.add_image_preprocess(processor)

messages = [{
  "role": "user",
  "content": [
    {"type": "text", "text": "¿De qué color es la ropa de la chica?"},
    {"type": "image_url", "image_url": {"url": "https://.../example1.jpg"}}
  ]
}]

text = processor.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
image_inputs, video_inputs = processor.process_vision_info(messages)
inputs = processor(text=[text], images=image_inputs, videos=video_inputs, padding=True, return_tensors="pt")

out_ids = model.generate(**{k: v.to(model.device) for k, v in inputs.items()}, max_new_tokens=256)
print(processor.decode(out_ids[0][len(inputs["input_ids"][0]):]))

vLLM ile çıkarım

vLLM, çıkarımı hızlandırır ve akıl yürütme ve araç çağrıları için özel olarak tasarlanmış ayrıştırıcılar gibi seçenekler ekler. Bunu etkinleştirmeyi unutmayın. –güven-uzaktan-kod Eğer depo gerektiriyorsa, modeli sunarken.

# Instalar nightly (orientativo)
pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly

# Servir el modelo
vllm serve baidu/ERNIE-4.5-VL-28B-A3B-Thinking --trust-remote-code

# Con parsers de razonamiento y herramientas
evllm serve baidu/ERNIE-4.5-VL-28B-A3B-Thinking \
  --trust-remote-code \
  --reasoning-parser ernie45 \
  --tool-call-parser ernie45 \
  --enable-auto-tool-choice

FastDeploy ve ERNIEKit

FastDeploy, maksimum uzunluk, dizi sayısı, niceleme (wint8/INT4), muhakeme ayrıştırıcıları ve çok modlu işlemci ayarlarını (örneğin, image_max_pixels) kontrol eden parametrelerle hızlı hizmetlerin kullanıma sunulmasına olanak tanır. Belirtilen VRAM gereksinimleri değişiklik gösterir; bu tarihten beri yorumlar yapılmıştır. Kart başına 24 GB Diğer kılavuzlarda 80 GB'a kadar ihtiyaç duyulan senaryolar; model, hassasiyet, parti ve uzunlukların birleşimine bağlıdır.

# Ejemplo orientativo
fastdeploy serve --model baidu/ERNIE-4.5-VL-28B-A3B-Thinking \
  --max-model-len 131072 \
  --max-num-seqs 32 \
  --port 8180 \
  --quantization wint8 \
  --reasoning-parser ernie-45-vl-thinking \
  --tool-call-parser ernie-45-vl-thinking \
  --mm-processor-kwargs '{"image_max_pixels": 12845056 }'

İnce ayar (SFT/LoRA) ve hizalama (DPO)

PaddlePaddle tabanlı ERNIEKit, LoRA'lı ve LoRA'sız SFT ve DPO için hazır yapılandırmalar sunar. Modeli belirli alanlara (örneğin endüstriyel belgeler, görsel inceleme, formlar) uyarlarken, aynı zamanda çok modlu sağlamlıkAraç seti örneklerinde yer alan eğitim şablonlarını çalıştırabilir ve model deposunu indirebilirsiniz.

  Tüm Müzik Çalışmaları: Öncesi ve sonrasına damgasını vuran müzikal yenilik

API'ler ve platformlar aracılığıyla erişim

Baidu platformunun yanı sıra standartla uyumlu entegrasyonlar da mevcut. OpenAI API'ler. Bu, entegrasyonları yeniden yapma ihtiyacını ortadan kaldırarak mevcut araçlardan (örneğin, komut satırı istemcileri veya Cursor gibi düzenleyiciler) geçişi kolaylaştırır. Bazı GPU bulutları (Novita AI gibi), bol VRAM ve saatlik fiyatlandırmanın yanı sıra birden fazla GPU'ya ölçeklenebilirlik sunan örnekler sunar; bu da, büyük yapılandırmaları test edin yatırım yapmadan donanım kendisi.

Ticari Lisans ve Kullanım

ERNIE 4.5 ailesi, şartlara ve bildirimlere saygı göstererek ticari kullanıma izin veren izin verici bir lisans olan Apache 2.0 altında yayınlanmıştır. Bu, modeli ve türevlerini entegre ederek ücretli ürünler oluşturmayı kolaylaştırır; yeter ki siz de bu modeli ve türevlerini koruyun. lisans uyumluluğu ve buna karşılık gelen atıf (örneğin, teknik rapora atıfta bulunma).

Fiyatlar ve bağlam

Oldukça rekabetçi fiyatlandırma referansları paylaşıldı. Örneğin, 300B A47B versiyonu için belirtilen bağlam 123k olup, gösterge maliyetleri 0,28$/M giriş ve 1,10$/M çıkıştır; 21B A3B için ise 0$/0$ gibi düşük rakamlara kadar reklamı yapılan rakamlar görülmüştür. Fiyatlar sağlayıcıya bağlı olduğundan, ilgili platformdaki bulunabilirliği ve kesin koşulları kontrol etmeniz önerilir. kullanım ücreti, bölge ve SLA.

Gerçek yaşam görevlerinde performans

Kağıdın ötesinde, ilginç olan şey şu ki; metin ve görsel öğelerin (pullar, tablolar, imzalar) karışımı olan belgeleri okumak, temellendirmeyle (koordinatlar) veri çıkarmak, fotoğraflardan veya beyaz tahtalardan STEM problemlerini çözmek, olayların zamansal konumunu içeren videoların özetleri ve araç kullanımı Uzun kuyruklu bilgi için. Uygulamanız bu profile uyuyorsa, "Düşünme" faydalı parçalar ekler.

Hızlı SSS

  • "Görsellerle Düşünme" ne anlama geliyor? — Bu, ayrıntıları yakalamak ve dahili bilgi yeterli olmadığında harici bilgiye danışmak için yakınlaştırma ve görsel aramayı birleştiren bir iş akışıdır; bu da ince akıl yürütme.
  • Ne kadar VRAM'e ihtiyacım var? — Duruma bağlı. Kabaca bir kılavuz olarak: FP16 ~56 GB; INT4 ~14 GB; 2 bit ~7 GB. Ancak çalışma süresi ve bağlam boyutu, özellikle de vLLM.
  • Araçlar ile entegre oluyor mu? — Evet, fonksiyon çağrılarını ve JSON çıktısını destekliyor, topraklama, OCR, arama vb. ile çok modlu aracıların birbirine zincirlenmesini sağlıyor doğrulanabilir adımlar.
  • Güçlü bir "sadece metin" alternatifi var mı? — ERNIE‑4.5‑21B‑A3B‑Düşünme, iyi bir oranla mantık, matematik ve kodlamada mükemmeldir maliyet-performans ve daha geniş bağlam.

Verimlilik ve kapasiteyi dengeleyen çok modlu bir model arıyorsanız, ERNIE-4.5-VL-28B-A3B-Thinking özellikle ilgi çekicidir. Temel unsurları, ince ayarlı bir MoE (14 aktif kullanıcılı 130 uzman), paylaşımlı bir metin alanına bağlı bir ViT, ortogonal yönlendirici kaybı ve eğitim sırasında akıl yürütmeyle güçlendirilmiş, jeton dengeli çok modlu kayıp, GSPO/IcePop ile RL ve "resimlerle düşünme"dir. Demoları şunları göstermektedir: görsel muhakeme Çok adımlı, hassas temellendirme, fotoğraflardan STEM, araç kullanımı ve zamana duyarlı video anlayışı. Esnek erişim (Baidu, uyumlu API'ler, Paddle/Transformers ile yerel dağıtım), Apache 2.0 lisansı ve niceleme seçenekleri, pazarlamayı bir kenara bırakırsak, çok iyi rekabet edebilecek teknik temele sahip bir paketi tamamlıyor.