Waa maxay ERNIE-4.5-VL-28B-A3B-Fikirka iyo sida ugu badan ee looga faa'iidaysan karo

Cusbooneysiintii ugu dambeysay: 14/11/2025
Author: Isaac
  • Qaab dhismeedka MOE oo hufan: wadarta 28B iyo ~ 3B hantida calamad kasta oo leh ViT iyo khasaare gaar ah oo loogu talagalay hadhaaga hababka kala duwan.
  • Sababayn heer sare ah oo qaab-dhismeedka badan: RL (GSPO, IcePop), dhulka la heli karo iyo "Fikirka Sawirada" ee faahfaahsan iyo dabo-dheer.
  • Hawlgelin dabacsan: BaiduAPIs ku habboon, ERNIEKit, vLLM iyo qiyaasid ilaa 2 bit oo leh shuruudaha VRAM ee doorsooma.

ERNIE 4.5 VL Qaabka Fikirka Luqadda aragga

Calaamadda "Fikirka" ayaa si aamusnaan ah uga soo muuqatay Baidu's ERNIE-4.5-VL qoyska wadista waxayna kicisay xoogaa muran ah. Iyada oo ay jiraan faallooyin sheegaya in daahfurka gabi ahaanba sir ahaa, jaantus yar oo barbar dhigaya tartamayaasha sida Gemini 2.5 Pro iyo mala awaal ah "sare" GPT-5, iyo yabooha hab ee "ka fikirida sawirada" Sababtoo ah si fiican looma sharaxin, dad badan ayaa la yaaban in qaabkani runtii u fiican yahay sida suuqgeyntu soo jeedinayso. Xaqiiqdu waxay tahay, noocyadii hore ee Ernie waxay ahaayeen kuwo karti leh, marka waxaa habboon in si dhow loo eego daboolka oo laga sooco buunbuuninta xaqiiqada.

Marka la soo koobo, ERNIE-4.5-VL-28B-A3B-Fikirka waa moodeel luqad-aragti badan leh oo leh isku dhafka khubarada (MoE) kaas oo dhaqaajiya kaliya ~ 3B halbeegyada calaamad kasta marka la isku daro 28B. Tani waxay u ogolaaneysaa dheelitirka aad u xiiso badan ee u dhexeeya awoodda iyo waxtarka. Kala duwanaanshiyaha "Fikirka" wuxuu ku daraa tababar dhexdhexaad ah oo diiradda saaraya sababo badan oo kala duwan, wuxuu xoojiyaa isku-dhafka macnaha ee u dhexeeya qoraalka iyo sawirka, wuxuuna ku daraa xeeladaha xoojinta sida GSPO iyo IcePop si loo xasiliyo MoE ee hawlaha la xaqiijin karo, marka lagu daro shaqada caanka ah ee "fikirka sawirada" ee isku daraya soo dhaweynta iyo raadin muuqaal ah si loo soo saaro tafaasiil fiican iyo aqoon dheer oo dheer.

Waa maxay ERNIE-4.5-VL-28B-A3B-Fikirka maxayse muhiim u tahay?

Gudaha qoyska ERNIE 4.5, nooca VL-28B-A3B-Fikirka waxaa loo dhigay qaab moodel ah. iftiin laakiin hami leh in qaab-dhismeedka badan. Waxay ka faa'iidaysanaysaa qaab dhismeedka MoE oo leh 28.000 bilyan oo cabbir guud ah iyo ~ 3.000 bilyan oo hanti ah calaamaddiiba, taasoo yaraynaysa kharashaadka soo-jeedinta iyadoo la ilaalinayo waxqabadka tartan ee ka dhanka ah moodooyinka cufan ee waaweyn.

Tilmaamaheeda farsamo waxay sheegaysaa ilaa 130 khubaro ah oo leh 14 firfircoon tallaabo kasta, qaabeyn ku habboon hadafka takhasuska ee nooca gelinta, xakamaynta isticmaalka awoodda iyo daahitaanka. Fikradda ayaa ah in router uu doorto "khubarada ku habboon" marka sawirada, qoraalka, ama iskudhafka labadaba la helo, kor u qaadista waxtarka. kala duwanaanshaha matalaadda iyo waxtarka xisaabinta.

Qaybta muuqaalka ah, laf dhabarta waa Beddelka Aragga (ViT) kaas oo u jeexjeexa sawirka balastar oo ula dhaqma sidii calaamado. Saadaashan isla meel la isku dhejiyo sida qoraalka ayaa sahlaysa "wadahadal" dareere ah oo u dhexeeya hababka, oo ay taageerayaan farsamooyinka tababarka sida luminta asalka ah router (si aanay khubaradu si xad dhaaf ah isugu dul-saaran) iyo a luminta qaab-dhismeed badan oo calaamad ah taas oo ka ilaalinaysa in mid ka mid ah hab-dhaqanka uu hadheeyo kan kale.

Marka lagu daro summada "Fikirka", Baidu waxa ay ku faantaa horumar la taaban karo oo ku saabsan sababaynta muuqaalka, falanqaynta garaafyada, sababaha, salka, iyo raacitaanka tilmaamaha muuqaalka. Intaa waxaa dheer, awoodda lagu wacayo qalabyada iyo soo saarista wax soo saarka ... ku dhisan JSON Lahaanshaha dhexdhexaadinta nuxurka isku dhafan waxay ka dhigaysaa gabal adag oo loogu talagalay wakiilada qaababka badan.

Tilmaamaha muhiimka ah ee ERNIE 4.5 VL 28B Fikirka

Dhismaha, tababarka iyo kartida: waxa ay dhab ahaantii keenayso

Falsafada MoE waxay ogolaataa in qayb ka mid ah halbeegyada la hawlgeliyo halkii calaamad, taas oo u tarjumaysa waxtarka xisaabinta iyada oo aan la hurin miisaanka guud ee qaabka. Mid kasta oo "khabiir ah" wuxuu ku takhasusi karaa qaababka ama hawlaha (tusaale, OCR, jaantusyada, sababaynta tirada), iyo router-ku wuxuu bartaa inuu isku daro iyaga oo raacaya macnaha guud.

Ficil ahaan, tan waxaa lagu xoojiyay laba fikrado tababbarro oo muhiim ah: luminta orthogonal ee router-kaas oo dhiirigeliya kala duwanaanshaha khubarada-iyo calaamad-dheellitiran oo dheellitiran luminta hababka kala duwan, kaas oo ilaalinaya dheelitirka u dhexeeya qoraalka iyo sawirka inta lagu jiro tababarka. Tani waxay ka hortagtaa moodalku inuu si gaar ah ugu fiicnaado qoraalka laakiin la halgamaya aragtida (ama liddi ku ah). VL-28B-A3B-Fikirka, sidoo kale, tababarka dhexe ee loogu talagalay sababaynta ku saabsan lammaanaha qoraalka-sawirku waxay kordhisaa awoodda matalaadda waxayna adkeynaysaa toosinta semantic multimodal.

Marka la eego halbeegyada, falanqaynta isbarbardhigga ee madaxbannaan (tusaale, Galaxy.AI) dhig ERNIE-4.5-VL-28B-A3B oo la siman-ama xitaa ka sarreeya-beddellada sida Qwen2.5-VL-7B iyo Qwen2.5-VL-32B ee aragtida aragtida, fahamka dukumentiga, iyo kuwa badan. Tani waxay la socotaa garaafyada xayeysiinta ee yar (haa, aad u adag in la akhriyo) taas oo soo jeedinaysa inay la socoto ama ka sarreyso miisaanka culus sida Gemini 2.5 Pro ama "sare" GPT-5. Qaar baa ka shakiya bar-tilmaameed, laakiin runtu waxay tahay, iyadoo la xoojinayo xoojinta (GSPO, IcePop) iyo muunad adag oo firfircoon, waa la fahmi karaa in moodalku soo fiicnaaday. ku adkaanta hawlaha la xaqiijin karo.

  GlobalGPT: Waa maxay kan-hal-hal AI iyo sidee buu u shaqeeyaa?

Shaqada "Fikirka Sawirada" waxay u qalantaa in si gaar ah loo xuso: maaha sixir, laakiin qulqulka shaqada ee isku daraya sawirka sawirka iyo qalabka raadinta muuqaalka si loo qabto faahfaahin aad u fiican (taariko, calaamado yaryar, iconography) iyo helitaanka aqoonta dabada dheer marka aqoonta gudaha ku filnayn. Awooddan, oo ay weheliso dhul-dhigid badan oo la heli karo (dhaqdhaqaaqa hawlaha dhulka oo leh tilmaamo fudud), waxay ka dhigaysaa moodelka musharax xooggan codsiyada warshadaha iyo xaalado leh sawirro kakan.

Deegaannada luqadaha badan ku hadla, taxanaha ERNIE 4.5 wuxuu ilaaliyaa waxqabadka sare iyada oo aan la hurin fahamka muuqaalka, oo ah astaanta muhiimka ah ee qulqulka shaqada caalamiga ah. Intaa waxaa dheer, wax soo saarka habaysan (JSON) iyo wicitaanada shaqada waxay furaan albaabka si loo isticmaalo kiisaska halka moodalku aanu kaliya fiirin oo ka jawaabin, laakiin sidoo kale ... ku dhaqmo qalabka (tusaale ahaan, helista walxaha iyo ku celinta sanaaduuqdooda xidhidhiyaha oo leh iskudubarid).

Qaab dhismeedka MOE iyo socodka hab-socodka badan ee ERNIE

Kiisaska isticmaalka la xaqiijiyay

Sababta muuqaalka ah ee jaantusyada ciriiriga ah: qaabku wuxuu ka gudbi karaa taariikhaha tixraaca maalmaha usbuuca, tarjumi karaa qaab dhismeedka jaantuska, ogaan karo xilliyada cufnaanta hoose (tusaale, 12:00–14:00), wuxuuna dhalin karaa talo cad oo ah waqtiyada ugu wanaagsan ee la soo booqdo. Halkan, waxaan ku aragnaa sababaynta by talaabooyin badan taas oo isku daraysa kalandarka, akhriska muuqaalka iyo macquulka ah.

Dhibaatooyinka STEM ee sawirada: Wajahada wareegga buundada oo aan lagu xallin karin taxane fudud oo isbarbar socda, moodalku wuxuu khuseeyaa Shuruucda Ohm iyo Kirchhoff, wuxuu dejiyaa isla'egyada node, wuxuuna keenaa natiijada falanqaynta saxda ah (tusaale, R = 7/5 Ω). Tani waxay muujinaysaa awoodda ay u leedahay inay si farsamo ahaan u akhrido jaantusyada iyo sabab macquul ah.

Dejinta muuqaal leh oo leh wax soo saar habaysan: marka la eego "La sooc dhammaan dadka xidhan suudadka oo ku soo celi sanduuqa xaddidan ee JSON", waxay ogaanaysaa shakhsiyaadka waxayna keenaysaa isku-duwayaal tirooyin sax ah. Furaha ayaa ah in la isku daro dhulka raacaya tilmaamaha iyo qaabka wax soo saarka ee barnaamijka lagu samayn karo.

"Fikirka sawirada" OCR tifaftiran: haddii adeegsaduhu uu ku weydiiyo qoraalka calaamad buluug ah oo gadaal ka xigta, aaladda zoom ayaa soo galaysa, taasoo u oggolaanaysa aqoonsiga calaamadaha yaryar (sida "HOTEL BUZA") oo leh faahfaahin dheeraad ah. isku halayntaWaxay tusaale u tahay diirad saarid gobollada wanaagsan.

Isticmaalka aaladaha aqoonta dabada-dheer: Wajahda toy-gacan oo huruud ah oo wareegsan, moodelku wuxuu go'aansadaa inuu u yeero raadinta sawirka dibadda, isbarbardhigga sifooyinka, wuxuuna soo gabagabeeyey inay tahay "Dundun," oo ku xiran MINISO. Dhuuntani waxay muujinaysaa awoodda abaabulka tillaabooyinka qalabka leh.

Isku-buufinta fiidiyowga: la soosaaray subtitles oo leh calaamado wakhti ah oo soo saara muuqaallo gaar ah (tusaale ahaan, qaybo ku dhow 17s, 37s, iyo 47s oo lagu duubay buundada). Halkan waxa ay isku daraysaa soo saarista qoraalka, sababaynta ku meel gaadhka ah, iyo falanqaynta spatiotemporal ka kooban.

Kala duwanaansho kale oo xusid mudan: ERNIE-4.5-21B-A3B-Fikirka

Marka lagu daro daabacaadda VL-28B, waxaa jira kala duwanaansho diiradda saareysa qoraalka/qoraalka sababaynta wadarta 21B calaamado iyo 3B calaamado firfircoon halkii calaamad. Waxaa la abuuray iyadoo fikradda ah "ka caqli badan, aan ka weyneyn," oo muujinaya waxqabadka cajiibka ah ee macquulka, xisaabta, barnaamijka iyo silsilado caqli-gal ah oo daba-dheeraaday. Hoosta lagu daabacay Apache-2.0 Iyo daaqada macnaha guud ee la balaariyay (ee 128K-131K), waxay aad u soo jiidataa hawlaha qaabaynta dheer iyo falanqaynta isbarbardhigga dukumentiyada badan.

Mid ka mid ah dhibcaheeda iibinta waa qiimaha: khidmadaha tilmaamaya waxaa lagu xayeysiiyay goobo gaar ah oo leh kharashyo aad u daran halkii milyan oo calaamad ah (tusaale ahaan, $ 0,07 gelitaanka iyo $ 0,28 bixitaan, iyo xitaa "$ 0 / $ 0" qaar ka mid ah qaababka 21B), in kasta oo ay ku talinayaan in la xaqiijiyo helitaanka dhabta ah iyo shuruudaha, sababtoo ah iyo nidaamka eco. heshiisyada ganacsiga way kala duwanaan kartaa.

  Samsung waxay soo saartay 'The Mind Guardian', ciyaar fiidiyoow ku shaqeeya AI oo loogu talagalay in lagu ogaado lumista xusuusta.

Isbarbardhigga suuqa iyo buuqa

Marka la eego garaafka yar ee caanka ah ee isbarbar dhigaya Gemini 2.5 Pro iyo "sare" GPT-5: waa suuqgeyn, maaha hanti-dhowr madax-bannaan. Si kastaba ha ahaatee, marka la barbar dhigo baytariyada dadweynaha la heli karo (Qwen2.5-VL-7B/32B, iwm), moodeelku wuu iskiis u hayaa. Sida had iyo jeer, waxa fiican inaad ku tijaabiso xogtaada bartilmaameedka ah iyo cabbirada, sababtoo ah guud ahaansho Way kala duwan tahay iyadoo ku xidhan qaybta, tayada soo-jeedinta, agabka la heli karo, iyo isku dhafka agabka (qoraal/sawir/fidyow).

Cabbiraadda iyo shuruudaha xusuusta

Hawlgallada maxalliga ah, qiyaasiddu way caawisaa. Iyadoo FP16, waxaa lagu qiyaasaa inay ku dhowdahay ~ 56 GB ee VRAM; oo leh 4-bit, qiyaastii ~ 14 GB; iyo 2-bit, ~ 7 GB. Fiiro gaar ah: tirooyinkani waxay ku xidhan yihiin wakhtiga runtu socoto iyo baakaynta Tusaale ahaan, qaar ka mid ah hagayaasha FastDeploy waxay xusaan ugu yaraan 24 GB kaarkiiba, iyo degaannada kale (tusaale, vLLM oo aad u baahan) 80 GB ayaa lagu xusay qaabayn gaar ah. Waxay kuxirantahay xirmada (PaddlePaddle, PyTorch, kernels, dhererka isku xigxiga(, Dufcaddii, kaydka KV), sawirka la taaban karo wuu dhaqaaqi karaa.

Taageerada luuqadaha badan iyo dhexdhexaadinta

Taageerada luuqadaha badan iyada oo aan la hurayn muuqaalku waa xoog kale. Iyo wax-soo-saarka isticmaale-ku-soo-jeedka, dhex-dhexaadinta dhex-dhexaadku waxay ku daraysaa lakabka amniga oo yareynaya khataraha geynta. Wax soo saarka habaysan iyo wicitaanada shaqada waxay u oggolaanayaan qaabka in lagu daro "matoorka" gudaha dhuumaha qalabka dibeddama aha oo kaliya sida chatbot ah.

Tusaale xad dhaaf ah oo ah fahamka dokumentiga

Qaabku wuxuu xamili karaa qoraallada taariikhiga ah ee kakan, sida qoraallada ku saabsan "Shanta Boqor ee Wō" ee ilaha Shiinaha, tixraacyada isdhaafka ah ee "Book of Song," qoraallada ku yaal Gwanggaeto Stele, ama qoraallada hoose ee sanadaha (tusaale, 478) iyo goobaha (Ji'an, Jilin). Noocan wax gelinta ahi waxa uu isku daraa tarjumaado, qoraalo sharraxaad ah, iyo macnaha qadiimiga ah (tuulyo xabaal, seefo leh qoraallo sida "Daio" ee la xidhiidha Bu/Yūryaku). Nidaamka sida ERNIE-4.5-VL-28B-Fikirka ayaa kala qaybin kara walxahan, aqoonsan kara magacyada saxda ah (Yomi, Mí, Sei, Ō, Bu), oo ku xidhi kara tirooyinka Imperial Jabbaan iyo qeexid kooban oo isku xidhan oo leh xaqiiqooyinka: abaal-marinnada boqortooyooyinka koonfurta Shiinaha, colaadda gacanka Kuuriya, saldhigga Kara/Imna ee kheyraadka birta, iwm.

Hirgelinta, gelida iyo su'aalaha inta badan la is weydiiyo

Waxaa jira dhowr siyaabood oo lagu tijaabiyo oo lagu geeyo ERNIE 4.5. Baidu waxa ay bixisaa marin u helka shabakadda si loo bilaabo rakibid la'aan. Isku-dubbaridka aaladaha qolo saddexaad (tusaale, Novita API Playground) waxay sahlaysaa in la qiimeeyo qaabka deegaanka horumarka oo la cabbiro kharashaadka. Hawlgalinta maxalliga ah, xirmada lagu taliyey waa caadi ahaan... Linuxleh PaddlePaddle (ERNIEKit) iyo iswaafajinta Transformers ee PyTorch iyadoo la isticmaalayo trust_remote_code marka ay taabato.

Gelida iyo isticmaalka ERNIE 4.5 gudaha deegaanka iyo daruuraha

Ku-wareejinta Transformers (PyTorch)

Dariiqa caadiga ah waxay ku lug leedahay ku shubida moodalka AutoModelForCausalLM, ku darista sawir ka-horjeedka AutoProcessor, iyo dhisidda farriimaha hab-nololeedka ah ee isku dara qoraalka iyo sawirka/muuqaalka. Kadibna, waxaa la soo saaray iyadoo leh xaddidaadyo calaamado ah oo ku habboon wax soo saarkana waa la go'aamiyay. Furaha ayaa ah in processor maamul hab-sheekeysiga iyo diyaarinta tensors-ka labadaba.

<!-- Ejemplo orientativo (parafraseado) -->
from transformers import AutoModelForCausalLM, AutoProcessor
import torch

name = "baidu/ERNIE-4.5-VL-28B-A3B-Thinking"
model = AutoModelForCausalLM.from_pretrained(
    name, device_map="auto", dtype=torch.bfloat16, trust_remote_code=True
)
processor = AutoProcessor.from_pretrained(name, trust_remote_code=True)
model.add_image_preprocess(processor)

messages = [{
  "role": "user",
  "content": [
    {"type": "text", "text": "¿De qué color es la ropa de la chica?"},
    {"type": "image_url", "image_url": {"url": "https://.../example1.jpg"}}
  ]
}]

text = processor.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
image_inputs, video_inputs = processor.process_vision_info(messages)
inputs = processor(text=[text], images=image_inputs, videos=video_inputs, padding=True, return_tensors="pt")

out_ids = model.generate(**{k: v.to(model.device) for k, v in inputs.items()}, max_new_tokens=256)
print(processor.decode(out_ids[0][len(inputs["input_ids"][0]):]))

Xigasho leh vLLM

vLLM waxay dardar gelisaa fikradda waxayna ku darsataa xulashooyinka sida baarayaasha si gaar ah loogu qaabeeyey sababaynta iyo wicitaannada aaladaha. Xusuusnow inaad awood u yeelatid -kalsooni-remote-code marka loo adeegayo qaabka haddii kaydku u baahan yahay.

# Instalar nightly (orientativo)
pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly

# Servir el modelo
vllm serve baidu/ERNIE-4.5-VL-28B-A3B-Thinking --trust-remote-code

# Con parsers de razonamiento y herramientas
evllm serve baidu/ERNIE-4.5-VL-28B-A3B-Thinking \
  --trust-remote-code \
  --reasoning-parser ernie45 \
  --tool-call-parser ernie45 \
  --enable-auto-tool-choice

FastDeploy iyo ERNIEKit

FastDeploy waxay u ogolaataa soo bandhigida adeegyada degdega ah ee leh cabbirada lagu xakameynayo dhererka ugu badan, tirada isku xigxiga, qiyaasida (wint8/INT4), baarayaasha sababaynta, iyo goobaha processor-ka badan (tusaale, image_max_pixels). Shuruudaha VRAM ee la soo xigtay way kala duwan yihiin; faallooyinka ayaa la sameeyay tan iyo 24 GB kaarkiiba ilaa xaaladaha u baahan 80 GB ee hagayaasha kale; waxay kuxirantahay isku dhafka moodeelka, saxnaanta, dufcada iyo dhererka.

# Ejemplo orientativo
fastdeploy serve --model baidu/ERNIE-4.5-VL-28B-A3B-Thinking \
  --max-model-len 131072 \
  --max-num-seqs 32 \
  --port 8180 \
  --quantization wint8 \
  --reasoning-parser ernie-45-vl-thinking \
  --tool-call-parser ernie-45-vl-thinking \
  --mm-processor-kwargs '{"image_max_pixels": 12845056 }'

Hagaajinta hagaajinta (SFT/LoRA) iyo toosinta (DPO)

ERNIEKit, oo ku salaysan PaddlePaddle, waxay siisaa habab diyaarsan oo loogu talagalay SFT oo leh LoRA iyo la'aanteed, iyo DPO. Waxay faa'iido u leedahay in la waafajiyo qaabka meelo gaar ah (tusaale, dukumeenti warshadeed, kormeer muuqaal, foomamka) iyadoo la ilaalinayo multimodal adagWaxaad soo dejisan kartaa kaydka moodeelka oo aad maamuli kartaa tusaalooyinka tababarka ee ku jira tusaalooyinka xirmada.

  All Music Works: Hal-abuurka muusiga ee calaamadinaya hor iyo ka dib

Ka gelida API-yada iyo aaladaha

Marka laga soo tago madal Baidu, waxaa jira is-dhexgalka ku habboon heerka. OpenAI API-yada Tani waxay fududaynaysaa ka haajiridda agabka jira (tusaale, macaamiisha khadka taliska ama tifaftirayaasha sida Cursor) iyadoo laga fogaanayo baahida dib u habeynta isdhexgalka. Daruuraha GPU-da qaarkood (sida Novita AI) waxay ku xayaysiiyaan tusaalooyin leh VRAM ku filan iyo qiime saacadle ah, iyo sidoo kale cabbirka GPU-yo badan, taas oo faa'iido leh haddii aad rabto tijaabi qaabaynta waaweyn iyada oo aan la maalgashan hardware leedahay

Shatiga Ganacsiga iyo Isticmaalka

Qoyska ERNIE 4.5 waxaa lagu siidaayay Apache 2.0, shatiga fasaxa u oggolaanaya isticmaalka ganacsiga iyadoo la ixtiraamayo shuruudaha iyo ogeysiisyada. Tani waxay sahlaysaa in la abuuro badeecooyin lacag leh iyadoo la isku darayo moodeelka iyo waxyaabaha ka soo baxa, ilaa iyo inta aad ilaalinayso u hoggaansanaanta shatiga iyo sifada u dhiganta (tusaale ahaan, iyadoo la tixraacayo warbixinta farsamada).

Qiimaha iyo macnaha guud

Tixraacyada qiimaha aadka u tartamaya ayaa la wadaagay. Tusaale ahaan, daabacaadda 300B A47B, macnaha guud ee la sheegay waa 123k, oo leh kharashyo muujinaya $0,28/M wax-soo-saarka $1,10/M; 21B A3B, tirooyinka la xayaysiiyay ilaa $0/$0 ayaa la arkay. Waxaa lagu talinayaa in la hubiyo in la heli karo iyo xaaladaha saxda ah ee goobta ku habboon, maaddaama qiimayaashu ay ku xiran yihiin bixiyaha. kharashka isticmaalka, gobolka iyo SLA.

Waxqabadka hawlaha nolosha dhabta ah

Marka laga soo tago warqadda, waxa xiisaha lihi waa halka ay ka iftiimayso: akhrinta dukumeentiyo leh qoraalo isku dhafan iyo walxo muuqaal ah (shaabadaha, miisaska, saxeexyada), soo saarista xogta iyada oo la dejinayo (isku-duwayaasha), xalinta dhibaatooyinka STEM ee sawirada ama sabuuradaha cadcad, soo koobida fiidiyowyada leh goobta ku meel gaarka ah ee dhacdooyinka, iyo qalab-isticmaalka Aqoon dabo-dheer. Haddii codsigaagu ku habboon yahay astaantaas, "Fikirka" wuxuu ku darayaa qaybo faa'iido leh.

Degdeg FAQ

  • Waa maxay macnaha "Fikirka Sawirada"? - Waa hawl-socod isku-dhafan oo isku-dhafan iyo indho-indhayn muuqaal ah si loo qabto faahfaahinta loogana tashado aqoonta dibadda marka aqoonta guduhu aanay ku filnayn, hagaajinta caqli gal.
  • Immisa VRAM ah ayaan u baahanahay? - Waxay ku xiran tahay. Sida hage qallafsan: FP16 ~ 56 GB; INT4 ~ 14 GB; 2-bit ~ 7 GB. Laakiin runtime iyo cabbirka macnaha guud ayaa kor u qaadi kara bar, gaar ahaan vLLM.
  • Miyuu la mid yahay qalabyada? - Haa, waxay taageertaa wicitaanada shaqada iyo wax soo saarka JSON, taasoo awood u siinaya wakiilada qaab-dhismeedka badan leh dhulka, OCR, raadinta, iwm., isku xidhka silsiladda talaabooyin la xaqiijin karo.
  • Ma jiraa beddel xooggan oo "qoraalka-kaliya"? - ERNIE-4.5-21B-A3B-Fikirka wuxuu ku fiican yahay macquulka, xisaabta, iyo codeeynta, oo leh saami wanaagsan waxtarka kharashka iyo macnaha guud.

Haddii aad raadinayso moodal-modal-badan oo dheellitiraya hufnaanta iyo kartida, ERNIE-4.5-VL-28B-A3B-Fikirka ayaa si gaar ah soo jiidanaya. Tiirarkeedu waa MoE si fiican loo hagaajiyay (130 khabiir oo leh 14 isticmaaleyaal firfircoon), ViT oo ay weheliso meel qoraal ah oo la wadaago, luminta router-ka orthogonal, iyo luminta hab-dhaqanka isku-dheelitirka ah, oo lagu xoojiyay sababaynta tababarka dhexe, RL leh GSPO/IcePop, iyo "fikirka sawirada." Bandhigyadu waxay muujinayaan sababaynta muuqaalka Tallaabo badan, gogol-dhigis sax ah, STEM ee sawirrada, adeegsiga aaladda, iyo fahamka fiidyaha waqtiga-ogsoon. Helitaanka dabacsanaan leh (Baidu, API-yada ku habboon, geynta maxalliga ah ee Paddle/Transformers), shatiga Apache 2.0, iyo xulashooyinka qiyaasidda ayaa dhammaystiraya xirmo, suuq-geyntu dhinac iska dhigayso, leh aasaaska farsamada si uu si wanaagsan ugu tartamo.