DeepSeek V3-0324: Ang Chinese AI ay naglalabas ng bagong teknolohikal na kompetisyon

Huling pag-update: 27/03/2025
May-akda: Isaac
  • Ipinakilala ng DeepSeek-V3-0324 ang mga makabuluhang pagpapabuti sa programming, pangangatwiran sa matematika at pagbuo ng code.
  • Patuloy na sumusulong ang Tsina sa sektor artipisyal na katalinuhan, paliitin ang agwat sa Estados Unidos.
  • Nahigitan ng bagong modelo ang hinalinhan nito sa mga pangunahing pagsubok gaya ng MMLU-Pro, AIME 2024, at LiveCodeBench.
  • Ito ay magagamit sa ilalim ng lisensya ng MIT, na nagbibigay-daan para sa hindi pinaghihigpitang komersyal na paggamit.

DeepSeek-V3-0324 AI model

DeepSeek, ang Chinese artificial intelligence company, ay naglunsad ng bagong bersyon ng modelo ng wika nito, na tinatawag na DeepSeek-V3-0324. Ang update na ito ay nagdudulot ng malaking pagpapabuti sa programming, pagproseso ng matematika y pagbuo ng code, pati na rin ang isang diskarte sa kumpetisyon ng Tsina sa karera para sa artificial intelligence, pagkamit ng mga pag-unlad na naglalapit dito sa mga Western na katunggali nito.

Ang bagong modelong ito ay hindi lamang pinipino ang mga kakayahan sa pag-unawa sa wika, ngunit pinahusay din ang pangangatwiran at katumpakan nito sa iba't ibang benchmark na pagsubok. Dahil sa mga pagsulong na ito, naging isa ito sa mga pinakasikat na modelo sa mga platform gaya ng Nakayakap sa Mukha, kung saan available ito sa mga developer at mananaliksik.

Isang paglukso sa katumpakan at pagganap sa DeepSeek-V3-0324

Ang DeepSeek ay nagtrabaho sa pagpapabuti ng dati nitong modelo ng V3, na nakakamit ng higit na katumpakan sa mga pangunahing pagsubok sa pag-update ng V3-0324. Sa criterion MMLU-Pro, isang benchmark sa pagsusuri ng modelo ng wika, mula 75,9% ay naging 81,2%, na kumakatawan sa isang kapansin-pansing pagkakaiba sa kapasidad ng sagot ng sistema. Itinatampok ng tagumpay na ito ang kahalagahan ng mga bukas na modelo sa landscape ng artificial intelligence ngayon.

Kasama sa iba pang mga kapansin-pansing pagsulong ang kanilang pagganap sa pagtatasa sa matematika AIME 2024, kung saan bumuti ito mula 39,6% hanggang 59,4%. Ito ay kumakatawan sa isang pagtaas ng halos 20%, isang makabuluhang pagpapabuti sa mga tuntunin ng katumpakan sa disiplinang ito. Sa pagsubok LiveCodeBench, na sumusukat sa kakayahan ng isang modelo na bumuo ng code functional, ang bagong modelo ay tumaas ng sampung puntos upang maabot ang 49,2%.

  Ano ang Microsoft Agent 365 at para saan ito ginagamit sa negosyo?

Pinapabuti ng DeepSeek-V3-0324 ang pag-iiskedyul at pagganap

Pag-optimize sa pagbuo ng code at pagganap sa AI

Ang modelong V3-0324 ay nagpapakilala ng mga pagpapabuti sa function na tawag, na lumulutas ng ilang problema ng mga nakaraang bersyon sa mga tuntunin ng katumpakan. Ito ay isinasalin sa mas malaki pagiging maaasahan sa pagbuo ng software at mga automated na application, na nagpapadali sa gawain ng programmer y mga developer. Ang tagumpay na ito ay mahalaga sa konteksto ng pagbuo malinis na code.

Bilang karagdagan, pinapayagan ng pag-update lumikha ng mas kaakit-akit na mga web interface at pagbutihin ang aesthetics ng mga front-end ng mga laro. Ang isa pang nauugnay na aspeto ay ang na-optimize na kapasidad nito para sa multi-turn interactive na muling pagsulat, isang mahalagang pagsulong upang mapabuti ang kalidad ng mga tugon sa virtual na katulong y chatbots.

Mula nang ilunsad ito, sinubukan ng iba't ibang mga espesyalista ang pagganap ng modelo at iniulat na ang bilis ng pagpapatupad umabot ng higit sa 20 token bawat segundo sa mga system tulad ng Kapote Studio na may M3 chip, na nagpapatibay sa kahusayan sa pagpapatakbo nito.

mga ahente ng security copilot-1
Kaugnay na artikulo:
Pinalawak ng Microsoft ang Security Copilot kasama ang mga ahente ng AI upang mapabuti ang cybersecurity

DeepSeek-V3-0324 at diskarte sa artificial intelligence ng China

Ang paglulunsad ng modelo ay bahagi ng a mas malawak na diskarte mula sa China upang pagsamahin ang posisyon nito bilang pinuno sa artificial intelligence at bawasan ang agwat sa mga kumpanyang Kanluranin tulad ng OpenAI at Antropiko. Ang isa sa mga susi sa paglago na ito ay nakasalalay sa pag-optimize ng mga mapagkukunan: Nagtagumpay ang DeepSeek na makipagkumpitensya sa isang mataas na antas na may mas mababang paggamit ng graphics card at mas mababang mga gastos sa computational, isang bagay na nakakuha ng atensyon ng mga eksperto sa industriya.

Ang modelo ay magagamit sa ilalim Lisensya ng MIT, na nagpapahintulot sa paggamit nito nang walang mga komersyal na paghihigpit, sa gayon ay nadaragdagan ang pagiging naa-access at potensyal nito sa pag-aampon sa iba't ibang industriya. Naiiba ito sa mga saradong modelo tulad ng GPT-4.5, nag-aalok ng malakas at bukas na alternatibo para sa mga developer y mga kumpanya ng teknolohiya. Ang pambungad na ito ay mahalaga sa ebolusyon ng IA sa rehiyon.

Pinapabuti ng DeepSeek-V3-0324 ang artificial intelligence

Isang patuloy na umuusbong na modelo

Kahit na ang pag-unlad na ginawa sa DeepSeek-V3-0324 ay makabuluhan, ang kumpanya ay nagtatrabaho pa rin sa pagpapabuti ng sistema nito. Ito ay rumored na isang bagong bersyon, posibleng tinatawag na DeepSeek R2, ay maaaring ilunsad sa mga darating na buwan, na magpapakita ng patuloy na ebolusyon ng mga kakayahan nito.

  GlobalGPT: Ano itong all-in-one na AI at paano ito gumagana?

Binigyang-diin ng mga eksperto sa artificial intelligence na ang modelong ito ay nakamit ang higit na katumpakan sa pagsulat ng mahahabang teksto at katamtamang haba, bilang karagdagan sa mga pagpapabuti sa kalidad ng pagsasalin y pagsulat. Ang kanyang karunungan sa Wikang Tsino Na-optimize din ito, na iniayon ang sarili sa istilo ng modelong R1, isa pa sa mga pinakakilalang pag-unlad ng kumpanya.

Ang pagsulong ng DeepSeek ay kumakatawan sa isang hamon para sa mga kumpanyang Kanluranin, na kailangang magpatuloy sa pagbabago upang mapanatili ang kanilang pamumuno sa sektor. Sa kakayahan nitong makabuo kalidad ng code at ang pag-optimize nito sa pangangatwiran matematika, ang modelong ito ay nakaposisyon bilang isang pangunahing tool sa hinaharap ng artificial intelligence.

Inilunsad ng Baidu ang Ernie 4.5 at Ernie X1-0
Kaugnay na artikulo:
Inilabas ng Baidu ang Ernie 4.5 at Ernie X1 upang palakasin ang pamumuno nito sa AI

Ang pagbuo ng mga ganitong uri ng mga modelo ay bahagi din ng isang geopolitical na konteksto ng mahusay na teknolohikal na kompetisyon. Habang ang Estados Unidos ay nagpapanatili ng mga paghihigpit sa pag-export ng hardware advanced patungo sa Tsina, ang mga kumpanyang Tsino ay patuloy na naghahanap ng mga paraan upang umasenso at makipagkumpitensya sa sektor. Ang paglulunsad na ito ay hindi lamang nagmamarka ng pagpapabuti sa mga tuntunin ng teknolohiya, ngunit tumutugon din sa a estratehikong pangangailangan ng awtonomiya sa artificial intelligence.

Ang patuloy na ebolusyon ng DeepSeek ay nagpapakita na ang China ay gumagawa ng makabuluhang pag-unlad sa pagbuo ng bukas at mapagkumpitensyang mga modelo ng AI. Sa bawat pag-ulit, lumiliit ang agwat sa Kanluran, na naglalarawan ng mas matinding kompetisyon sa mga darating na taon.

Ang tsmc ay hindi gagawa ng mga advanced na ai chip para sa china-0
Kaugnay na artikulo:
Hindi gagawa ang TSMC ng advanced AI chips para sa China dahil sa mga paghihigpit na ipinataw ng US