Qu'est-ce que ERNIE-4.5-VL-28B-A3B-Thinking et comment en tirer le meilleur parti ?

Dernière mise à jour: 14/11/2025
Auteur: Isaac
  • Architecture MoE efficace : 28 milliards au total et environ 3 milliards d'actifs par jeton avec ViT et pertes spécifiques pour l'équilibre multimodal.
  • Raisonnement multimodal avancé : RL (GSPO, IcePop), ancrage accessible et « penser avec des images » pour les détails et la longue traîne.
  • Déploiement flexible : BaiduAPI compatibles, ERNIEKit, vLLM et quantification jusqu'à 2 bits avec des exigences VRAM variables.

Modèle de pensée ERNIE 4.5 VL vision-langage

L'appellation « Thinking » est apparue discrètement sur les disques durs de la gamme ERNIE-4.5-VL de Baidu, suscitant une certaine controverse. Alors que certains affirment que le lancement a été mené dans le plus grand secret, un petit tableau comparatif avec des concurrents tels que… GEMINI 2.5 Pro et un hypothétique GPT-5 « élevé », et la promesse d'un mode de « penser en images » Comme ses caractéristiques ne sont pas très bien expliquées, beaucoup se demandent si ce modèle est vraiment aussi performant que le prétend le marketing. En réalité, les versions précédentes de l'Ernie étaient déjà très performantes ; il est donc judicieux d'examiner ses caractéristiques de plus près et de démêler le vrai du faux.

En bref, ERNIE-4.5-VL-28B-A3B-Thinking est un modèle vision-langage multimodal avec une architecture Mixture of Experts (MoE) qui active seulement ~3 milliards de paramètres par jeton sur un total de 28 milliards. Cela permet un équilibre très intéressant entre puissance et efficacité. La variante « Pensée » intègre une formation intermédiaire axée sur le raisonnement multimodal, renforce l’alignement sémantique entre texte et image et ajoute des stratégies de renforcement telles que GSPO et IcePop pour stabiliser le MoE dans les tâches vérifiables, en plus de sa célèbre fonction « penser avec des images » qui combine zoom et recherche visuelle extraire des détails précis et des connaissances à long terme.

Qu'est-ce que ERNIE-4.5-VL-28B-A3B-Thinking et pourquoi est-ce important ?

Au sein de la famille ERNIE 4.5, la version VL-28B-A3B-Thinking se positionne comme un modèle léger mais ambitieux en matière de raisonnement multimodal. Il exploite une architecture MoE avec 28.000 milliards de paramètres au total et environ 3.000 milliards d'actifs par jeton, réduisant ainsi les coûts d'inférence tout en conservant des performances compétitives par rapport à des modèles plus grands et plus denses.

Ses spécifications techniques mentionnent jusqu'à 130 experts, dont 14 actifs à chaque étape, une configuration qui correspond à l'objectif de spécialisation par type d'entrée, permettant de contrôler la consommation d'énergie et la latence. L'idée est que le routeur sélectionne les experts les plus appropriés lors de la réception d'images, de texte ou d'une combinaison des deux, optimisant ainsi l'efficacité. diversité des représentations et l'efficacité du calcul.

Pour la composante visuelle, l'architecture de base est un Vision Transformer (ViT) qui découpe l'image en patchs et les traite comme des jetons. Cette projection sur le même espace d'intégration que le texte facilite un « dialogue » fluide entre les modalités, soutenu par des techniques d'entraînement telles que la perte orthogonale. toupie (afin que les experts ne se chevauchent pas excessivement) et un perte multimodale équilibrée en jetons ce qui empêche une modalité d'éclipser l'autre.

Outre l'étiquette « Pensée », Baidu se targue d'améliorations substantielles en matière de raisonnement visuel, d'analyse de graphes, de causalité, d'ancrage et de suivi d'instructions visuelles. De plus, la possibilité d'appeler des outils et de générer des résultats… structuré en JSON L'intégration de la modération de contenu en fait un outil solide pour les agents multimodaux.

Principales caractéristiques de la solution ERNIE 4.5 VL 28B Thinking

Architecture, formation et compétences : ce que cela apporte réellement

La philosophie du ministère de l'Éducation permet d'activer seulement une fraction des paramètres par jeton, ce qui se traduit par efficacité informatique sans compromettre l'échelle globale du modèle. Chaque « expert » peut se spécialiser dans des modèles ou des tâches (par exemple, la reconnaissance optique de caractères, les diagrammes, le raisonnement numérique), et le routeur apprend à les combiner en fonction du contexte.

En pratique, cela se concrétise par deux idées clés d'entraînement : une fonction de perte orthogonale pour le routeur, qui encourage la diversité des experts, et une fonction de perte multimodale équilibrée en jetons, qui maintient l'équilibre entre texte et image pendant l'entraînement. Ceci évite que le modèle ne soit exceptionnellement performant avec le texte mais en difficulté avec la vision (ou inversement). Dans VL-28B-A3B-Thinking, en outre, une phase d'entraînement intermédiaire dédiée au raisonnement sur les paires image-texte accroît la puissance de représentation et renforce le modèle. alignement sémantique multimodal.

Concernant les performances, des analyses comparatives indépendantes (par exemple, Galaxy.AI) placent ERNIE-4.5-VL-28B-A3B au même niveau, voire supérieur, à des alternatives comme Qwen2.5-VL-7B et Qwen2.5-VL-32B en perception visuelle, compréhension de documents et raisonnement multimodal. Ceci concorde avec le petit visuel promotionnel (certes difficilement lisible) qui suggère qu'il rivalise avec des modèles de référence comme Gemini 2.5 Pro ou un GPT-5 « haut de gamme », voire les surpasse. Certains soupçonnent une manipulation des performances, mais en réalité, grâce aux améliorations apportées au renforcement (GSPO, IcePop) et à l'échantillonnage dynamique de la difficulté, l'amélioration du modèle est tout à fait compréhensible. robustesse dans les tâches vérifiables.

  GlobalGPT : Qu'est-ce que cette IA tout-en-un et comment fonctionne-t-elle ?

La fonction « Penser avec des images » mérite une mention spéciale : il ne s’agit pas de magie, mais d’un flux de travail qui combine le zoom d’image et les outils de recherche visuelle pour saisir des détails très précis (plaques, petits panneaux, iconographie) et accéder à des connaissances externes lorsque les connaissances internes sont insuffisantes. Cette capacité, associée à un ancrage plus accessible (activation des fonctions d’ancrage par de simples instructions), fait de ce modèle un candidat de choix pour applications industrielles et des scénarios avec des images complexes.

Dans les environnements multilingues, la série ERNIE 4.5 conserve des performances élevées sans compromettre la compréhension visuelle, une caractéristique essentielle des flux de travail internationaux. De plus, la sortie structurée (JSON) et les appels de fonctions ouvrent la voie à des cas d'utilisation où le modèle observe et répond, mais aussi… agit sur les outils (par exemple, localiser des objets et renvoyer leurs boîtes englobantes avec leurs coordonnées).

Architecture du ministère de l'Éducation et flux multimodal dans ERNIE

Cas d'utilisation éprouvés

Raisonnement visuel dans les graphiques d'affluence : le modèle peut croiser les dates avec les jours de la semaine, interpréter la structure du graphique, détecter les périodes de faible affluence (par exemple, de 12 h à 14 h) et générer une recommandation claire des meilleurs moments pour visiter. Ici, nous observons un raisonnement par plusieurs étapes qui combine calendrier, lecture visuelle et logique.

Problèmes STEM à partir de photos : Face à un circuit en pont qui ne peut être résolu par un simple montage série-parallèle, le modèle applique les lois d’Ohm et de Kirchhoff, établit les équations nodales et en déduit un résultat analytique correct (par exemple, R = 7/5 Ω). Ceci illustre sa capacité à interpréter techniquement des schémas et… raisonnement symbolique.

Ancrage visuel avec sortie structurée : étant donné « Identifier toutes les personnes portant un costume et renvoyer leurs boîtes englobantes au format JSON », le programme détecte les individus et fournit des coordonnées numériques précises. La clé réside dans la combinaison de l’ancrage avec suivre les instructions et un format de sortie programmable.

« Penser en images » pour une reconnaissance optique de caractères (OCR) détaillée : si l’utilisateur demande le texte d’un panneau bleu en arrière-plan, l’outil zoom se déclenche, permettant l’identification de minuscules étiquettes (comme « HÔTEL BUZA ») avec plus de détails. fiabilitéC'est un exemple de mise au point dynamique dans les belles régions.

Utilisation d'outils de recherche de longue traîne : face à une peluche jaune et ronde, le modèle décide d'effectuer une recherche d'images externe, compare les attributs et conclut qu'il s'agit de « Dundun », associé à MINISO. Ce processus illustre son capacité d'orchestration étapes avec outils.

Compression vidéo : extraits sous-titres avec des horodatages et localise des scènes spécifiques (par exemple, des segments autour de 17 s, 37 s et 47 s filmés sur un pont). Ici, il combine l'extraction de texte, le raisonnement temporel et analyse spatio-temporelle du contenu.

Autre variante notable : ERNIE‑4.5‑21B‑A3B‑Thinking

Parallèlement à l'édition VL-28B, il existe une variante axée sur le raisonnement textuel et informatique, avec un total de 21 milliards de jetons et 3 milliards de jetons actifs par jeton. Conçue selon le principe « plus intelligent, pas plus grand », elle affiche des performances remarquables en logique et en mathématiques. programmation et de longs raisonnements en chaîne. Publié sous Apache-2.0 Et avec une fenêtre de contexte étendue (dans la plage de 128K à 131K), il est très intéressant pour les tâches de long format et l'analyse comparative de plusieurs documents.

L'un de ses arguments de vente est son prix : des frais indicatifs ont été annoncés sur certaines plateformes avec des coûts très compétitifs par million de jetons (par exemple, 0,07 $ à l'entrée et 0,28 $ à la sortie, voire « 0 $/0 $ » dans certaines configurations de 21 milliards de jetons). Il est toutefois conseillé de vérifier la disponibilité et les conditions réelles, car l'écosystème de déploiement et… accords commerciaux peut varier.

  Samsung lance « The Mind Guardian », un jeu vidéo basé sur l'IA conçu pour détecter les pertes de mémoire.

Comparaisons de marché et bruit

Concernant le fameux petit graphique le comparant au Gemini 2.5 Pro et à un GPT-5 « haut de gamme » : il s’agit de marketing, et non d’un audit indépendant. Malgré cela, comparé à des batteries disponibles publiquement (Qwen2.5-VL-7B/32B, etc.), le modèle se défend bien. Comme toujours, il est préférable de le tester sur vos données et indicateurs cibles, car… généralisation Cela varie en fonction du domaine, de la qualité des invites, des outils disponibles et du type d'entrées (texte/image/vidéo).

Exigences de quantification et de mémoire

Dans les déploiements locaux, la quantification est utile. Avec FP16, on estime la VRAM nécessaire à environ 56 Go ; avec 4 bits, à environ 14 Go ; et avec 2 bits, à environ 7 Go. Remarque : ces valeurs dépendent de l’environnement d’exécution et du packaging. Par exemple, certains guides FastDeploy mentionnent un minimum de 24 Go par carte, tandis que dans d’autres environnements (par exemple, vLLM plus exigeant), 80 Go sont cités pour des configurations spécifiques. Selon la pile technologique (PaddlePaddle, PyTorch, kernels, etc.), la VRAM requise peut varier. longueur de la séquence(, lot, cache KV), la valeur pratique peut évoluer.

Assistance et modération multilingues

La prise en charge multilingue sans compromettre la visibilité est un autre atout. Et pour la production destinée aux utilisateurs, la modération intégrée ajoute une couche de sécurité qui réduit les risques de déploiement. La sortie structurée et les appels de fonction permettent d'intégrer le modèle comme un « moteur » au sein de pipelines. outils externespas seulement en tant que chatbot.

Un exemple extrême de compréhension documentaire

Le modèle peut traiter des transcriptions historiques complexes, telles que des textes sur les « Cinq Rois de Wō » dans des sources chinoises, des références croisées du « Livre des Chansons », des inscriptions sur la stèle de Gwanggaeto ou des notes de bas de page indiquant des années (par exemple, 478) et des lieux (Ji'an, Jilin). Ce type de données d'entrée mêle traductions, notes explicatives et contexte archéologique (tumulus, épées portant des inscriptions telles que « Daio » associé à Bu/Yūryaku). Un système comme ERNIE-4.5-VL-28B-Thinking peut segmenter ces données, reconnaître les noms propres (Yomi, Mí, Sei, Ō, Bu) et les relier aux sources archéologiques. figures impériales Les Japonais et formuler un résumé cohérent des faits : tributs aux dynasties du sud de la Chine, conflit sur la péninsule coréenne, base à Kara/Imna pour les ressources en fer, etc.

Mise en œuvre, accès et questions fréquentes

Il existe plusieurs façons de tester et de déployer ERNIE 4.5. Baidu propose un accès web pour une prise en main rapide, sans installation. L'intégration avec des plateformes tierces (comme Novita API Playground) facilite l'évaluation du modèle dans les environnements de développement et la mesure des coûts. Pour les déploiements locaux, la configuration recommandée est généralement… Linuxavec PaddlePaddle (ERNIEKit) et compatibilité croisée avec les Transformers dans PyTorch utilisant code_de_confiance_à_distance quand il touche.

Déploiement et utilisation d'ERNIE 4.5 dans des environnements locaux et cloud

Déploiement avec Transformers (PyTorch)

Le processus classique consiste à charger le modèle avec AutoModelForCausalLM, à ajouter un prétraitement d'image via AutoProcessor et à construire des messages multimodaux combinant texte et image/vidéo. Le message est ensuite généré avec des limites de jetons appropriées et la sortie est décodée. L'élément clé est que… processeur gérer à la fois le modèle de chat et la préparation des tenseurs visuels.

<!-- Ejemplo orientativo (parafraseado) -->
from transformers import AutoModelForCausalLM, AutoProcessor
import torch

name = "baidu/ERNIE-4.5-VL-28B-A3B-Thinking"
model = AutoModelForCausalLM.from_pretrained(
    name, device_map="auto", dtype=torch.bfloat16, trust_remote_code=True
)
processor = AutoProcessor.from_pretrained(name, trust_remote_code=True)
model.add_image_preprocess(processor)

messages = [{
  "role": "user",
  "content": [
    {"type": "text", "text": "¿De qué color es la ropa de la chica?"},
    {"type": "image_url", "image_url": {"url": "https://.../example1.jpg"}}
  ]
}]

text = processor.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
image_inputs, video_inputs = processor.process_vision_info(messages)
inputs = processor(text=[text], images=image_inputs, videos=video_inputs, padding=True, return_tensors="pt")

out_ids = model.generate(**{k: v.to(model.device) for k, v in inputs.items()}, max_new_tokens=256)
print(processor.decode(out_ids[0][len(inputs["input_ids"][0]):]))

Inférence avec vLLM

vLLM accélère l'inférence et ajoute des options telles que des analyseurs syntaxiques spécialement conçus pour le raisonnement et les appels d'outils. N'oubliez pas de l'activer. –code de confiance à distance lors du déploiement du modèle si le dépôt l'exige.

# Instalar nightly (orientativo)
pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly

# Servir el modelo
vllm serve baidu/ERNIE-4.5-VL-28B-A3B-Thinking --trust-remote-code

# Con parsers de razonamiento y herramientas
evllm serve baidu/ERNIE-4.5-VL-28B-A3B-Thinking \
  --trust-remote-code \
  --reasoning-parser ernie45 \
  --tool-call-parser ernie45 \
  --enable-auto-tool-choice

FastDeploy et ERNIEKit

FastDeploy permet d'exposer des services rapides avec des paramètres pour contrôler la longueur maximale, le nombre de séquences, la quantification (wint8/INT4), les analyseurs syntaxiques et les paramètres du processeur multimodal (par exemple, image_max_pixels). Les exigences en VRAM mentionnées varient ; des commentaires ont été formulés depuis 24 Go par carte jusqu'à des scénarios nécessitant 80 Go dans d'autres guides ; cela dépend de la combinaison du modèle, de la précision, du lot et des longueurs.

# Ejemplo orientativo
fastdeploy serve --model baidu/ERNIE-4.5-VL-28B-A3B-Thinking \
  --max-model-len 131072 \
  --max-num-seqs 32 \
  --port 8180 \
  --quantization wint8 \
  --reasoning-parser ernie-45-vl-thinking \
  --tool-call-parser ernie-45-vl-thinking \
  --mm-processor-kwargs '{"image_max_pixels": 12845056 }'

Réglage fin (SFT/LoRA) et alignement (DPO)

ERNIEKit, basé sur PaddlePaddle, propose des configurations prêtes à l'emploi pour SFT avec et sans LoRA, ainsi que pour DPO. Il est utile pour adapter le modèle à des domaines spécifiques (par exemple, documents industriels, inspection visuelle, formulaires) tout en préservant son intégrité. robustesse multimodaleVous pouvez télécharger le référentiel de modèles et exécuter les modèles d'entraînement inclus dans les exemples de la boîte à outils.

  All Music Works : l'innovation musicale qui marque un avant et un après

Accès via API et plateformes

Outre la plateforme Baidu, il existe des intégrations compatibles avec la norme. OpenAI Les API simplifient la migration depuis les outils existants (par exemple, les clients en ligne de commande ou les éditeurs comme Cursor) en évitant de devoir refaire les intégrations. Certains clouds GPU (comme Novita AI) proposent des instances avec une VRAM importante et une tarification horaire, ainsi qu'une évolutivité vers plusieurs GPU, ce qui est utile si vous souhaitez… tester des configurations importantes sans investir dans matériel propre

Licence commerciale et utilisation

La famille ERNIE 4.5 est distribuée sous licence Apache 2.0, une licence permissive autorisant l'utilisation commerciale sous réserve du respect des conditions et mentions légales. Il est ainsi facile de créer des produits payants en intégrant le modèle et ses dérivés, à condition de conserver les droits d'auteur. conformité aux licences et l’attribution correspondante (par exemple, citer le rapport technique).

Prix ​​et contexte

Des tarifs très compétitifs ont été communiqués. Par exemple, pour l'édition 300B A47B, le contexte mentionné est de 123 000, avec des coûts indicatifs de 0,28 $/M en entrée et de 1,10 $/M en sortie ; pour l'édition 21B A3B, des prix annoncés aussi bas que 0 $/0 $ ont été observés. Il est conseillé de vérifier la disponibilité et les conditions exactes sur la plateforme concernée, car les prix varient selon le fournisseur. frais d'utilisation, la région et le SLA.

Performance dans les tâches de la vie réelle

Au-delà du document papier, ce qui est intéressant, c'est là où il excelle : la lecture de documents mêlant texte et éléments visuels (tampons, tableaux, signatures), l'extraction de données géoréférencées (coordonnées), la résolution de problèmes STEM à partir de photographies ou de tableaux blancs, la synthèse de vidéos avec géolocalisation des événements, et utilisation des outils Pour les connaissances de niche. Si votre application correspond à ce profil, la fonctionnalité « Réflexion » apporte des éléments utiles.

FAQ rapide

  • Que signifie « Penser avec des images » ? — Il s’agit d’un flux de travail qui combine zoom et recherche visuelle pour saisir les détails et consulter des connaissances externes lorsque les connaissances internes sont insuffisantes, améliorant ainsi la… raisonnement subtil.
  • De combien de VRAM ai-je besoin ? — Cela dépend. À titre indicatif : FP16 ~56 Go ; INT4 ~14 Go ; 2 bits ~7 Go. Mais la durée d’exécution et la taille du contexte peuvent augmenter ces besoins, notamment avec vLLM.
  • S'intègre-t-il aux outils ? — Oui, il prend en charge les appels de fonction et la sortie JSON, permettant ainsi l'enchaînement d'agents multimodaux avec ancrage, OCR, recherche, etc. étapes vérifiables.
  • Existe-t-il une alternative « texte uniquement » performante ? — ERNIE‑4.5‑21B‑A3B‑Thinking excelle en logique, en mathématiques et en programmation, avec un bon ratio rapport coût-performance et un contexte plus large.

Si vous recherchez un modèle multimodal qui allie efficacité et capacité, ERNIE-4.5-VL-28B-A3B-Thinking est particulièrement intéressant. Ses piliers sont un MoE finement paramétré (130 experts et 14 utilisateurs actifs), un ViT couplé à un espace textuel partagé, une perte de routage orthogonale et une perte multimodale équilibrée en jetons, renforcés par un raisonnement en cours d'entraînement, l'apprentissage par renforcement avec GSPO/IcePop et la « pensée par images ». Ses démonstrations illustrent ces atouts. raisonnement visuel Mise à la terre précise en plusieurs étapes, apprentissage des sciences, technologies, ingénierie et mathématiques (STEM) à partir de photos, d'outils utilisés et de vidéos temporelles. Un accès flexible (Baidu, API compatibles, déploiement local avec Paddle/Transformers), la licence Apache 2.0 et des options de quantification complètent cette solution qui, au-delà du marketing, possède les atouts techniques nécessaires pour être très compétitive.