DeepSeek V4 renforce les agents IA ouverts en production

DeepSeek V4 est une famille de modèles ouverts pour agents IA, conçue pour mieux couvrir les tâches longues, les appels d’outils et les workflows de code qu’un simple chatbot. La préversion du 24 avril 2026 apporte deux modèles à mélange d’experts, une longueur de contexte d’un million de tokens et une API compatible avec les formats OpenAI et Anthropic. Le modèle peut ainsi souvent s’intégrer à des frameworks d’agents via de la configuration, sans écrire de nouveau code.

Ce qui distingue DeepSeek V4 sur le plan technique

DeepSeek V4 se compose de V4-Pro et V4-Flash. Les deux variantes utilisent une architecture à mélange d’experts. Tout le modèle n’est donc pas actif à chaque requête : seule une partie des paramètres l’est. Cela réduit la charge de calcul et rend l’exploitation de très grands modèles plus rentable.

Les poids des modèles DeepSeek V4 sont disponibles sous licence MIT. Les développeurs peuvent les télécharger, les héberger eux-mêmes, les adapter ou les utiliser via l’API. En pratique, l’exécution locale reste toutefois exigeante à cause de la taille du modèle.

Modèle	Paramètres totaux	Paramètres actifs par token	Longueur de contexte	Usage typique
DeepSeek V4-Pro	1,6 billion	49 milliards	1 million de tokens	Agents complexes, tâches de code et longs workflows
DeepSeek V4-Flash	284 milliards	13 milliards	1 million de tokens	Automatisation rapide, tests et tâches plus simples

La grande longueur de contexte est particulièrement importante, car les agents doivent garder beaucoup d’informations en même temps. Cela inclut les instructions système, les descriptions d’outils, les étapes de travail précédentes, les fichiers et les résultats de tests. DeepSeek combine pour cela des méthodes d’attention compressée, qui réduisent la mémoire nécessaire et le coût de calcul avec de longues entrées.

Pourquoi les agents IA profitent de V4

Un agent IA ne se contente pas de répondre à des questions isolées. Il peut planifier plusieurs étapes, appeler des outils externes, modifier des fichiers, exécuter du code et évaluer les résultats sur des processus longs. Pour cela, le modèle a besoin d’une mémoire stable au sein de la tâche en cours et d’appels d’outils fiables.

Contexte long : Un million de tokens permet de longues sessions avec documentation, base de code et historique, sans devoir immédiatement recourir à une forte réduction du contexte ou à une logique de recherche supplémentaire.
Benchmarks d’agents : V4-Pro-Max atteint 67,9 % sur Terminal Bench 2.0, 80,6 % sur SWE Verified et 55,4 % sur SWE Pro. Ces tests mesurent des tâches comme l’analyse d’erreurs, les modifications de code et le travail en terminal.
Utilisation d’outils : L’API prend en charge les appels d’outils, la sortie JSON et des formats déjà compris par de nombreux frameworks existants. L’effort d’intégration s’en trouve réduit.

Les résultats ne montrent pas que V4 dépasse uniformément tous les meilleurs modèles fermés. Ils en font toutefois un candidat ouvert solide pour les agents qui traitent beaucoup de tokens et utilisent régulièrement des outils externes.

Comment OpenClaw et Hermes Agent peuvent utiliser V4

OpenClaw

OpenClaw prend en charge DeepSeek via une API compatible avec OpenAI. Dans de nombreuses configurations, il suffit donc d’ajuster le fournisseur, la clé d’API et le nom du modèle. Les définitions d’outils et les prompts existants n’ont pas forcément besoin d’être réécrits.

Pour les agents de code exigeants, V4-Pro est le choix le plus solide. Pour des tâches courtes et répétables, V4-Flash peut suffire, car il est conçu pour être moins cher et plus rapide. Passer d’une variante à l’autre relève surtout de la configuration.

Hermes Agent

Hermes Agent fonctionne avec des fichiers de configuration, des paramètres de fournisseur et, si besoin, des endpoints personnalisés. DeepSeek peut y être intégré comme fournisseur ou via un endpoint compatible avec OpenAI. C’est adapté aux installations qui tournent en continu, exécutent des tâches planifiées et restent accessibles via des plateformes de messagerie.

Pour Hermes, la mise en cache du contexte est particulièrement importante. Les agents envoient souvent à répétition des instructions système similaires, des listes d’outils et des informations stockées. Quand ces entrées sont en cache, le coût de chaque requête suivante baisse nettement.

Quand Pro ou Flash est le meilleur choix

V4-Pro convient aux tâches avec beaucoup de dépendances. Cela inclut les grandes bases de code, les longues sessions de terminal, les analyses d’erreurs en plusieurs étapes et les agents qui doivent prendre plusieurs décisions à la suite de manière autonome.

V4-Flash est pertinent lorsque la vitesse et le prix comptent davantage que la profondeur maximale. Les exemples typiques sont les automatisations simples, les prototypes, les tests, le prétraitement et les tâches à structure claire.

Commencer avec Flash : Pour les premiers tests et les flux simples, Flash réduit les coûts et fournit des retours rapides.
Passer à Pro : Pour les workflows en production avec modifications de code, chaînes d’outils ou longs contextes, Pro est l’option la plus robuste.
Maîtrise des coûts : Les tarifs de l’API DeepSeek distinguent l’entrée, la sortie et les hits de cache. V4-Pro bénéficie d’une réduction temporaire jusqu’au 31 mai 2026.

La règle de décision la plus simple est la suivante : Flash convient aux exécutions d’agents claires et courtes, Pro aux tâches ouvertes avec de nombreuses étapes intermédiaires. En cas de doute, il est possible de tester d’abord les workflows avec Flash, puis de passer à Pro quand les exigences augmentent.

Quelles limites comptent pour la migration et l’exploitation

DeepSeek présente V4 comme le successeur d’anciens endpoints. Deepseek-chat et deepseek-reasoner ne devraient plus être accessibles après le 24 juillet 2026 à 15:59 UTC. Les installations qui pointent encore vers ces noms devraient donc migrer vers deepseek-v4-flash ou deepseek-v4-pro.

Des poids de modèles ouverts ne signifient pas automatiquement de faibles coûts d’exploitation sur son propre matériel. V4-Pro est très grand et nécessite une infrastructure adaptée. Pour de nombreuses équipes, l’API restera donc la voie la plus simple, tandis que l’auto-hébergement intéressera surtout les organisations disposant de leur propre capacité de calcul.

Avec les agents, le modèle ne fait pas tout. Les droits des outils, les accès aux fichiers, les secrets et les services externes doivent être limités et vérifiés. Un modèle puissant augmente l’utilité d’un agent, mais ne remplace pas une configuration de sécurité propre.