Mistral AI présente Voxtral, un modèle open source dédié à l’audio : reconnaissance vocale et transcription à l’honneur.

Publié le 17 juillet 2025 à 09h09
modifié le 17 juillet 2025 à 09h09
Hugo Mollet
Hugo Mollet
Rédacteur en chef pour la rédaction média d'idax, 36 ans et dans l'édition web depuis plus de 18 ans. Passionné par l'IA depuis de nombreuses années.

Voxtral redéfinit la reconnaissance vocale avec une technologie innovante et performante. Conçu par Mistral AI, ce modèle open source facilite la transcription audio tout en offrant une précision incomparable. À moins de la moitié du coût des solutions concurrentes, Voxtral propose des fonctionnalités avancées. Ce modèle ambitieux intègre une compréhension sémantique native, une reconnaissance linguistique impressionnante ainsi que la capacité de générer des résumés élaborés. Dans un paysage technologique en constante évolution, Voxtral se positionne comme un acteur incontournable dans le domaine de l’intelligence artificielle.

Mistral AI dévoile Voxtral

Mistral AI, entreprise française emblématique dans le secteur de l’intelligence artificielle, a récemment lancé Voxtral, sa première gamme de modèles open source dédiée à la reconnaissance et à la transcription vocale. Cette nouvelle offre se décline en deux variantes, nommées Voxtral (24B) et Voxtral Mini (3B). Selon les dires de Mistral AI, ces modèles représentent le summum des capacités de compréhension vocale du marché.

Caractéristiques techniques

Voxtral, visant une audience variée, se distingue par une précision de pointe et une compréhension sémantique native, le tout proposé à un tarif inférieur à 0,001 $ la minute. Disponible en téléchargement sur Hugging Face et via l’API de Mistral, Voxtral traite jusqu’à 30 minutes d’audio pour la transcription, tandis qu’il peut analyser 40 minutes pour une compréhension plus approfondie. Sa capacité à reconnaître automatiquement plusieurs langues, y compris l’espagnol, l’hindi et le français, lui confère un attrait international.

Performances par rapport à la concurrence

Mistral AI affirme que Voxtral surpasse ses concurrents établis sur divers benchmarks. Selon l’entreprise, le modèle serait capable de dépasser largement le Whisper large-v3, actuellement considéré comme l’un des modèles open source les plus avancés. En outre, Voxtral rivaliserait avec Gemini 2.5 Flash et d’autres solutions en offrant une excellence tant en termes de transcription que de tâches multilingues.

Fonctionnalités d’analyse audio

L’intégration de Voxtral dans Le Chat, l’agent conversationnel de Mistral AI, est prévue dans un avenir proche. Cette nova technologie permettra aux utilisateurs d’enregistrer ou d’importer des fichiers audio. Ils disposeront ainsi des outils nécessaires pour obtenir des transcriptions, poser des questions liées au contenu et générer des résumés pertinents. Ces fonctionnalités promettent d’enrichir considérablement l’expérience utilisateur.

Options pour les entreprises

Mistral AI propose également des options avancées pour le secteur professionnel. Les entreprises pourront bénéficier d’un fine-tuning du modèle, leur permettant de l’adapter à des domaines spécifiques tels que la santé, le droit ou le service client. De plus, un déploiement privé sur leur infrastructure sera disponible, accompagné d’un soutien à l’intégration. Cette approche personnalisée vise à répondre aux besoins variés des professionnels.

Foire aux questions courantes

Quels sont les principaux modèles disponibles avec Voxtral ?
Voxtral se décline en deux modèles principaux : Voxtral (24B) et Voxtral Mini (3B), adaptés à des besoins variés en reconnaissance vocale et transcription.

Comment accéder à Voxtral et à ses fonctionnalités ?
Les modèles Voxtral sont disponibles en téléchargement sur Hugging Face et via l’API de Mistral AI, à partir d’un coût de 0,001 $ la minute.

Quelles langues sont prises en charge par Voxtral ?
Voxtral peut reconnaître automatiquement plusieurs langues, notamment l’espagnol, l’hindi et le français, permettant une utilisation multilingue efficace.

Quelles capacités de transcription et de compréhension offre Voxtral ?
Voxtral permet de transcrire jusqu’à 30 minutes d’audio et de comprendre jusqu’à 40 minutes d’enregistrement, tout en générant des résumés et en répondant à des questions.

En quoi Voxtral se distingue-t-il de ses concurrents comme Whisper large-v3 ?
Selon Mistral AI, Voxtral dépasse en performance Whisper large-v3 sur plusieurs benchmarks, tout en offrant une précision de pointe à un coût réduit.

Quels types de personnalisations sont possibles avec Voxtral pour les entreprises ?
Mistral AI propose des options de fine-tuning pour adapter le modèle à des domaines spécifiques tels que le secteur de la santé, du droit ou du support client.

Quand Voxtral sera-t-il intégré à Le Chat ?
L’intégration de Voxtral à Le Chat se fera progressivement dans les prochaines semaines, permettant aux utilisateurs d’enregistrer, importer des fichiers audio et interagir facilement avec le contenu.

Comment Voxtral gère-t-il la différenciation des interlocuteurs ?
Voxtral pourrait, dans future mise à jour, différencier les interlocuteurs et détecter certaines caractéristiques comme l’âge ou le sexe, rendant la transcription plus contextuelle.

Hugo Mollet
Hugo Mollet
Rédacteur en chef pour la rédaction média d'idax, 36 ans et dans l'édition web depuis plus de 18 ans. Passionné par l'IA depuis de nombreuses années.
actu.iaNewsMistral AI présente Voxtral, un modèle open source dédié à l'audio :...

Tencent Hunyuan : Plongée dans un univers audio réaliste pour vos vidéos IA

découvrez tencent hunyuan, la solution immersive pour des expériences audio réalistes dans vos vidéos ia. améliorez la qualité sonore de vos créations grâce à une technologie innovante et performante.

L’ascension du terme ‘clanker’ : le cri de ralliement de la génération Z contre l’IA

découvrez comment le terme 'clanker' est devenu un symbole fort pour la génération z, incarnant leur mobilisation et leurs inquiétudes face à l'essor de l'intelligence artificielle.
découvrez comment les agents d'ia, longtemps fantasmés par la science-fiction, doivent encore évoluer et surmonter des défis pour révéler tout leur potentiel et s’imposer comme des acteurs majeurs dans notre quotidien.
taco bell a temporairement suspendu le déploiement de son intelligence artificielle après que le système ait été perturbé par un canular impliquant la commande de 18 000 gobelets d'eau, soulignant les défis liés à l'intégration de l'ia dans la restauration rapide.
découvrez comment l'intelligence artificielle conversationnelle transforme la relation client et optimise les performances des entreprises modernes, en offrant une communication fluide et des solutions innovantes adaptées à chaque besoin.

Stratégies pour protéger vos données des accès non autorisés de Claude

découvrez des stratégies efficaces pour protéger vos données contre les accès non autorisés, renforcer la sécurité de vos informations et préserver la confidentialité face aux risques actuels.