Mistral AI présente Voxtral, un modèle open source dédié à l’audio : reconnaissance vocale et transcription à l’honneur.

Publié le 17 juillet 2025 à 09h09
modifié le 17 juillet 2025 à 09h09
Hugo Mollet
Hugo Mollet
Rédacteur en chef pour la rédaction média d'idax, 36 ans et dans l'édition web depuis plus de 18 ans. Passionné par l'IA depuis de nombreuses années.

Voxtral redéfinit la reconnaissance vocale avec une technologie innovante et performante. Conçu par Mistral AI, ce modèle open source facilite la transcription audio tout en offrant une précision incomparable. À moins de la moitié du coût des solutions concurrentes, Voxtral propose des fonctionnalités avancées. Ce modèle ambitieux intègre une compréhension sémantique native, une reconnaissance linguistique impressionnante ainsi que la capacité de générer des résumés élaborés. Dans un paysage technologique en constante évolution, Voxtral se positionne comme un acteur incontournable dans le domaine de l’intelligence artificielle.

Mistral AI dévoile Voxtral

Mistral AI, entreprise française emblématique dans le secteur de l’intelligence artificielle, a récemment lancé Voxtral, sa première gamme de modèles open source dédiée à la reconnaissance et à la transcription vocale. Cette nouvelle offre se décline en deux variantes, nommées Voxtral (24B) et Voxtral Mini (3B). Selon les dires de Mistral AI, ces modèles représentent le summum des capacités de compréhension vocale du marché.

Caractéristiques techniques

Voxtral, visant une audience variée, se distingue par une précision de pointe et une compréhension sémantique native, le tout proposé à un tarif inférieur à 0,001 $ la minute. Disponible en téléchargement sur Hugging Face et via l’API de Mistral, Voxtral traite jusqu’à 30 minutes d’audio pour la transcription, tandis qu’il peut analyser 40 minutes pour une compréhension plus approfondie. Sa capacité à reconnaître automatiquement plusieurs langues, y compris l’espagnol, l’hindi et le français, lui confère un attrait international.

Performances par rapport à la concurrence

Mistral AI affirme que Voxtral surpasse ses concurrents établis sur divers benchmarks. Selon l’entreprise, le modèle serait capable de dépasser largement le Whisper large-v3, actuellement considéré comme l’un des modèles open source les plus avancés. En outre, Voxtral rivaliserait avec Gemini 2.5 Flash et d’autres solutions en offrant une excellence tant en termes de transcription que de tâches multilingues.

Fonctionnalités d’analyse audio

L’intégration de Voxtral dans Le Chat, l’agent conversationnel de Mistral AI, est prévue dans un avenir proche. Cette nova technologie permettra aux utilisateurs d’enregistrer ou d’importer des fichiers audio. Ils disposeront ainsi des outils nécessaires pour obtenir des transcriptions, poser des questions liées au contenu et générer des résumés pertinents. Ces fonctionnalités promettent d’enrichir considérablement l’expérience utilisateur.

Options pour les entreprises

Mistral AI propose également des options avancées pour le secteur professionnel. Les entreprises pourront bénéficier d’un fine-tuning du modèle, leur permettant de l’adapter à des domaines spécifiques tels que la santé, le droit ou le service client. De plus, un déploiement privé sur leur infrastructure sera disponible, accompagné d’un soutien à l’intégration. Cette approche personnalisée vise à répondre aux besoins variés des professionnels.

Foire aux questions courantes

Quels sont les principaux modèles disponibles avec Voxtral ?
Voxtral se décline en deux modèles principaux : Voxtral (24B) et Voxtral Mini (3B), adaptés à des besoins variés en reconnaissance vocale et transcription.

Comment accéder à Voxtral et à ses fonctionnalités ?
Les modèles Voxtral sont disponibles en téléchargement sur Hugging Face et via l’API de Mistral AI, à partir d’un coût de 0,001 $ la minute.

Quelles langues sont prises en charge par Voxtral ?
Voxtral peut reconnaître automatiquement plusieurs langues, notamment l’espagnol, l’hindi et le français, permettant une utilisation multilingue efficace.

Quelles capacités de transcription et de compréhension offre Voxtral ?
Voxtral permet de transcrire jusqu’à 30 minutes d’audio et de comprendre jusqu’à 40 minutes d’enregistrement, tout en générant des résumés et en répondant à des questions.

En quoi Voxtral se distingue-t-il de ses concurrents comme Whisper large-v3 ?
Selon Mistral AI, Voxtral dépasse en performance Whisper large-v3 sur plusieurs benchmarks, tout en offrant une précision de pointe à un coût réduit.

Quels types de personnalisations sont possibles avec Voxtral pour les entreprises ?
Mistral AI propose des options de fine-tuning pour adapter le modèle à des domaines spécifiques tels que le secteur de la santé, du droit ou du support client.

Quand Voxtral sera-t-il intégré à Le Chat ?
L’intégration de Voxtral à Le Chat se fera progressivement dans les prochaines semaines, permettant aux utilisateurs d’enregistrer, importer des fichiers audio et interagir facilement avec le contenu.

Comment Voxtral gère-t-il la différenciation des interlocuteurs ?
Voxtral pourrait, dans future mise à jour, différencier les interlocuteurs et détecter certaines caractéristiques comme l’âge ou le sexe, rendant la transcription plus contextuelle.

Hugo Mollet
Hugo Mollet
Rédacteur en chef pour la rédaction média d'idax, 36 ans et dans l'édition web depuis plus de 18 ans. Passionné par l'IA depuis de nombreuses années.
actu.iaNewsMistral AI présente Voxtral, un modèle open source dédié à l'audio :...

Des passants choqués par un panneau publicitaire d’IA un brin trop sincère

des passants ont été surpris en découvrant un panneau publicitaire généré par l’ia, dont le message étonnamment honnête a suscité de nombreuses réactions. découvrez les détails de cette campagne originale qui n’a laissé personne indifférent.

Apple commence l’expédition d’un produit phare fabriqué au Texas

apple débute l’expédition de son produit phare fabriqué au texas, renforçant sa présence industrielle américaine. découvrez comment cette initiative soutient l’innovation locale et la production nationale.
plongez dans les coulisses du fameux vol au louvre grâce au témoignage captivant du photographe derrière le cliché viral. entre analyse à la sherlock holmes et usage de l'intelligence artificielle, découvrez les secrets de cette image qui a fait le tour du web.

Une entreprise innovante en quête d’employés aux valeurs claires et transparentes

rejoignez une entreprise innovante qui recherche des employés partageant des valeurs claires et transparentes. participez à une équipe engagée où intégrité, authenticité et esprit d'innovation sont au cœur de chaque projet !

Microsoft Edge : le navigateur transformé par le Mode Copilot, une IA au service de votre navigation !

découvrez comment le mode copilot de microsoft edge révolutionne votre expérience de navigation grâce à l’intelligence artificielle : conseils personnalisés, assistance instantanée et navigation optimisée au quotidien !

L’Union Européenne : Une régulation prudente face aux géants de la Big Tech américaine

découvrez comment l'union européenne impose une régulation stricte et réfléchie aux grandes entreprises technologiques américaines, afin de protéger les consommateurs et d’assurer une concurrence équitable sur le marché numérique.