Transcription en temps réel sur Windows : Guide complet

La transcription en temps réel sur Windows s’est améliorée dramatiquement au cours des deux dernières années, et le choix du bon outil dépend maintenant moins de « cela fonctionne-t-il vraiment ? » et plus de l’adaptation de la latence, de la précision et de l’intégration à votre cas d’usage spécifique. Que vous souhaitiez des sous-titres automatiques pour une diffusion en direct, des notes de réunion sans service cloud ou un soutien en matière d’accessibilité pour une configuration malentendante, Windows dispose désormais de plusieurs bonnes options — et elles se comportent très différemment les unes des autres.

Ce guide couvre tout : Windows 11 Live Captions, transcription locale basée sur Whisper, outils tiers et comment le câbler dans votre flux de travail de diffusion ou de jeu. Vous obtiendrez des repères de latence, une comparaison d’honneur de précision, des détails sur le support linguistique et une configuration étape par étape pour les deux approches les plus utiles.

TL;DR

Windows 11 a Live Captions intégré — hors ligne, gratuit, supporte plus de 30 langues, prend environ 90 secondes pour activer
La transcription locale basée sur Whisper offre une meilleure précision sur les accents et le jargon, mais ajoute du temps de configuration
La latence varie de ~200ms (Live Captions) à 1-3 secondes (Whisper CPU uniquement) — le GPU fait une grande différence
Pour la diffusion, l’intégration OBS nécessite l’acheminement de la sortie de transcription vers une source de texte
La dictée en direct (frappe vocale) est une fonctionnalité différente des sous-titres en direct ; elles servent des objectifs différents
Les outils comme VoxBooster regroupent la transcription en direct avec la suppression du bruit et les effets vocaux dans un seul pipeline

Qu’est-ce que la transcription en temps réel, exactement ?

La transcription en temps réel est le processus de conversion de l’audio parlé en texte lisible avec une latence assez basse pour que le texte apparaisse pendant ou quelques secondes après la personne qui parle. Ceci est différent de la transcription par lots (téléchargement d’un enregistrement et récupération de texte plus tard) et différent de la dictée vocale dans une application spécifique comme Word.

Les trois principaux cas d’usage que les gens recherchent sont :

Accessibilité — les utilisateurs malentendants suivant une conférence, une réunion ou un appel vidéo
Création de contenu — les streamers ajoutant des sous-titres en direct à leur diffusion, ou les créateurs générant des fichiers de sous-titres
Productivité — prise de notes sans les mains pendant les réunions, entretiens ou séances de brainstorming

Le défi technique est d’équilibrer la latence contre la précision. Chaque système de transcription fonctionne sur des « chunks » audio — plus longtemps il attend avant de transcrire, plus il a de contexte et plus le résultat est précis. Mais plus de contexte signifie plus de retard. Les outils ci-dessous font des compromis différents.

Windows 11 Live Captions : L’option intégrée

Windows 11 version 22H2 et ultérieure inclut Live Captions en tant que fonctionnalité d’accessibilité native. Il fonctionne entièrement sur l’appareil — Microsoft est explicite sur le fait que l’audio ne quitte pas votre machine. La fonctionnalité est alimentée par un modèle local de reconnaissance vocale qui est livré avec Windows.

Comment activer Live Captions sur Windows 11

Ouvrez Paramètres → Accessibilité → Sous-titres
Basculez Sous-titres en direct sur Actif
Windows télécharge le package de reconnaissance vocale pour votre langue (environ 50-100 MB, téléchargement unique)
Appuyez sur Win + Ctrl + L pour ouvrir ou fermer la fenêtre de sous-titre de n’importe quelle application

La fenêtre de sous-titre flotte au-dessus du contenu d’autres éléments et peut être repositionnée. Elle capture l’audio depuis le périphérique sélectionné comme microphone ou appareil de lecture par défaut, ce qui signifie qu’elle fonctionne à la fois sur votre propre voix et l’audio sortant de vos haut-parleurs.

Ce que Live Captions fait bien

Live Captions gère la parole anglaise claire et d’accent standard avec un vocabulaire courant extrêmement bien pour un outil gratuit, toujours hors ligne. Il démarre en moins de deux secondes, n’a pas d’abonnement et traite tout localement pour que les conversations sensibles à la confidentialité restent privées. La fenêtre flottante est vraiment utile pendant les appels vidéo — elle vous donne une piste de texte de secours même lorsque la qualité audio de quelqu’un baisse.

La latence est généralement 200-400ms en pratique, ce qui est assez rapide pour suivre une conversation normale sans avoir l’impression de lire en avance ou en arrière.

Où Live Captions est insuffisant

La précision diminue notablement avec :

Les accents régionaux lourds — le modèle est formé massivement sur l’anglais américain et britannique standard
Le jargon technique et les noms propres — il manque fréquemment les termes spécifiques au domaine et les noms inhabituels
La parole qui se chevauche — deux personnes parlant à la fois produisent une sortie brouillée
Le bruit de fond — il n’a pas de suppression du bruit intégrée ; les environnements bruyants le dégradent significativement
Le changement de langue — vous définissez une langue dans les paramètres système et elle ne peut pas détecter automatiquement au milieu d’une conversation

Il n’y a aussi pas d’API, pas de fichier de sortie et pas de moyen de capturer le texte transcript pour l’utiliser dans une autre application. La fenêtre est affichage uniquement.

Pour la documentation officielle de Microsoft sur cette fonctionnalité, consultez la page de support Live Captions de Microsoft.

Transcription locale basée sur Whisper : Plus précise, plus de configuration

OpenAI’s Whisper est un modèle open de reconnaissance vocale publié en 2022. Il supporte 99 langues, gère les accents et le jargon nettement mieux que la plupart des alternatives, et peut détecter automatiquement la langue de l’audio entrant sans que vous ayez à le configurer manuellement. Les poids des modèles sont publiquement disponibles, ce qui signifie que les outils tiers peuvent le regrouper et l’exécuter entièrement sur votre PC.

Modèles Whisper : Taille, vitesse et compromis de précision

Whisper vient en plusieurs tailles. Les modèles plus grands sont plus précis mais plus lents et nécessitent plus de mémoire :

Modèle	Paramètres	VRAM requis	Latence approx. (GPU)	Latence approx. (CPU)
tiny	39M	~1 GB	100-200ms	1-2s
base	74M	~1 GB	150-300ms	2-4s
small	244M	~2 GB	300-600ms	5-10s
medium	769M	~5 GB	600ms-1,5s	20-40s
large	1,5B	~10 GB	1-3s	trop lent

Pour l’usage en temps réel, small atteint le meilleur compromis pratique précision-à-vitesse sur un GPU milieu de gamme. CPU uniquement, tiny ou base sont les seuls modèles qui restent proches du temps réel. Les numéros de latence ci-dessus sont approximatifs et varient significativement avec le matériel.

GPU vs CPU : La différence pratique

Si votre PC a un GPU dédié avec au moins 4 GB de VRAM, exécuter Whisper avec le modèle small en temps réel est confortable — vous verrez la transcription apparaître environ une demi-seconde après avoir terminé une phrase. Sur une machine CPU uniquement, même tiny s’exécute une ou deux secondes en arrière, ce qui est acceptable pour certains cas d’usage (notes de réunion, accessibilité) mais semble lent pour les sous-titres de diffusion en direct.

C’est la principale considération matérielle lors du choix entre Windows Live Captions et une approche basée sur Whisper.

Transcription en direct pour la diffusion et OBS

Les streamers veulent des sous-titres pour deux raisons : la conformité en matière d’accessibilité (particulièrement pertinente si vous avez des spectateurs malentendants) et l’engagement (de nombreux spectateurs regardent les diffusions en silencieux ou dans des environnements bruyants). Les sous-titres dans ce contexte sont un vrai outil de rétention d’audience, pas seulement une case à cocher.

Le défi : obtenir du texte dans OBS

Ni Windows Live Captions ni un runner Whisper autonome n’ont été conçus pour produire du texte que OBS peut consommer directement. L’approche d’intégration typique est :

Un outil de transcription écrit le transcript actuel en temps réel dans un fichier texte sur le disque
OBS lit ce fichier à l’aide d’une source Texte (GDI+) pointée sur le chemin du fichier
OBS met à jour l’affichage chaque fois que le fichier change

Cela fonctionne, mais le résultat visuel dépend entièrement de la fréquence des mises à jour du fichier et de la façon dont vous stylisez la source de texte. Certains outils mettent à jour tous les 200ms ; d’autres écrivent aux limites des phrases, ce qui produit une sortie plus fragmentée mais plus nette.

Une approche alternative utilise une source de navigateur dans OBS pointée vers un serveur localhost que l’outil de transcription exécute — cela permet un formatage plus riche et un défilement en temps réel.

Module de transcription de VoxBooster

La fonctionnalité de transcription en direct de VoxBooster est construite autour de ce cas d’usage exact de diffusion. Il exécute Whisper localement sur votre PC, applique la suppression du bruit à l’entrée du microphone avant de la transmettre au modèle vocal (ce qui améliore significativement la précision dans les environnements de jeu ou intensifs en musique) et écrit un fichier de sous-titre que OBS peut suivre. Vous configurez le chemin du fichier de sortie une fois dans les paramètres de VoxBooster et ajoutez la source de texte dans OBS — c’est l’intégration complète.

Parce que VoxBooster possède déjà votre pipeline audio pour la modification vocale, l’exécution de la transcription via le même pipeline signifie que le modèle vocal reçoit le même audio propre et supprimé du bruit qui va à votre canal vocal — pas le signal microphonique brut avec fuite d’audio de jeu.

Dictée en direct vs Sous-titres en direct : Pas la même fonctionnalité

Un point de confusion courant : la dictée vocale et les sous-titres en direct sont des choses différentes, et Windows a des outils séparés pour chacun.

La dictée vocale convertit votre parole en saisie de texte dans le champ de texte actuellement focalisé. Vous l’activez, parlez, et il tape dans la fenêtre active — un document, une boîte de chat, un champ de recherche. Sur Windows 11, appuyez sur Win + H pour activer le panneau de frappe vocale intégré. Il est alimenté par le même modèle hors ligne que Live Captions, mais la sortie va directement dans une application sous forme de frappes de clavier.

Les sous-titres en direct affichent un transcript roulant audio pour la lecture — ils n’écrivent dans aucune application. Ce sont une couche d’affichage passive.

Pour la prise de notes sans les mains, vous voulez la dictée. Pour l’accessibilité ou le suivi de la parole de quelqu’un d’autre, vous voulez les sous-titres. La plupart des outils en font un ou l’autre ; le module de transcription de VoxBooster produit dans un fichier (style sous-titres) et peut également acheminer le texte vers une fenêtre de dictée séparée selon votre configuration.

Cas d’usage en matière d’accessibilité : Réunions et conférences

Pour un usage centré sur l’accessibilité — malentendance, différences de traitement auditif, suivi dans un environnement bruyant — Windows Live Captions est le premier outil à essayer car il ne nécessite pas de configuration et traite tout localement. Il fonctionne sur tout l’audio que votre système lit, y compris les appels Teams, les vidéos YouTube et les conversations en personne capturées par un microphone.

Là où l’expérience locale de Live Captions est vraiment insuffisante pour les utilisateurs malentendants est dans le contenu technique : une conférence médicale, une déposition juridique, une présentation d’ingénierie. Le taux d’erreur de vocabulaire pour les termes spécifiques au domaine est élevé. Dans ces contextes, un modèle Whisper medium ou large (si votre matériel le supporte) produit une sortie significativement meilleure, car le modèle a vu plus de texte spécifique au domaine lors de la formation.

Otter.ai est fréquemment recommandé pour la transcription de réunion. Il gère mieux la diarisation des orateurs (étiquetage de qui a dit quoi) que n’importe quel outil local actuellement, mais cela nécessite de télécharger l’audio dans le cloud. Pour quiconque ayant des exigences de confidentialité ou une connexion Internet peu fiable, les alternatives locales sont la seule option réelle.

Pour plus sur la suppression du bruit — qui affecte directement la qualité de la transcription — consultez notre guide logiciel de suppression du bruit.

Transcription en temps réel pour les jeux

Les joueurs utilisent la transcription en direct dans quelques scénarios spécifiques :

Accessibilité de jeu : joueurs avec déficience auditive suivant la communication vocale en jeu ou le dialogue des cinématiques
Overlay de chat en direct : streamers affichant un transcript en direct de leur propre commentaire comme sous-titre sur le flux
Communication en équipe : équipes dans les jeux de tir tactique qui veulent une sauvegarde texte pour la communication vocale dans les situations de bruit élevé

Le défi dans les environnements de jeu est la fuite d’audio — l’audio du jeu, les sons de notification et la musique s’alimentent tous dans le modèle de transcription aux côtés de votre voix, produisant des absurdités dans le transcript. La solution est soit d’utiliser une entrée de microphone dédiée (pas l’audio système) comme source de transcription, soit d’exécuter la suppression du bruit avant le modèle vocal.

La pipeline de modification vocale de VoxBooster exécute déjà la suppression du bruit sur le signal du microphone. Quand la transcription est activée simultanément, les deux fonctionnalités partagent l’audio nettoyé, donc l’audio du jeu ne pollue pas le transcript.

Pour la lecture connexe sur l’audio à faible latence dans les jeux, consultez configuration de modification vocale à faible latence.

Outils tiers : Qu’d’autre est disponible

Au-delà de Windows Live Captions et VoxBooster, il existe plusieurs outils qui méritent d’être connus :

Otter.ai — diarisation d’orateur excellente et notes de réunion, mais basé sur le cloud et tarifé par abonnement. Non approprié pour les environnements sensibles à la confidentialité ou l’internet peu fiable.

Reconnaissance vocale Windows (héritée, disponible sur Windows 10 et 11) — l’ancien système de dictée. Il nécessite la formation sur votre voix pour une précision décente et ne produit pas d’affichage de sous-titre en direct. Fonctionnel mais daté.

Whisper Desktop / Implémentation de Const-me — un GUI Windows open-source populaire pour Whisper qui exécute les modèles localement. Précis, gratuit et configurable, mais nécessite une configuration manuelle et ne s’intègre pas à OBS ou aux outils de diffusion prêts à l’emploi.

Subtitle Edit avec audio en direct — principalement un outil d’édition de sous-titres, mais a un mode de transcription audio en direct via Whisper ou les backends Vosk. Utile pour les créateurs de contenu faisant un minutage de sous-titre manuel.

Aucun de ceux-ci ne correspond à l’expérience intégrée d’avoir la transcription intégrée au même outil gérant la suppression du bruit et l’acheminement audio — ce qui est la principale raison d’envisager une solution tout-en-un.

Comparaison du support linguistique

Outil	Langues	Détection automatique	Hors ligne
Windows 11 Live Captions	30+	Non (défini dans les paramètres système)	Oui
Whisper (n’importe quel front-end)	99	Oui	Oui
Otter.ai	Anglais, français, allemand, espagnol (limité)	Non	Non
Transcription VoxBooster	99 (via Whisper)	Oui	Oui

La capacité multilingue de Whisper est l’un de ses avantages les plus clairs. Si vous travaillez dans une langue autre que l’anglais, ou si votre audience ou vos partenaires de conversation alternent les langues, les outils basés sur Whisper sont substantiellement mieux adaptés à la tâche. Windows Live Captions à partir de 2026 ne peut pas détecter automatiquement la langue ; vous changez la langue de transcription dans Paramètres → Heure et langue → Reconnaissance vocale.

Consultez l’article Wikipedia sur la reconnaissance vocale automatique pour un aperçu technique plus large de la façon dont ces systèmes fonctionnent.

Configuration de la transcription Whisper locale : Étape par étape

Si vous souhaitez exécuter la transcription Whisper localement sans VoxBooster, voici le chemin de configuration manuelle sur Windows :

Conditions préalables : Python 3.10+, pip et un GPU compatible CUDA (facultatif mais recommandé).

Installez Whisper : pip install openai-whisper
Installez la dépendance de capture audio : pip install sounddevice
Écrivez un court script Python qui enregistre l’audio en chunks de 5-10 secondes depuis votre microphone et transcrit chaque chunk via whisper.transcribe()
Imprimez ou écrivez la sortie dans un fichier que OBS peut lire

Cela fonctionne mais représente une quantité importante d’effort manuel. La taille du chunk est le bouton latence-précision : les chunks plus petits signifient un affichage plus rapide mais des taux d’erreur plus élevés aux limites des chunks où les mots sont coupés. La plupart des utilisateurs finissent par 4-6 chunks de secondes pour une précision raisonnable.

VoxBooster gère tout cela en interne — sélection de modèle, tuning de chunk, pré-traitement de suppression du bruit et sortie de fichier OBS — via un panneau de paramètres plutôt que les scripts Python.

Comment fonctionne la transcription en temps réel sous le capot ?

Les systèmes de reconnaissance vocale en temps réel suivent généralement le même pipeline :

Capture audio — l’entrée du microphone ou l’audio système est capturé en tant que flux PCM brut
Détection d’activité vocale (VAD) — un modèle rapide et léger détecte quand quelqu’un parle vs. le silence ; cela empêche le modèle de transcription de traiter l’audio vide et de gaspiller les calculs
Chunking — l’audio gated VAD est divisé en segments (généralement 3-30 secondes) pour le modèle principal
Extraction de caractéristiques — les chunks audio sont convertis en spectrogrammes Mel, une représentation de domaine fréquentiel que le réseau neuronal comprend
Inférence de transcription — le modèle vocal (Whisper ou similaire) exécute l’inférence sur le spectrogramme et produit des probabilités de token
Post-traitement — la ponctuation, la capitalisation et le formatage sont appliqués ; les segments de locuteurs peuvent être étiquetés si la diarisation fonctionne

La latence que vous expérimentez est principalement la somme de la longueur du chunk + le temps d’inférence. VAD aide en s’assurant que le modèle ne traite que l’audio contenant la parole, ce qui réduit les cycles d’inférence gaspillés et maintient le buffer roulant plus propre.

Questions fréquemment posées

Quel est le meilleur outil de transcription en temps réel gratuit pour Windows ?

Windows 11 Live Captions est vraiment bon pour un usage gratuit — il fonctionne hors ligne, supporte plus de 30 langues et nécessite zéro configuration au-delà de l’activation dans les Paramètres. Pour une précision plus élevée ou une sortie de niveau développeur, un outil basé sur Whisper local offre de meilleurs résultats au coût de quelques minutes de configuration.

Windows 10 possède-t-il une transcription en temps réel intégrée ?

Windows 10 n’inclut pas Live Captions. Vous pouvez utiliser la Reconnaissance vocale Windows pour la dictée vocale-vers-texte basique, mais il n’y a pas de panneau d’affichage en direct pour l’audio en cours. Pour la transcription en temps réel sur Windows 10, vous avez besoin d’un outil tiers qui regroupe son propre moteur vocal.

Quelle est la précision de Windows 11 Live Captions ?

Pour une parole anglaise claire et d’accent standard dans un environnement calme, Live Captions est étonnamment précis — comparable aux services cloud pour le vocabulaire courant. La précision baisse notoirement avec les accents lourds, le jargon technique, la parole qui se chevauche ou le bruit de fond. Un modèle Whisper local avec suppression du bruit active le surpasse constamment dans ces conditions.

Puis-je utiliser la transcription en temps réel pour les sous-titres de diffusion en direct ?

Oui. Le chemin pratique consiste à acheminer la sortie d’un outil basé sur Whisper dans OBS via une source de navigateur ou un plugin qui lit un fichier texte mis à jour en temps réel. Windows Live Captions n’est pas conçu pour s’intégrer directement au logiciel de diffusion. Le module de transcription de VoxBooster écrit un fichier de sous-titrage en direct que OBS peut consommer, rendant les sous-titres de streamer directs.

Quelle est la latence de la transcription Whisper locale sur un PC normal ?

La latence dépend de la taille du modèle et du GPU. Sur un GPU milieu de gamme avec un petit modèle Whisper, vous pouvez vous attendre à 300-600ms de bout en bout. CPU uniquement, même le petit modèle s’exécute 1-3 secondes en arrière. Windows Live Captions affiche généralement 200-400ms de retard en pratique, ce qui est assez rapide pour l’accessibilité mais parfois maladroit pour l’interaction en temps réel.

La transcription en temps réel fonctionne-t-elle pour plusieurs langues ?

Windows Live Captions supporte plus de 30 langues mais doit être basculé dans les paramètres système — il ne peut pas détecter automatiquement la langue au milieu d’une conversation. Whisper supporte 99 langues et peut détecter automatiquement la langue par segment, ce qui le rend beaucoup plus flexible pour les environnements multilingues ou le contenu où les locuteurs alternent les langues.

La conversion vocale en texte en temps réel est-elle assez précise pour les notes de réunion ?

Pour les réunions à un seul orateur dans une pièce calme avec un bon microphone, la précision est suffisante pour produire un brouillon utile qui nécessite une légère édition. Les réunions à plusieurs orateurs sont plus difficiles : aucun des outils en temps réel n’étiquète pas nativement les orateurs, vous finissez donc avec un mur de texte que vous devez attribuer manuellement. Les enregistreurs de réunion dédiés comme Otter.ai gèrent mieux la diarisation mais nécessitent un téléchargement cloud.

Conclusion

La transcription en temps réel sur Windows en 2026 n’est plus un outil spécialisé — elle est soit intégrée à l’OS, soit disponible via des modèles ouverts qui fonctionnent bien sur le matériel grand public. Windows 11 Live Captions est le bon point de départ pour la plupart des utilisateurs : gratuit, hors ligne et assez rapide pour l’accessibilité quotidienne et l’usage occasionnel. Si la précision importe plus que la commodité — contenu technique, plusieurs langues, diffusion avec un large public — la transcription locale basée sur Whisper offre des résultats significativement meilleurs et la configuration est moins douloureuse qu’avant.

Le principal problème restant est l’intégration. Obtenir la sortie de texte en direct dans OBS, gérer le compromis latence-précision et empêcher le modèle vocal de halluciner lorsque l’audio du jeu s’enfonce dans le signal du microphone sont tous des problèmes résolubles — mais ils nécessitent soit un wrangling Python manuel, soit un outil intégré qui gère la plomberie pour vous.

VoxBooster gère la suppression du bruit, la modification vocale, le soundboard et la transcription en direct dans un pipeline. Que vous utilisiez le module de transcription ou non, avoir de l’audio propre allant dans n’importe quel système de reconnaissance vocale en aval c’est la moitié de la bataille. Vous pouvez explorer l’ensemble complet des fonctionnalités sur la page des fonctionnalités ou consulter la tarification si vous êtes prêt à l’essayer.

Télécharger VoxBooster — essai gratuit de 3 jours, aucune carte de crédit requise.