Whisper traduction de paroles en temps réel sous Windows : guide de configuration complet

Exécutez la transcription Whisper en temps réel sur Windows avec inférence Whisper-large-v3 locale, une latence inférieure à 300ms, des sous-titres en direct et des flux de travail de commandes vocales — aucun cloud requis.

Whisper en temps réel la transcription de paroles sous Windows transforme le modèle d’un outil batch hors ligne en un moteur de transcription en direct — local, privé et assez précis pour sous-titrer un stream en direct, transcrire une réunion ou alimenter un flux de travail de commande vocale sans envoyer un seul octet vers le nuage.

Ce guide couvre : comment fonctionne l’inférence Whisper en temps réel sous le capot, les exigences matérielles pour chaque taille de modèle, trois voies de déploiement pratiques, le routage audio low-latency audio capture spécifique à Windows et comment VoxBooster intègre Whisper directement dans son pipeline audio.


Pourquoi Whisper en temps réel est différent de Whisper hors ligne

L’article Whisper original décrit un modèle sequence-to-sequence entraîné sur 680 000 heures d’audio. Vous lui donnez un fichier ; il vous retourne une transcription. C’est excellent pour le post-traitement, mais inutile si vous avez besoin de sous-titres apparaissant dans une seconde de parole.

Whisper en temps réel divise le flux du microphone en fenêtres chevauchantes — généralement 1-3 secondes. Chaque fenêtre passe indépendamment par le modèle et les résultats sont assemblés avant affichage. Le compromis est que le modèle ne voit jamais le contexte complet de la phrase, ce qui introduit occasionnellement des “hallucinations” aux limites de fenêtre. Whisper-large-v3 réduit cela significativement en gérant les segments audio courts de manière plus robuste que les versions antérieures.

L’autre facteur critique est le détecteur d’activité vocale (VAD). Sans VAD, Whisper s’exécute sur le silence et produit du texte fantôme. Silero VAD est la norme actuelle — il garantit que l’inférence ne s’exécute que lorsque la parole est présente, réduisant la latence et la charge CPU/GPU de 40-70% dans une utilisation typique.


Configuration requise

Chemin GPU (recommandé)

ModèleVRAM requisLatence typique RTX 3060
tiny1 GB~50ms
small2 GB~80ms
medium4 GB~150-250ms
large-v36 GB~200-350ms

Pour la plupart des cas d’usage de transcription — sous-titres d’accessibilité, notes de réunion, sous-titres de streamer — Whisper-medium sur une carte 4 GB atteint le point idéal entre précision et latence.

Chemin CPU

L’inférence uniquement CPU n’est pratique que pour les modèles small et tiny. Attendez-vous à 500ms-2 secondes de latence, ce qui est perceptible mais tolérable pour une utilisation non interactive comme la transcription de réunion lue plus tard. Pour les sous-titres en direct pendant une conversation, le seul CPU crée un effet de lag qui semble cassé.

Matériel audio

N’importe quel microphone fonctionne, mais la qualité du signal affecte directement la précision de la transcription. Whisper a été entraîné sur des conditions audio diverses, il gère donc le bruit raisonnablement bien, mais un casque avec microphone de proximité surpassera toujours un microphone de bureau far-field pour une utilisation en temps réel. La suppression du bruit appliquée avant l’entrée Whisper aide au prix d’ajouter une étape de traitement à votre chaîne.


Routage audio low-latency audio capture sous Windows

Windows achemine l’audio via l’API de session audio Windows (low-latency audio capture). Comprendre low-latency audio capture est nécessaire pour configurer Whisper correctement, en particulier si vous souhaitez transcrire la sortie système (ce que vous entendez) plutôt que l’entrée microphone, ou si vous souhaitez alimenter l’audio post-traité dans Whisper.

Mode exclusif vs mode partagé

Le mode exclusif donne à une application un accès matériel direct avec latence minimale, mais verrouille tous les autres. Le mode partagé permet à plusieurs applications de partager le même endpoint, Windows gérant le mixage. Pour la capture d’entrée Whisper, le mode partagé est presque toujours correct — vous voulez que Whisper lise le même flux de microphone que les autres applications utilisent, sans rien bloquer.

Capture de l’entrée du microphone

Les bibliothèques Python comme sounddevice et pyaudio accèdent aux endpoints low-latency audio capture par indice de périphérique. Exécutez ce qui suit pour lister tous les périphériques audio disponibles :

import sounddevice as sd
print(sd.query_devices())

Votre microphone apparaîtra comme un périphérique d’entrée. Notez l’index — vous le passerez en tant que paramètre device lors de l’ouverture du flux audio.

Capture de la boucle (audio système)

Pour transcrire ce qui joue via vos haut-parleurs — un appel vidéo, un jeu, tout audio d’application — utilisez la capture en boucle low-latency audio capture. Dans sounddevice, définissez low-latency audio capture_exclusive=False et ciblez le périphérique de sortie ; la bibliothèque gère la boucle en interne sur Windows. Utile pour sous-titrer les vidéoconférences ou tout flux de travail d’accessibilité nécessitant des sous-titres sur tout audio PC.


Trois voies de déploiement

Voie 1 : faster-whisper + script Python personnalisé

faster-whisper est une réimplémentation basée sur CTranslate2 de Whisper qui s’exécute 4 fois plus rapidement que l’original avec une utilisation mémoire inférieure. Il supporte toutes les tailles de modèle et s’intègre proprement avec une boucle audio en temps réel.

Configuration :

pip install faster-whisper sounddevice numpy silero-vad

La boucle de base est :

  1. Ouvrez un flux audio avec sounddevice à 16 kHz mono (la fréquence d’échantillonnage native de Whisper)
  2. Mettez en tampon l’audio entrant dans une fenêtre roulante
  3. Exécutez Silero VAD ; ignorez l’inférence si aucune parole n’est détectée
  4. Transmettez les segments de parole à la méthode transcribe() de faster-whisper avec beam_size=1 (plus rapide) ou beam_size=5 (plus précis)
  5. Imprimez ou canalisez le résultat

Cette voie offre un contrôle maximal, mais nécessite une familiarité avec Python. Budgétez 30-60 minutes pour ajuster les tailles de buffer et les seuils VAD pour votre microphone.

Voie 2 : whisper.cpp

whisper.cpp est un port C++ de Whisper qui se compile en un binaire Windows natif avec support CUDA. Il est livré avec une démo en temps réel (stream.exe) qui ouvre le microphone, exécute l’inférence avec des tailles de fenêtre configurables et imprime la sortie à stdout.

Pourquoi l’utiliser par rapport à Python ? Le temps de démarrage est quasi instantané (pas d’interpréteur Python à charger), l’utilisation de la mémoire est inférieure et il s’intègre facilement dans les chaînes d’outils non Python. La sortie en streaming peut être redirigée vers un fichier qu’OBS lit comme source de sous-titres en direct.

Étapes de construction (PowerShell) :

git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
cmake -B build -DGGML_CUDA=1
cmake --build build --config Release
.\build\bin\Release\stream.exe -m models\ggml-large-v3.bin -t 8

Voie 3 : Whisper intégré à VoxBooster

VoxBooster est livré avec l’inférence Whisper directement intégrée dans l’application — pas d’environnement Python séparé, pas de configuration CUDA manuelle. Le modèle s’exécute localement sur votre GPU via un backend optimisé, la capture audio low-latency audio capture est gérée en interne et la sortie est disponible sous forme de superposition, un fichier de sous-titres en direct pour OBS ou une entrée à faible latence pour le traitement des commandes vocales.

La différence clée par rapport aux configurations Python manuelles est l’étape de suppression du bruit intégrée. L’audio passe par la couche de suppression de VoxBooster avant d’atteindre le buffer Whisper, ce qui améliore mesurément la précision dans les environnements bruyants — bruit de ventilateur de casque, climatisation, clics de clavier — sans ajouter de latence visible à l’utilisateur. La latence bout en bout du discours au sous-titre affiché est inférieure à 300ms sur le matériel des trois dernières années.

Aucun pilote kernel n’est installé, ce qui signifie pas d’élévation UAC, pas de conflits avec les logiciels anti-triche et aucun périphérique n’apparaît dans le Gestionnaire de périphériques. Les crochets low-latency audio capture sont au niveau de la session et se ferment proprement à la fermeture de l’application.


Sous-titres en direct pour la diffusion en continu et l’accessibilité

Intégration OBS

Que vous utilisiez faster-whisper, whisper.cpp ou VoxBooster, le point d’intégration avec OBS est un fichier texte qui se met à jour en temps réel.

  1. Configurez votre outil Whisper pour écrire la sortie de transcription dans un fichier (par exemple, C:\captions\live.txt)
  2. Dans OBS, ajoutez une source Text (GDI+)
  3. Cochez Read from file et pointez-la sur le même chemin
  4. OBS interroge le fichier et met à jour la source à chaque frame

Stylisez la source de texte avec un arrière-plan semi-transparent pour la maintenir lisible sur les séquences de jeu ou les webcams.

Cas d’usage d’accessibilité

Pour les utilisateurs malentendants, les sous-titres Whisper sur Windows offrent plusieurs avantages par rapport aux Live Captions de Windows 11 :

  • Précision supérieure pour le vocabulaire technique, les accents forts et les langues non anglaises
  • Affichage personnalisable : taille de police, position, couleur et persistance
  • Multi-entrée : alimentez à la fois le microphone et la boucle dans la même instance Whisper
  • Entièrement hors ligne : pas de dépendance aux serveurs de reconnaissance vocale de Microsoft

Pour les utilisateurs Windows 10 sans accès à Live Captions, Whisper local est l’option d’accessibilité en temps réel principale qui ne nécessite pas d’abonnement.


Flux de travail de commande vocale

La reconnaissance vocale Whisper est assez précise pour alimenter les systèmes de commande vocale ambiante — des flux de travail où vous prononcez des commandes à votre PC sans appuyer sur une touche ou cliquer sur un bouton.

L’architecture ressemble généralement à ceci :

Microphone → Filtre VAD → Whisper → Tampon de texte → Analyseur d'intention → Distributeur d'actions

L’analyseur d’intention peut être aussi simple qu’un dictionnaire Python de phrases d’déclenchement mappées aux appels subprocess.run() ou aussi sophistiqué qu’un modèle de langage local qui traite les commandes en langage naturel. Pour les jeux et la création de contenu, les commandes courantes sont :

  • Démarrer/arrêter l’enregistrement
  • Basculer les scènes OBS
  • Déclencher des clips soundboard
  • Couper/activer le microphone

Parce que Whisper est local, il n’y a pas de latence de round-trip cloud. La contrainte est le temps d’inférence : Whisper-medium prend 150-250ms par bloc — imperceptible pour la diffusion en continu, limite pour le contrôle de jeu en temps réel. Un spotifié de mot-clé comme openwakeword peut agir comme un chemin rapide pour les commandes courantes (moins de 50ms), avec Whisper gérant tout le reste.


Précision : à quoi s’attendre

Whisper-large-v3 atteint environ 3-5% de taux d’erreur de mot sur un audio anglais propre — compétitif avec les services cloud commerciaux. En mode temps réel avec des fenêtres 1-3 secondes, attendez-vous à 5-8% WER en raison du contexte réduit par appel d’inférence.

Facteurs qui améliorent la précision :

  • Meilleur placement du microphone : casque de proximité vs microphone de bureau far-field est facilement une différence de 2-3% WER
  • Suppression du bruit avant l’entrée : le pré-filtrage réduit les hallucinations déclenchées par le bruit de fond
  • Taille du beam : l’augmentation de 1 à 5 améliore la précision au prix d’environ 50ms de latence supplémentaire par bloc
  • Température : la définition de temperature=0 (greedy decoding) réduit la variance dans la sortie et empêche le modèle de “halluciner” des transcriptions créatives d’audio ambigu

Facteurs qui nuisent à la précision :

  • Fractionnement des limites de fenêtre : les mots qui tombent exactement à la limite entre les fenêtres d’inférence sont sujets aux erreurs — le buffering de chevauchement atténue cela
  • Hallucinations de silence : sans VAD, Whisper transcrit fréquemment le silence en tant que phrases de remplissage — toujours exécuter VAD
  • Lacune de fine-tuning : le Whisper vanilla n’a pas été entraîné sur le commentaire de gaming ou les accents régionaux lourds — attendez-vous à plus d’erreurs là-bas

Choix entre Whisper en temps réel et Windows 11 Live Captions

CritèreWindows 11 Live CaptionsWhisper local
Temps de configuration~90 secondes15-60 minutes
Précision (EN propre)BonExcellent (large-v3)
Précision (accents/jargon)ÉquitableBon–Excellent
Support des langues30+ langues99 langues
Latence200-400ms150-800ms (dépendant du GPU)
Intégration OBSAucuneSortie de fichier
Hors ligneOuiOui
Support Windows 10NonOui
ConfidentialitéLocale (Microsoft)Entièrement locale
Coût matérielAucunLe GPU aide significativement

Si vous êtes sur Windows 11 et avez seulement besoin de sous-titres anglais pour l’accessibilité avec une configuration minimale, Live Captions est la bonne réponse. Si vous avez besoin du support Windows 10, d’une précision supérieure sur des domaines spécifiques, de sous-titres OBS, de commandes vocales ou d’un contrôle sur le pipeline de transcription, Whisper local est le meilleur choix.


Commencer aujourd’hui

Le chemin le plus rapide vers une transcription Whisper en temps réel fonctionnelle :

  1. Avec VoxBooster : ouvrez l’application, allez à Paramètres → Transcription, activez Whisper, sélectionnez la taille du modèle. Tout le reste est géré automatiquement, y compris le routage audio, VAD et le fichier de sortie OBS.

  2. Faster-whisper manuel : pip install faster-whisper sounddevice silero-vad, puis adaptez l’un des exemples de streaming du GitHub faster-whisper. Attendez 30 minutes pour obtenir un prototype fonctionnel.

  3. whisper.cpp : clonez, compilez avec CUDA, exécutez stream.exe. Configuration la plus rapide parmi les chemins manuels si vous êtes à l’aise avec CMake.

Whisper en temps réel sur Windows n’est plus expérimental. Avec le bon modèle, un GPU de milieu de gamme et une entrée audio propre, vous obtenez une qualité de transcription et une latence qui correspondent ou surpassent les services cloud commerciaux — sans que votre parole ne quitte la machine.

Essayez VoxBooster — essai gratuit de 3 jours.

Clonage vocal en temps réel, soundboard et effets — partout où vous parlez déjà.

  • Sans carte bancaire
  • ~30 ms de latence
  • Discord · Teams · OBS
Essayer gratuitement 3 jours