Como Configurar Transcrição Whisper no Windows (Local + Gratuito)

Transcrição Whisper no Windows oferece conversão de fala em texto precisa e offline que roda inteiramente no seu próprio hardware — sem assinatura, sem upload na nuvem, sem taxa por minuto. Este guia abrange tudo, desde pré-requisitos até uso em produção: a instalação via pip do Python, a porta whisper.cpp mais leve, apps com GUI prontos, e o que fazer quando você quer transcrição em tempo real sem um ambiente Python.

TL;DR

OpenAI Whisper é um modelo de reconhecimento de fala gratuito e open-source com cinco camadas de tamanho (tiny → large-v3)
Instale via pip install openai-whisper em Python 3.9–3.12; precisa ffmpeg no PATH
whisper.cpp é uma porta C++ mais leve — sem Python, funciona em CPU via quantização GGML
GPU (CUDA) reduz tempo de transcrição para quase tempo real até em modelos grandes; CPU funciona bem para o modelo small
Para transcrição ao vivo sem nenhuma configuração Python, VoxBooster empacota STT local de nível Whisper com hotkey global
Erros comuns: ffmpeg faltando, ambiente Python errado, incompatibilidade de versão CUDA

O que é Transcrição Whisper?

OpenAI Whisper é um sistema de reconhecimento automático de fala (ASR) open-source treinado em 680.000 horas de áudio multilíngue. Lançado em setembro de 2022 e continuamente melhorado desde então, funciona como um modelo local — significando que seus arquivos de áudio nunca saem do seu PC. Ele lidar com 99 idiomas, pontua automaticamente e consegue taxas de erro de palavra abaixo de 5% em áudio em inglês limpo com o modelo large-v3.

Diferentemente de serviços na nuvem (Otter.ai, Rev, camada de transcrição do Descript), Whisper no Windows não tem custo por minuto e nenhuma política de dados com a qual se preocupar. Transcrição Whisper é genuinamente gratuita depois que os pesos do modelo são baixados.

Pré-requisitos Antes de Instalar

Antes de escolher um método de instalação, resolva essas dependências:

Python 3.9–3.12. O pacote Whisper oficial exige Python. Verifique se você o tem:

py --version

Se não tiver, baixe o instalador 3.12 mais recente de python.org. Durante a instalação, marque “Adicionar Python ao PATH” — isso importa.

ffmpeg. Whisper usa ffmpeg para decodificar arquivos de áudio e vídeo. Sem ele, você vai receber FileNotFoundError ou saída em branco em qualquer coisa que não seja WAV bruto. O método de instalação mais rápido no Windows 10/11:

winget install Gyan.FFmpeg

Depois abra um novo terminal e verifique: ffmpeg -version.

Uma GPU (opcional mas recomendada). Whisper roda em CPU, mas uma GPU NVIDIA compatível com CUDA faz uma diferença significativa. Para o modelo large, transcrição em CPU de um arquivo de 10 minutos leva 3–6 minutos em um desktop moderno; em uma GPU mid-range (RTX 3060, 12 GB VRAM) leva cerca de 40 segundos. Mais informações sobre tamanhos de modelo e requisitos de VRAM na tabela abaixo.

Tamanhos de Modelo Whisper: Qual Escolher

Modelo	Parâmetros	VRAM (FP16)	Velocidade relativa	WER Inglês	Melhor para
tiny	39 M	~1 GB	~32× tempo real	~5,7%	Rascunhos rápidos, hardware low-end
base	74 M	~1 GB	~16× tempo real	~4,2%	Anotações rápidas, live streaming
small	244 M	~2 GB	~6× tempo real	~3,0%	Maioria dos usuários — melhor custo-benefício
medium	769 M	~5 GB	~2× tempo real	~2,2%	Transcrição profissional
large-v3	1550 M	~10 GB	~1× tempo real	~1,6%	Sotaques, multilíngue, médico

“Fator tempo real” (RTF) aqui significa inferência GPU em um NVIDIA A100. Em um RTX 3080 consumer, multiplique aproximadamente por 3–4×. Em CPU, multiplique por 10–20× novamente.

Para a maioria dos usuários Windows: comece com small. Ele roda quase tempo real em uma CPU moderna, lida com sotaques melhor que base e cabe em 2 GB de RAM/VRAM. Se precisão em vocabulário técnico denso importa (legal, médico, reviews de código), teste medium depois.

Método 1: pip Install (Pacote Python Oficial)

Esta é a instalação canônica openai whisper windows — direta se você se sente confortável com um terminal. Ela oferece a máxima flexibilidade: acesso completo à API Python, todos os formatos de saída (txt, srt, vtt, json, tsv) e fácil integração com outros scripts.

Passo 1 — Crie um ambiente virtual (recomendado)

py -m venv whisper-env
whisper-env\Scripts\activate

Isto mantém as dependências do Whisper isoladas do seu Python de sistema.

Passo 2 — Instale Whisper

pip install openai-whisper

Isto obtém a biblioteca de modelo e suas dependências (PyTorch, tiktoken, tqdm, more-itertools). Espere 1–3 GB de downloads na primeira execução incluindo PyTorch.

Passo 3 — Instale PyTorch com CUDA (se você tem uma GPU NVIDIA)

O PyTorch padrão do comando acima é apenas CPU. Para aceleração GPU:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

Combine o sufixo cu121 com sua versão CUDA instalada (nvidia-smi mostra). Veja a matriz de instalação PyTorch se tiver dúvidas.

Passo 4 — Execute sua primeira transcrição

whisper my_audio.mp3 --model small

Primeira execução baixa os pesos do modelo (~244 MB para small). Execuções subsequentes são instantâneas. Saída: um arquivo .txt, .srt e .vtt ao lado do seu áudio.

Passo 5 — Flags úteis

# Force English (skip language detection, slightly faster)
whisper audio.mp3 --model small --language en

# Output only plain text
whisper audio.mp3 --model small --output_format txt

# Transcribe a specific segment (seconds)
whisper audio.mp3 --model small --clip_timestamps "30,90"

# Use GPU device explicitly
whisper audio.mp3 --model medium --device cuda

Método 2: whisper.cpp (Sem Python Necessário)

whisper.cpp é uma reimplementação C/C++ do motor de inferência Whisper. Ele funciona sem Python, CUDA ou PyTorch. No Windows, usa pesos quantizados GGML — o mesmo formato usado por llama.cpp — e pode acelerar via OpenBLAS (CPU) ou DirectML (GPUs AMD/Intel/NVIDIA sem CUDA).

Por que usá-lo em vez do pacote Python?

Inicia em menos de um segundo (sem inicialização PyTorch)
Usa 30–50% menos RAM no mesmo modelo
Vem como um único .exe — mais fácil de empacotar em scripts ou outros apps
Modo streaming disponível para transcrição quase tempo real

Passos de instalação Windows

Binários Windows pré-construídos estão disponíveis na página de releases do whisper.cpp no GitHub. Baixe whisper-bin-x64.zip, extraia, depois baixe um modelo:

# Usando PowerShell — baixa o modelo small GGML
Invoke-WebRequest -Uri "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.bin" -OutFile "models\ggml-small.bin"

Execute transcrição:

.\main.exe -m models\ggml-small.bin -f audio.wav -otxt

Nota: whisper.cpp requer entrada WAV (16 kHz, mono, 16-bit PCM). Converta com ffmpeg primeiro:

ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav

Método 3: Apps com GUI Construído em Whisper

Se você não quer um terminal em tudo, vários apps GUI open-source envolvem Whisper para uma experiência click-to-transcribe no Windows:

Whisper Desktop — um app Windows .NET 6 que envolve whisper.cpp com interface drag-and-drop. Suporta seleção de modelo, idioma e processamento em lote. Não requer Python; instalador disponível no GitHub.

UIs Baseadas em FasterWhisper — FasterWhisper é uma reimplementação Python usando CTranslate2 que roda 4× mais rápido que o original em CPU. Vários wrappers GUI comunitários existem; procure por “faster-whisper GUI Windows” no GitHub. Funcionam bem para transcrição em lote de arquivos.

Subtitle Edit — um editor de subtítulos open-source popular que adicionou integração Whisper. Bom para fluxos de trabalho de subtitulação de vídeo onde você quer saída SRT que pode ajustar manualmente.

Estes apps com GUI cobrem bem a transcrição baseada em arquivo. A lacuna que não preenchem: transcrição ao vivo em tempo real com hotkey, o que leva à próxima seção.

Método 4: VoxBooster (Empacotado, Sem Configuração Python)

Se seu objetivo é transcrição ao vivo — legendas enquanto você fala, ditado em qualquer app, legendação de chamada — os métodos baseados em arquivo acima não são a opção certa. Eles são projetados para processar um arquivo de áudio completo, não um fluxo contínuo de microfone.

VoxBooster empacota reconhecimento de fala local de nível Whisper diretamente no app. Nenhum ambiente Python, nenhum assistente de download de modelo, nenhuma dependência ffmpeg. Você instala VoxBooster uma vez e o motor de transcrição está pronto em Ditado na barra lateral.

Diferenças práticas vs. a instalação bruta de pip:

Hotkey global — segure Ctrl+Shift+D em qualquer app e fale; o texto aparece no seu cursor
Supressão de ruído integrada — limpa a entrada do microfone antes de chegar ao modelo de fala, o que melhora significativamente a precisão em salas barulhentas
Sem terminal — seleção de modelo e configurações de idioma estão em uma GUI
Empacotado com voice changer, soundboard e voice clone — se você já está usando VoxBooster para mudança de voz Discord ou OBS, o recurso ditado é apenas outra aba

Para um olhar mais profundo no fluxo de trabalho de ditado, veja o guia de ditado de voz no Windows.

Escolhendo Entre Métodos

	pip Whisper	whisper.cpp	Apps com GUI	VoxBooster
Python obrigatório	Sim	Não	Às vezes	Não
GPU necessária	Não (opcional)	Não (opcional)	Não (opcional)	Não (opcional)
Live tempo real	Não	Parcial	Não	Sim
Hotkey global	Não	Não	Não	Sim
Transcrição de arquivo em lote	Sim	Sim	Sim	Não
Saída SRT/VTT	Sim	Sim	Sim	Não
Complexidade de instalação	Médio	Médio	Baixo	Baixo

Escolha pip whisper se você precisa de saída SRT/VTT para subtítulos de vídeo, ou quer fazer script de transcrição em lote em Python. Escolha whisper.cpp se quer um binário portátil com menor overhead de memória. Escolha um app com GUI para transcrição de arquivo drag-and-drop. Escolha VoxBooster se quer ditado ao vivo sem uma instalação Python.

Padrões de Uso CLI Básico

Uma vez que você tem o pacote pip funcionando, estes padrões cobrem 90% dos casos de uso real.

Transcreva uma gravação de reunião para legendas SRT

whisper meeting.mp4 --model medium --language en --output_format srt

Whisper pode ler arquivos de vídeo diretamente (chama ffmpeg internamente). Saída: meeting.srt na mesma pasta.

Transcreva uma pasta de arquivos de áudio

for %f in (*.mp3) do whisper "%f" --model small --output_format txt

Execute no Command Prompt (não PowerShell — a sintaxe do loop for é diferente). Cada arquivo obtém sua própria saída .txt.

Force tradução para inglês

whisper french_audio.mp3 --model small --task translate

--task translate produz English independentemente do idioma de entrada. Útil para entrevistas multilíngues.

Especifique diretório de saída

whisper audio.mp3 --model small --output_dir C:\Transcripts

Erros Comuns e Correções

No module named 'whisper' Você instalou whisper em um ambiente Python diferente do que está ativo atualmente. Execute py -0 para listar todas as instalações Python, ative o virtualenv correto, depois reinstale. Também possível: você instalou com pip3 mas está executando com py.

FileNotFoundError: [WinError 2] ffmpeg ffmpeg não está no seu PATH. Instale via winget install Gyan.FFmpeg, feche e reabra seu terminal, depois confirme com ffmpeg -version.

CUDA out of memory Você está executando um modelo muito grande para VRAM da sua GPU. Tente o próximo tamanho menor, ou adicione --fp16 False para forçar FP32 (usa mais VRAM mas às vezes corrige problemas de alocação em certas construções CUDA). Alternativamente, execute em CPU com --device cpu.

RuntimeError: Expected all tensors to be on the same device Incompatibilidade de versão PyTorch CUDA. Reinstale PyTorch com o sufixo CUDA correto para sua versão de driver. Verifique seu driver com nvidia-smi e referencie em pytorch.org/get-started/locally.

Saída é embaralhada ou no idioma errado Whisper detecta automaticamente o idioma dos primeiros 30 segundos de áudio. Se seu arquivo tem silêncio ou ruído no início, a detecção falha. Correção: adicione --language en (ou seu idioma alvo) explicitamente.

Transcrição é lenta até com GPU Confirme que Whisper está realmente usando CUDA: adicione --device cuda ao seu comando. Se você ver FP16 is not supported on CPU; using FP32 instead na saída, CUDA não está sendo usado — recheck sua instalação PyTorch.

Whisper vs. Outras Opções de Transcrição Windows

Vale a pena saber contra o que você está comparando antes de se comprometer com uma configuração:

Reconhecimento de fala integrado do Windows / ditado (Win+H) — rápido e bem integrado, mas precisão fica atrás em sotaques, vocabulário técnico e inglês não-US. Dependência parcial de nuvem no modo padrão. Sem saída SRT.

Dragon NaturallySpeaking / Dragon Professional — historicamente o benchmark de precisão, forte para fluxos de trabalho de ditado, mas caro ($300–$500), apenas Windows e lento para adicionar vocabulário para novos domínios. Processamento local, que é uma vantagem.

Otter.ai, Rev, transcrição Descript — baseado em nuvem, com preço de assinatura, genuinamente boa precisão, mas áudio sai da sua máquina. Não viável para reuniões privadas, gravações legais ou qualquer coisa sob NDA.

Azure Cognitive Services / Google Speech-to-Text — APIs de desenvolvedor, baseadas em nuvem, pagamento por minuto. Preciso, mas requer código e conexão com internet. Não é equivalente a uma instalação whisper local e a precisão de transcrição whisper é competitiva a zero custo contínuo.

Forças do Whisper vs. todos acima: gratuito, totalmente local, pesos open-source que você pode verificar, suporte multilíngue forte e precisão competitiva com serviços pagos em áudio limpo. Sua fraqueza: nenhum modo streaming nativo em tempo real no pacote Python e a configuração requer um pouco de conforto com CLI.

Privacidade: Por que Local Importa para Transcrição

Quando você roda Whisper localmente no Windows, áudio nunca toca um servidor externo. Isto importa mais do que a maioria das pessoas percebe — e é um dos maiores argumentos práticos para transcrição Whisper sobre alternativas pagas na nuvem:

Gravações de reunião frequentemente contêm informações comerciais confidenciais
Ditado médico e legal está sujeito a regulações de privacidade (HIPAA, GDPR, etc.)
Entrevistas de jornalista e conversas de fonte nunca devem ir para APIs de nuvem
Notas de voz pessoais, entradas de diário, transcritos de sessão de terapia — coisas que você preferiria não ter no servidor de outra pessoa

Serviços de transcrição na nuvem têm políticas de privacidade, mas “não vendemos seus dados” e “podemos usar áudio anonimizado para melhorar modelos” são statements diferentes. Com uma instalação whisper local no Windows, a resposta para ambos é irrelevante — o áudio fica no seu disco.

FAQ

OpenAI Whisper roda offline no Windows? Sim. Depois de baixar os pesos do modelo, o Whisper funciona 100% localmente — sem conexão com a internet. O download inicial varia de 75 MB (tiny) a 3,09 GB (large-v3). Depois disso, a transcrição acontece inteiramente na sua CPU ou GPU sem que nenhum dado saia da sua máquina.

Que GPU preciso para transcrição Whisper no Windows? Uma GPU é opcional mas acelera bastante. Para o modelo small, 2 GB de VRAM é suficiente. Medium precisa de 5 GB, large-v3 precisa de 10 GB. Só em CPU, o modelo base transcreve aproximadamente 10–15× tempo real em um i5/Ryzen 5 moderno, ou seja, um minuto de áudio leva cerca de 4–6 segundos.

Qual é a diferença entre os tamanhos de modelo Whisper? Whisper vem em cinco tamanhos — tiny, base, small, medium e large (com variantes large-v2 e large-v3). Modelos maiores são mais precisos mas mais lentos e pesados. Para a maioria dos usuários Windows, small oferece a melhor relação precisão-velocidade: ~244 MB, boa precisão multilíngue, roda em CPU em aproximadamente tempo real em hardware moderno.

Posso usar Whisper para transcrição ao vivo em tempo real no Windows? O pacote Python Whisper original é baseado em arquivo e não foi projetado para tempo real. whisper.cpp tem um modo streaming, mas a configuração é complexa. Para genuína transcrição ao vivo com baixa latência — legendas enquanto você fala, ditado, legendação de chamadas — um app empacotado como VoxBooster é mais fácil: precisão de nível Whisper sem nenhuma configuração de ambiente Python.

Quão preciso é OpenAI Whisper comparado a Dragon NaturallySpeaking ou Ditado Windows? Em áudio limpo, Whisper large-v3 atinge taxas de erro de palavra abaixo de 5% na maioria dos idiomas, competitivo com Dragon Professional e melhor que o ditado integrado do Windows em vocabulário técnico, sotaques e conteúdo multilíngue. A precisão diminui em condições ruidosas, mas combinar Whisper com supressão de ruído restaura a maioria.

O que é whisper.cpp e por que eu usaria em vez do pacote Python? whisper.cpp é uma porta C/C++ do modelo Whisper que funciona sem Python ou CUDA. No Windows, usa pesos quantizados GGML e pode aproveitar DirectML ou OpenBLAS para aceleração. Inicia mais rápido, usa menos RAM e é mais fácil de integrar em outros apps que o pacote Python.

Como corrijo o erro “No module named whisper” no Windows? Isso geralmente significa que a instalação pip foi para um ambiente Python diferente do que você está usando. Verifique com py -0 para listar os Pythons instalados, ative o virtualenv correto, depois reinstale: pip install openai-whisper. Também confirme que você tem ffmpeg no PATH — Whisper precisa dele para decodificar arquivos de áudio.

Conclusão: Qual Configuração de Transcrição Whisper é Certa para Você?

Se você precisa de transcrição de arquivo em lote com saída SRT/VTT — para subtítulos de vídeo, gravações de reunião, notas de show de podcast — a instalação openai whisper windows baseada em pip é o caminho mais flexível. Adicione suporte CUDA para sua GPU e você obtém throughput quase tempo real até em medium.

Se você quer um footprint menor ou está construindo um script que chama whisper como subprocess, whisper.cpp com pesos GGML é a opção mais limpa para uma instalação whisper local no Windows — sem Python, sem CUDA, apenas um binário e um arquivo de modelo.

Se você quer integração local de conversão de fala em texto Windows sem nenhum trabalho de terminal — especificamente ditado ao vivo em apps — VoxBooster empacota a mesma precisão de nível Whisper com um hotkey global e supressão de ruído integrada. Sem Python, sem ambientes virtuais, sem troubleshooting de ffmpeg. É particularmente útil se você já está usando o app para mudança de voz ou trabalho de soundboard; o recurso de transcrição de desktop whisper é apenas outra aba na mesma interface.

Comece com o modelo small independentemente do caminho que você tomar. Ele o leva 80% do caminho para a qualidade large-v3 com uma fração do custo de computação. Você sempre pode fazer upgrade depois uma vez que sabe qual nível de precisão seu fluxo de trabalho realmente requer.

Para opções de preço e plano, veja voxbooster.com/#pricing.