Cómo Configurar Transcripción con Whisper en Windows (Local + Gratis)

Transcripción con Whisper en Windows te da reconocimiento de voz offline preciso que se ejecuta completamente en tu propio hardware — sin suscripción, sin subir a nube, sin costo por minuto. Esta guía cubre todo desde los requisitos previos hasta el uso en producción: la instalación pip en Python, el puerto más ligero whisper.cpp, apps GUI ya hechas, y qué hacer cuando quieres transcripción en tiempo real sin un entorno Python.

TL;DR

OpenAI Whisper es un modelo de reconocimiento de voz libre y de código abierto con cinco niveles de tamaño (tiny → large-v3)
Instala con pip install openai-whisper en Python 3.9–3.12; necesita ffmpeg en PATH
whisper.cpp es un puerto C++ más ligero — sin Python, funciona en CPU vía cuantificación GGML
GPU (CUDA) reduce el tiempo de transcripción a casi tiempo real incluso en modelos grandes; CPU funciona bien para el modelo small
Para transcripción en vivo sin ninguna configuración Python, VoxBooster agrupa STT local a nivel de Whisper con una tecla global de acceso directo
Errores comunes: ffmpeg faltante, entorno Python incorrecto, desajuste de versión CUDA

¿Qué es Transcripción con Whisper?

OpenAI Whisper es un sistema de reconocimiento automático de voz (ASR) de código abierto entrenado en 680.000 horas de audio multilingüe. Lanzado en septiembre de 2022 y mejorando continuamente desde entonces, se ejecuta como un modelo local — lo que significa que tus archivos de audio nunca salen de tu PC. Maneja 99 idiomas, agrega puntuación automáticamente y logra tasas de error de palabras por debajo del 5% en audio inglés limpio con el modelo large-v3.

A diferencia de servicios en nube (Otter.ai, Rev, capa de transcripción de Descript), Whisper en Windows no tiene costo por minuto ni política de datos de la que preocuparse. Transcripción con Whisper es genuinamente gratis una vez que se descargan los pesos del modelo.

Requisitos Previos Antes de Instalar

Antes de elegir un método de instalación, aclara estas dependencias:

Python 3.9–3.12. El paquete oficial de Whisper requiere Python. Verifica si lo tienes:

py --version

Si no, descarga el instalador 3.12 más reciente de python.org. Durante la instalación, marca “Add Python to PATH” — esto es importante.

ffmpeg. Whisper usa ffmpeg para decodificar archivos de audio y video. Sin él, obtendrás FileNotFoundError o salida en blanco en cualquier cosa que no sea un WAV sin procesar. El método de instalación más rápido en Windows 10/11:

winget install Gyan.FFmpeg

Luego abre una nueva terminal y verifica: ffmpeg -version.

Una GPU (opcional pero recomendada). Whisper se ejecuta en CPU, pero una GPU NVIDIA con capacidad CUDA marca una diferencia significativa. Para el modelo large, la transcripción de un archivo de 10 minutos en CPU toma 3–6 minutos en un escritorio moderno; en una GPU de rango medio (RTX 3060, 12 GB VRAM) toma aproximadamente 40 segundos. Más sobre tamaños de modelo y requisitos de VRAM en la tabla a continuación.

Tamaños de Modelo de Whisper: Cuál Elegir

Modelo	Parámetros	VRAM (FP16)	Velocidad relativa	WER inglés	Mejor para
tiny	39 M	~1 GB	~32× tiempo real	~5,7%	Borradores rápidos, hardware de bajo nivel
base	74 M	~1 GB	~16× tiempo real	~4,2%	Notas rápidas, streaming en vivo
small	244 M	~2 GB	~6× tiempo real	~3,0%	Mayoría de usuarios — mejor valor
medium	769 M	~5 GB	~2× tiempo real	~2,2%	Transcripción profesional
large-v3	1550 M	~10 GB	~1× tiempo real	~1,6%	Acentos, multilingüe, médico

El “factor tiempo real” (RTF) aquí significa inferencia GPU en una NVIDIA A100. En una RTX 3080 de consumidor, multiplica aproximadamente por 3–4×. En CPU, multiplica por 10–20× nuevamente.

Para la mayoría de usuarios de Windows: comienza con small. Se ejecuta casi en tiempo real en una CPU moderna, maneja acentos mejor que base, y cabe en 2 GB de RAM/VRAM. Si la precisión en vocabulario técnico denso importa (legal, médico, revisión de código), prueba medium a continuación.

Método 1: Instalación con pip (Paquete Python Oficial)

Esta es la instalación canónica de openai whisper en windows — directa si te sientes cómodo con una terminal. Te da la máxima flexibilidad: acceso completo a la API de Python, todos los formatos de salida (txt, srt, vtt, json, tsv), e integración fácil con otros scripts.

Paso 1 — Crea un entorno virtual (recomendado)

py -m venv whisper-env
whisper-env\Scripts\activate

Esto mantiene las dependencias de Whisper aisladas de tu Python del sistema.

Paso 2 — Instala Whisper

pip install openai-whisper

Esto descarga la librería del modelo y sus dependencias (PyTorch, tiktoken, tqdm, more-itertools). Espera 1–3 GB de descargas en la primera ejecución incluyendo PyTorch.

Paso 3 — Instala PyTorch con CUDA (si tienes una GPU NVIDIA)

El PyTorch predeterminado del comando anterior es solo CPU. Para aceleración GPU:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

Coincide el sufijo cu121 con tu versión CUDA instalada (nvidia-smi la muestra). Mira la matriz de instalación de PyTorch si no estás seguro.

Paso 4 — Ejecuta tu primera transcripción

whisper my_audio.mp3 --model small

La primera ejecución descarga los pesos del modelo (~244 MB para small). Las ejecuciones posteriores son instantáneas. Salida: archivos .txt, .srt, y .vtt junto a tu audio.

Paso 5 — Banderas útiles

# Fuerza inglés (salta detección de idioma, ligeramente más rápido)
whisper audio.mp3 --model small --language en

# Salida solo texto plano
whisper audio.mp3 --model small --output_format txt

# Transcribe un segmento específico (segundos)
whisper audio.mp3 --model small --clip_timestamps "30,90"

# Usa dispositivo GPU explícitamente
whisper audio.mp3 --model medium --device cuda

Método 2: whisper.cpp (Sin Python Requerido)

whisper.cpp es una reimplementación en C/C++ del motor de inferencia de Whisper. Se ejecuta sin Python, CUDA, o PyTorch. En Windows, usa pesos cuantificados GGML — el mismo formato usado por llama.cpp — y puede acelerar vía OpenBLAS (CPU) o DirectML (GPUs de AMD/Intel/NVIDIA sin CUDA).

¿Por qué usarlo en lugar del paquete Python?

Se inicia en menos de un segundo (sin inicialización de PyTorch)
Usa 30–50% menos RAM en el mismo modelo
Se envía como un único .exe — más fácil de agrupar en scripts u otras apps
Modo streaming disponible para transcripción casi en tiempo real

Pasos de instalación en Windows

Los binarios precompilados para Windows están disponibles en la página de lanzamientos de whisper.cpp en GitHub. Descarga whisper-bin-x64.zip, extráelo, luego descarga un modelo:

# Usando PowerShell — descarga el modelo small GGML
Invoke-WebRequest -Uri "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.bin" -OutFile "models\ggml-small.bin"

Ejecuta transcripción:

.\main.exe -m models\ggml-small.bin -f audio.wav -otxt

Nota: whisper.cpp requiere entrada WAV (16 kHz, mono, 16-bit PCM). Convierte con ffmpeg primero:

ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav

Método 3: Apps GUI Construidas sobre Whisper

Si no quieres una terminal en absoluto, varias apps GUI de código abierto envuelven Whisper para una experiencia de click-to-transcribe en Windows:

Whisper Desktop — una app de Windows .NET 6 que envuelve whisper.cpp con una interfaz de arrastrar y soltar. Soporta selección de modelo, idioma y procesamiento por lotes. No requiere Python; instalador disponible en GitHub.

UIs basadas en FasterWhisper — FasterWhisper es una reimplementación Python usando CTranslate2 que se ejecuta 4× más rápido que el original en CPU. Varios envoltorios GUI comunitarios existen; busca “faster-whisper GUI Windows” en GitHub. Estos funcionan bien para transcripción de archivos por lotes.

Subtitle Edit — un editor de subtítulos de código abierto popular que agregó integración con Whisper. Bueno para flujos de trabajo de subtitulación de video donde quieres salida SRT que puedas ajustar manualmente.

Estas apps GUI cubren bien la transcripción basada en archivos. La brecha que no llenan: transcripción en vivo en tiempo real con una tecla de acceso directo, lo que lleva a la siguiente sección.

Método 4: VoxBooster (Agrupado, Sin Configuración Python)

Si tu objetivo es transcripción en vivo — subtítulos mientras hablas, dictado en cualquier app, subtitulación de una llamada — los métodos basados en archivos anteriores no son el ajuste correcto. Están diseñados para procesar un archivo de audio completado, no un flujo de micrófono continuo.

VoxBooster agrupa reconocimiento de voz local a nivel de Whisper directamente en la app. Sin entorno Python, sin asistente de descarga de modelo, sin dependencia ffmpeg. Instalas VoxBooster una vez y el motor de transcripción está listo bajo Dictation en la barra lateral.

Diferencias prácticas vs. la instalación raw con pip:

Tecla global de acceso directo — mantén Ctrl+Shift+D en cualquier app y habla; el texto aparece en tu cursor
Supresión de ruido integrada — limpia la entrada del micrófono antes de que llegue al modelo de voz, lo que mejora significativamente la precisión en salas ruidosas
Sin terminal — la selección de modelo y configuración de idioma están en una GUI
Agrupado con cambio de voz, soundboard y clonación de voz — si ya estás usando VoxBooster para cambio de voz de Discord u OBS, la característica de dictado es solo otra pestaña

Para una mirada más profunda al flujo de trabajo de dictado, mira la guía de dictado de voz en Windows.

Elegir Entre Métodos

	pip Whisper	whisper.cpp	Apps GUI	VoxBooster
Python requerido	Sí	No	A veces	No
GPU necesaria	No (opcional)	No (opcional)	No (opcional)	No (opcional)
En vivo en tiempo real	No	Parcial	No	Sí
Tecla global de acceso directo	No	No	No	Sí
Transcripción de archivo por lotes	Sí	Sí	Sí	No
Salida SRT/VTT	Sí	Sí	Sí	No
Complejidad de instalación	Medio	Medio	Bajo	Bajo

Elige pip whisper si necesitas salida SRT/VTT para subtítulos de video, o quieres scriptear transcripción por lotes en Python. Elige whisper.cpp si quieres un binario portátil con menor sobrecarga de memoria. Elige una app GUI para transcripción de archivo de arrastrar y soltar. Elige VoxBooster si quieres dictado en vivo sin una instalación Python.

Patrones de Uso Básico CLI

Una vez que tengas el paquete pip funcionando, estos patrones cubren el 90% de casos de uso real.

Transcribe una grabación de reunión a subtítulos SRT

whisper meeting.mp4 --model medium --language en --output_format srt

Whisper puede leer archivos de video directamente (llama ffmpeg internamente). Salida: meeting.srt en la misma carpeta.

Transcribe una carpeta de archivos de audio

for %f in (*.mp3) do whisper "%f" --model small --output_format txt

Ejecuta en Command Prompt (no PowerShell — la sintaxis del bucle for difiere). Cada archivo obtiene su propia salida .txt.

Fuerza traducción al inglés

whisper french_audio.mp3 --model small --task translate

--task translate emite inglés independientemente del idioma de entrada. Útil para entrevistas multilingües.

Especifica directorio de salida

whisper audio.mp3 --model small --output_dir C:\Transcripts

Errores Comunes y Correcciones

No module named 'whisper' Instalaste whisper en un entorno Python diferente al que está activo actualmente. Ejecuta py -0 para listar todos los Pythons instalados, activa el virtualenv correcto, luego reinstala. También posible: instalaste con pip3 pero estás ejecutando con py.

FileNotFoundError: [WinError 2] ffmpeg ffmpeg no está en tu PATH. Instala vía winget install Gyan.FFmpeg, cierra y reabre tu terminal, luego confirma con ffmpeg -version.

CUDA out of memory Estás ejecutando un modelo demasiado grande para la VRAM de tu GPU. Prueba el siguiente tamaño más pequeño, o añade --fp16 False para forzar FP32 (usa más VRAM pero a veces arregla problemas de asignación en ciertos builds de CUDA). Alternativamente, ejecuta en CPU con --device cpu.

RuntimeError: Expected all tensors to be on the same device Desajuste de versión de CUDA en PyTorch. Reinstala PyTorch con el sufijo CUDA correcto para la versión de tu driver. Verifica tu driver con nvidia-smi y haz referencia cruzada en pytorch.org/get-started/locally.

La salida es ininteligible o en el idioma equivocado Whisper detecta automáticamente idioma de los primeros 30 segundos de audio. Si tu archivo tiene silencio o ruido al inicio, la detección falla. Corrección: añade --language en (o tu idioma objetivo) explícitamente.

La transcripción es lenta incluso con una GPU Confirma que Whisper está realmente usando CUDA: añade --device cuda a tu comando. Si ves FP16 is not supported on CPU; using FP32 instead en la salida, CUDA no está siendo usado — rechecka tu instalación de PyTorch.

Whisper vs. Otras Opciones de Transcripción en Windows

Vale la pena saber contra qué estás comparando antes de comprometerte con una configuración:

Reconocimiento de voz integrado de Windows / dictado (Win+H) — rápido y bien integrado, pero la precisión se queda atrás en acentos, vocabulario técnico, e inglés no estadounidense. Dependencia parcial de nube en modo predeterminado. Sin salida SRT.

Dragon NaturallySpeaking / Dragon Professional — históricamente el punto de referencia de precisión, fuerte para flujos de trabajo de dictado, pero caro ($300–$500), solo Windows, y lento para agregar vocabulario para nuevos dominios. Procesamiento local, lo que es una ventaja.

Otter.ai, Rev, transcripción de Descript — basado en nube, con precio de suscripción, precisión genuinamente buena, pero el audio deja tu máquina. No viable para reuniones privadas, grabaciones legales, o cualquier cosa bajo NDA.

Azure Cognitive Services / Google Speech-to-Text — APIs de desarrollador, basado en nube, pago por minuto. Preciso, pero requiere código y una conexión a internet. No un equivalente de instalación local whisper, y la precisión de transcripción whisper es competitiva a cero costo continuo.

Las fortalezas de Whisper vs. todos los anteriores: libre, completamente local, pesos de código abierto que puedes verificar, soporte fuerte multilingüe, y precisión que es competitiva con servicios pagados en audio limpio. Su debilidad: ningún modo nativo de streaming en tiempo real en el paquete Python, y la configuración requiere cierta comodidad con CLI.

Privacidad: Por Qué Local Importa para Transcripción

Cuando ejecutas Whisper localmente en Windows, el audio nunca toca un servidor externo. Esto importa más de lo que la mayoría de la gente se da cuenta — y es uno de los argumentos prácticos más grandes para transcripción con Whisper sobre alternativas en nube pagadas:

Las grabaciones de reuniones a menudo contienen información comercial confidencial
Dictado médico y legal está sujeto a regulaciones de privacidad (HIPAA, GDPR, etc.)
Entrevistas de periodistas y conversaciones de fuentes nunca deberían ir a APIs en nube
Notas de voz personal, entradas de diario, transcripciones de sesiones de terapia — cosas que preferirías no tener en el servidor de alguien más

Los servicios de transcripción en nube tienen políticas de privacidad, pero “no vendemos tus datos” y “podemos usar audio anonimizado para mejorar modelos” son declaraciones diferentes. Con una instalación local whisper en Windows, la respuesta a ambas es irrelevante — el audio se queda en tu disco.

FAQ

¿Whisper de OpenAI se ejecuta offline en Windows? Sí. Una vez que descargas los pesos del modelo, Whisper se ejecuta 100% localmente — sin conexión a internet requerida. La descarga inicial varía entre 75 MB (tiny) y 3,09 GB (large-v3). Después de eso, la transcripción ocurre completamente en tu CPU o GPU sin que los datos salgan de tu máquina.

¿Qué GPU necesito para transcripción con Whisper en Windows? Una GPU es opcional pero acelera mucho las cosas. Para el modelo small, 2 GB de VRAM es suficiente. Medium necesita 5 GB, large-v3 necesita 10 GB. Solo con CPU, el modelo base transcribe aproximadamente 10–15× en tiempo real en un i5/Ryzen 5 moderno, lo que significa que un minuto de audio toma alrededor de 4–6 segundos.

¿Cuál es la diferencia entre los tamaños de modelo de Whisper? Whisper viene en cinco tamaños — tiny, base, small, medium, y large (con variantes large-v2 y large-v3). Los modelos más grandes son más precisos pero más lentos y pesados. Para la mayoría de usuarios de Windows, small ofrece la mejor relación precisión-velocidad: ~244 MB, buena precisión multilingüe, se ejecuta en CPU aproximadamente en tiempo real en hardware moderno.

¿Puedo usar Whisper para transcripción en vivo en tiempo real en Windows? El paquete Python original de Whisper se basa en archivos y no está diseñado para tiempo real. whisper.cpp tiene un modo de streaming, pero la configuración es compleja. Para transcripción en vivo genuinamente de baja latencia — subtítulos mientras hablas, dictado, subtitulación de llamadas — una app agrupada como VoxBooster es más fácil: precisión a nivel de Whisper sin requerir entorno Python.

¿Qué tan preciso es OpenAI Whisper comparado con Dragon NaturallySpeaking o Dictado de Windows? En audio limpio, Whisper large-v3 publica tasas de error de palabras por debajo del 5% en la mayoría de idiomas, competitivo con Dragon Professional y mejor que el dictado integrado de Windows en vocabulario técnico, acentos y contenido multilingüe. La precisión disminuye en condiciones ruidosas, pero combinando Whisper con supresión de ruido se restaura la mayoría.

¿Qué es whisper.cpp y por qué lo usaría en lugar del paquete Python? whisper.cpp es un puerto en C/C++ del modelo Whisper que se ejecuta sin Python o CUDA. En Windows, usa pesos cuantificados GGML y puede aprovechar DirectML u OpenBLAS para aceleración. Se inicia más rápido, usa menos RAM y es más fácil de integrar en otras apps que el paquete Python.

¿Cómo corrijo el error “No module named whisper” en Windows? Esto usualmente significa que la instalación pip se hizo en un entorno Python diferente al que estás ejecutando. Verifica con py -0 para listar Pythons instalados, activa el virtualenv correcto, luego reinstala: pip install openai-whisper. También confirma que tienes ffmpeg en PATH — Whisper lo necesita para decodificar archivos de audio.

Conclusión: ¿Cuál es la Configuración Correcta de Transcripción con Whisper para Ti?

Si necesitas transcripción de archivo por lotes con salida SRT/VTT — para subtítulos de video, grabaciones de reuniones, notas de show de podcast — la instalación openai whisper basada en pip en windows es el camino más flexible. Agrega soporte CUDA para tu GPU y obtienes rendimiento casi en tiempo real incluso en medium.

Si quieres una huella más pequeña o estás construyendo un script que llama whisper como un subproceso, whisper.cpp con pesos GGML es la opción más limpia para una instalación whisper local en Windows — sin Python, sin CUDA, solo un binario y un archivo de modelo.

Si quieres integración de reconocimiento de voz local de Windows sin ningún trabajo terminal — específicamente dictado en vivo en apps — VoxBooster agrupa la misma precisión a nivel de Whisper con una tecla global de acceso directo y supresión de ruido integrada. Sin Python, sin entornos virtuales, sin solución de problemas de ffmpeg. Es particularmente útil si ya estás usando la app para cambio de voz o trabajo de soundboard; la característica de transcripción whisper de escritorio es solo otra pestaña en la misma interfaz.

Comienza con el modelo small independientemente de cuál camino tomes. Te lleva al 80% de la calidad de large-v3 a una fracción del costo de cómputo. Siempre puedes actualizar después una vez que sabes qué nivel de precisión tu flujo de trabajo realmente requiere.

Para opciones de precios y planes, mira voxbooster.com/#pricing.