Cómo Transcribir Llamadas de Discord (Gratis, Local, 2026)

Aprende a transcribir llamadas de Discord gratis usando Whisper AI local, sin bots ni subidas a la nube. Guía paso a paso sobre grabación, precisión y consejos para múltiples hablantes.

Cómo transcribir llamadas de Discord es una pregunta que surge constantemente en las comunidades de juegos, equipos en línea, grupos de podcasters y equipos de moderación, y la respuesta no es obvia porque Discord no te ofrece ninguna forma integrada de hacerlo. Esta publicación explica exactamente cómo obtener una transcripción limpia y precisa de cualquier llamada de Discord usando herramientas gratuitas, explica las compensaciones realistas entre los métodos locales y en la nube, y te muestra un flujo de trabajo paso a paso con Whisper local que mantiene tu audio completamente fuera de servidores de terceros.


TL;DR

  • Discord no tiene transcripción nativa: primero debes grabar la llamada y luego transcribir el archivo de audio
  • La mejor opción local gratuita es OpenAI Whisper, que se ejecuta completamente en tu propio PC
  • Graba con OBS Studio (captura de audio del escritorio) o el bot Craig (pistas por hablante)
  • Transcribe con whisper audio.mp3 --model small desde la línea de comandos, o usa una aplicación de escritorio
  • Para el etiquetado de múltiples hablantes, combina Whisper con pyannote.audio o usa un servicio en la nube
  • Informa siempre a los participantes que estás grabando; los requisitos de consentimiento varían según el país y el estado de EE. UU.

Por Qué la Gente Transcribe el Chat de Voz de Discord

Discord comenzó como una aplicación de chat para jugadores, pero ha crecido hasta convertirse en una capa de infraestructura para equipos independientes, comunidades en línea, creadores de contenido y proyectos de trabajo remoto. Como resultado, las llamadas que se producen en los canales de voz de Discord no siempre son casuales: son reuniones de trabajo, grabaciones de podcasts, sesiones de estrategia de guilds, audiencias de moderación y llamadas con clientes.

Estas son las principales razones por las que la gente quiere transcribir las llamadas de Discord:

Notas de reunión y responsabilidad. Muchos servidores gestionados por la comunidad toman decisiones verbalmente por voz. Una transcripción da a todos los miembros un registro en el que buscar sin depender de la memoria de alguien o de un copia-pega descuidado del chat del stream.

Accesibilidad. Los miembros sordos o con dificultades auditivas necesitan versiones de texto de las conversaciones de voz. Incluso para los usuarios con buena audición, las transcripciones permiten ponerse al día de forma asíncrona sin tener que escuchar una grabación completa.

Reutilización de contenido. Los podcasters y streamers que graban conversaciones en Discord quieren una transcripción aproximada antes de editar: acelera la búsqueda de marcas de tiempo, la generación de notas del programa y la extracción de citas para las redes sociales.

Registros de moderación. Los moderadores de servidores a veces necesitan documentar lo que se dijo durante un conflicto o un incidente de acoso. Una transcripción es más fácil de revisar y compartir con un proceso de apelación que un archivo de audio de una hora.

Dictado y notas de podcast. Los escritores y creadores en solitario usan las llamadas de Discord como medio de dictado: hablan sus ideas y luego pasan la grabación por Whisper para obtener un primer borrador. La precisión de Whisper en el habla clara es suficiente para hacer esto genuinamente útil.


¿Tiene Discord una Función de Transcripción Nativa?

Discord no tiene transcripción integrada de llamadas a partir de 2026. La plataforma sí ofrece subtítulos en vivo en los canales de voz, una función de accesibilidad que genera subtítulos en tiempo real mientras habla la gente, pero esos subtítulos solo existen durante la sesión y nunca se guardan. Una vez que todos abandonan el canal, los subtítulos desaparecen.

Los subtítulos en vivo de Discord usan un motor de reconocimiento de voz basado en la nube y no producen una transcripción descargable. No hay historial de transcripción, no hay opción de exportación y no existe una API que te permita extraer los datos de los subtítulos después del hecho. Si necesitas un registro permanente de lo que se dijo, debes encargarte tú mismo de la grabación y la transcripción.


Cómo Transcribir Llamadas de Discord: El Flujo de Trabajo Central

La respuesta central a cómo transcribir las llamadas de Discord es un proceso de dos pasos: graba el audio, luego ejecuta el reconocimiento de voz en el archivo.

El paso 1 es necesario porque Discord no expone flujos de audio en bruto a herramientas de escritorio de terceros en tiempo real sin un dispositivo de audio virtual o un bot dedicado. El paso 2 puede hacerse localmente (gratuito, privado) o con un servicio en la nube (soporte más fácil para múltiples hablantes, cuesta dinero o tiene límites de uso).

Aquí está el flujo de trabajo local completo de principio a fin.

Paso 1: Graba la Llamada de Discord

Tienes tres opciones sólidas dependiendo de tu situación:

OBS Studio (gratuito, sin bot requerido)

  1. Descarga e instala OBS Studio si aún no lo tienes.
  2. En OBS, ve a Ajustes → Salida → Grabación. Configura el formato a WAV o FLAC para mayor precisión de transcripción (MP3 también está bien, simplemente de menor calidad).
  3. En el Mezclador de Audio, asegúrate de que “Audio del escritorio” está habilitado. Esto captura todo lo que sale de tus altavoces/auriculares, incluida la voz de Discord.
  4. Opcionalmente añade una fuente de Micrófono/Aux para capturar tu propia voz en una pista separada: útil para la precisión de la transcripción y la diarización de múltiples hablantes más adelante.
  5. Empieza a grabar antes de que comience la llamada. Detén la grabación cuando todos se desconecten.
  6. Encuentra la grabación en la ruta que configuraste (predeterminada: carpeta Vídeos).

Bot Craig (nivel gratuito disponible, pistas por hablante)

Craig es un bot de Discord creado específicamente para grabar. Invítalo a tu servidor, escribe /join en un canal de voz y grabará a cada participante en una pista de audio separada. Después de la llamada, te envía un enlace de descarga con archivos FLAC individuales por hablante. Esto facilita mucho la diarización: ya sabes qué archivo pertenece a qué hablante.

El nivel gratuito de Craig cubre la mayoría de las necesidades de grabación de la comunidad. El formato por hablante es la mayor ventaja sobre OBS para la transcripción de llamadas grupales.

Grabación Integrada de VoxBooster (solo Windows)

VoxBooster incluye una capa de grabación de audio que captura el audio procesado, así que si también estás ejecutando efectos de voz o supresión de ruido durante la llamada, la grabación refleja lo que la otra parte realmente escuchó. La salida es un archivo WAV limpio listo para transcribir. Como todo el procesamiento es local, nada se sube a ningún servidor.

Paso 2: Transcribe la Grabación con Whisper

OpenAI Whisper es un modelo de reconocimiento de voz gratuito y de código abierto que se ejecuta completamente en tu PC. Sin cuenta, sin clave de API, sin límite de uso. Lee más sobre cómo configurarlo en nuestra guía de transcripción con Whisper en Windows.

Instalación de Whisper

Necesitas Python 3.9–3.12 y ffmpeg en el PATH. Instala Whisper con pip:

pip install openai-whisper

Verifica que ffmpeg está accesible:

ffmpeg -version

Si da error, instala ffmpeg con winget: winget install Gyan.FFmpeg

Ejecutar una Transcripción

whisper discord_call.wav --model small --language es --output_format txt
  • --model small es un buen valor predeterminado: ~244 MB, rápido, preciso en habla limpia
  • --language es omite la detección de idioma y acelera el proceso si conoces el idioma
  • --output_format txt da un archivo de texto sin formato; usa srt si quieres subtítulos con marcas de tiempo

Para una grabación de una hora en una CPU moderna, el modelo small tarda aproximadamente 8–15 minutos. Con una GPU Nvidia (CUDA), baja a menos de 2 minutos.

Ubicación de salida: Whisper guarda la transcripción en la misma carpeta que el archivo fuente de forma predeterminada.


Comparación de Métodos de Transcripción

MétodoCostePrivacidadPrecisiónMúltiples hablantesEsfuerzo de configuración
Whisper local (CLI)GratuitoCompletamente localAlta (modelo small/medium)No (solo palabras)Medio: necesita Python + ffmpeg
Whisper local + pyannoteGratuitoCompletamente localAltaSí (etiquetas de hablante)Alto: librería extra, GPU recomendada
Bot Craig + WhisperGratuitoEl bot tiene acceso a tu audioAltaSí (archivos por pista)Bajo-medio
AssemblyAI / DeepgramPago por minutoSubida a la nubeMuy altaSí (integrado)Bajo: solo clave de API
Otter.aiFreemiumSubida a la nubeBuenaMuy bajo: basado en navegador
Subtítulos en vivo de DiscordGratuitoNube (Discord)BásicaNoNinguno: integrado, no se guarda

La elección correcta depende de tu modelo de amenaza. Si transcribes conversaciones sensibles de moderación o llamadas de negocios internas, Whisper local mantiene el audio completamente fuera de servidores de terceros. Si eres un podcaster que solo quiere buenas notas del programa rápidamente, un servicio en la nube como AssemblyAI tiene menos fricción. Para la mayoría de los jugadores y gestores de comunidades, la combinación de OBS + Whisper local ofrece el equilibrio ideal.


Gestión de Múltiples Hablantes en la Transcripción de Audio de Discord

Whisper produce un único flujo de texto. No sabe que “Oye, no estoy de acuerdo con eso” vino de una persona y “Déjame terminar” vino de otra. Para llamadas sencillas de dos personas, esto es manejable: puedes leer la transcripción y deducir el contexto. Para llamadas con cinco o más hablantes, el texto sin etiquetar se vuelve difícil de usar.

Opción 1: Archivos por Hablante de Craig

Si grabaste con Craig, ya tienes archivos FLAC separados por participante. Ejecuta Whisper en cada archivo de forma independiente:

whisper alice.flac --model small --output_format txt
whisper bob.flac --model small --output_format txt

Luego fusiona las salidas con marcas de tiempo cronológicamente. Las marcas de tiempo que produce Whisper ([00:00 --> 00:15]) te permiten intercalarlas. Es manual pero el enfoque más fiable.

Opción 2: pyannote.audio para la Diarización

pyannote.audio es una librería de diarización de hablantes de código abierto. Combinada con Whisper, produce una salida como esta:

[SPEAKER_00] 00:00:02 - 00:00:08: Deberíamos mover el evento al sábado.
[SPEAKER_01] 00:00:09 - 00:00:14: De acuerdo, el domingo está muy ocupado para la mitad del servidor.

La configuración es más compleja (token de Hugging Face para los pesos del modelo, GPU muy recomendada), pero la salida es mucho más útil para las notas de reuniones. Consulta el repositorio GitHub de pyannote para las instrucciones de instalación actuales, ya que la API cambia entre versiones.

Opción 3: Nube con Diarización Integrada

Servicios como AssemblyAI y Deepgram ofrecen diarización de hablantes como opción de un clic en sus APIs. Subes el archivo, especificas diarization: true y recibes JSON etiquetado. La contrapartida es que tu audio abandona tu máquina; tenlo en cuenta en tu decisión si el contenido de la llamada es sensible.


Grabación y Transcripción de Discord: Consentimiento y Consideraciones Legales

Antes de grabar y transcribir conversaciones de Discord, debes pensar en el consentimiento. No es solo una cuestión de etiqueta, es un requisito legal en muchos lugares.

Consentimiento de una parte vs. de todas las partes. En EE. UU., la ley federal (ECPA) permite el consentimiento de una parte: puedes grabar una llamada en la que participas sin notificarlo a los demás. Pero aproximadamente doce estados de EE. UU., incluidos California, Illinois y Florida, requieren el consentimiento de todas las partes. Grabar una llamada con un residente de California sin su conocimiento podría exponerte a responsabilidad civil.

UE y RGPD. En la UE, grabar la voz de alguien constituye un procesamiento de datos personales. Necesitas una base legal, generalmente el consentimiento explícito. Informa a los participantes y obtén un reconocimiento verbal al inicio de la llamada.

Las reglas de Discord. Las Directrices de la Comunidad de Discord y los Términos de Servicio no prohíben explícitamente la grabación de llamadas por parte de los participantes, pero distribuir grabaciones para dañar o acosar a otros viola las directrices. Si grabas con fines de moderación, sigue las normas de tu propio servidor y mantén las grabaciones seguras.

Mejor práctica: Anúncialo en voz alta al principio. “Oye, estoy grabando esta llamada para tomar notas” es suficiente para el consentimiento en la mayoría de los contextos. Para cualquier cosa formal, obtén un reconocimiento en texto en el chat del servidor.


Mejora de la Precisión de Transcripción para el Audio de Discord

El códec Opus de Discord comprime el audio de forma agresiva. Las grabaciones de los canales de voz de Discord tienden a tener más artefactos de compresión que una grabación de micrófono local, lo que puede perjudicar la precisión de Whisper con hablantes de voz más baja o acentos no nativos.

Algunas cosas que ayudan:

Supresión de ruido antes de grabar. Ejecutar la supresión de ruido durante la llamada (integrada en el cliente de Discord o a través de una aplicación de escritorio) produce un audio fuente más limpio para la transcripción. La supresión de ruido local de VoxBooster, por ejemplo, procesa el audio en tiempo real sin dependencia de la nube; y como el procesamiento ocurre en el dispositivo, puedes grabar directamente la salida limpia. Consulta cómo funcionan las funciones de voz en Discord.

Usa un modelo de Whisper superior para audio difícil. Si el modelo small produce texto incomprensible en una grabación ruidosa, prueba medium o large-v3. El salto de precisión es significativo en el habla muy comprimida o con acento.

Mono vs. estéreo. Whisper funciona mejor con grabaciones mono. Si tu configuración de OBS graba en estéreo (canal izquierdo micrófono, canal derecho Discord), convierte a mono con ffmpeg antes de transcribir:

ffmpeg -i stereo_recording.wav -ac 1 mono_recording.wav

Especifica el idioma. Si todos en la llamada hablan español, pasa --language es a Whisper. Omitir la detección de idioma elimina un posible punto de fallo y acelera el primer pase.

Prompt inicial. Whisper acepta un argumento --initial_prompt que orienta el modelo hacia el vocabulario que ve en el prompt. Si tu llamada trata sobre un juego específico o un tema técnico, preparar el modelo con términos relevantes puede reducir los errores en nombres propios:

whisper call.wav --initial_prompt "estrategia de juego de Valorant, selección de agentes, control de zona"

Transcripción de Discord con Whisper sin la Línea de Comandos

No todo el mundo quiere ejecutar comandos de Python. Si prefieres una interfaz gráfica, hay algunas opciones:

VoxBooster incluye conversión de voz a texto de calidad Whisper con una interfaz gráfica. Puedes arrastrar un archivo de audio a la pantalla de transcripción y obtener un archivo de texto sin abrir una terminal. Todo el procesamiento se ejecuta en tu PC: ningún archivo abandona tu máquina. Descarga VoxBooster para probarlo, o consulta las opciones de precios si quieres el conjunto completo de funciones incluyendo el dictado en tiempo real durante las llamadas.

Whisper Desktop / Whisper Transcriber. Existen varios envoltorios de interfaz gráfica de código abierto alrededor de Whisper en GitHub. La calidad varía y tienen menos mantenimiento activo, pero funcionan si solo necesitas una transcripción de archivos de apuntar y hacer clic.

whisper.cpp con un frontend de interfaz gráfica. El puerto whisper.cpp es una implementación en C++ que no requiere Python. Algunos frontends de la comunidad lo envuelven en una interfaz sencilla de arrastrar y soltar. Consulta nuestra guía sobre dictado con Whisper para Windows para más contexto sobre las configuraciones de Whisper en escritorio.


Uso de Transcripciones para Notas de Reuniones de Discord

Una vez que tienes una transcripción en bruto, el siguiente reto es convertirla en algo útil. La salida de Whisper es un muro denso de texto con marcas de tiempo pero sin formato. Aquí hay un flujo de trabajo de limpieza rápida:

  1. Elimina las marcas de tiempo si no las necesitas. Un editor de texto con buscar y reemplazar mediante expresiones regulares lo hace rápidamente: busca \[\d{2}:\d{2}\.\d{3} --> \d{2}:\d{2}\.\d{3}\] y reemplaza con nada.
  2. Añade etiquetas de hablante usando el enfoque de diarización descrito anteriormente, o manualmente si conoces bien la llamada.
  3. Pásalo por un resumidor. Pega la transcripción limpia en cualquier interfaz de chat de LLM y pídele que produzca elementos de acción en formato de lista. Esto convierte una llamada desordenada de una hora en un resumen de cinco puntos en unos 30 segundos.
  4. Publica en tu servidor. Pega el resumen (no la transcripción en bruto) en un canal dedicado #notas-de-reunion. Tus miembros pueden buscarlo, enlazarlo y responsabilizar a las personas por lo que realmente se dijo.

Preguntas Frecuentes

¿Discord tiene transcripción integrada?

No. A partir de 2026, Discord no tiene función nativa de transcripción de llamadas. Discord ofrece subtítulos en vivo en los canales de voz como opción de accesibilidad, pero esos subtítulos no se guardan en ningún lugar: desaparecen cuando finaliza la sesión. Para obtener una transcripción permanente, debes grabar la llamada y transcribir el audio por separado.

¿Es legal grabar y transcribir una llamada de Discord?

Depende de tu jurisdicción. Muchos estados de EE. UU. solo requieren el consentimiento de una parte (puedes grabar una llamada en la que participas sin avisarle a la otra parte), pero algunos estados y la mayoría de los países de la UE requieren el consentimiento de todas las partes. Informa siempre a los participantes antes de grabar. Los propios Términos de Servicio de Discord no prohíben la grabación, pero cumplir con la ley local sobre escuchas es tu responsabilidad.

¿Cuál es la transcripción gratuita más precisa para el audio de Discord?

El modelo large-v3 de OpenAI Whisper ofrece tasas de error de palabras inferiores al 5% en audio limpio y es completamente gratuito para ejecutarse localmente. Para las llamadas de Discord grabadas con unos auriculares decentes en un entorno tranquilo, el modelo small o medium de Whisper suele ser suficientemente preciso y mucho más rápido que large-v3.

¿Puedo transcribir llamadas de Discord con múltiples hablantes?

Whisper por sí solo no hace diarización de hablantes: transcribe las palabras pero no etiqueta quién dijo qué. Para obtener una salida etiquetada por hablante, debes combinar Whisper con una herramienta de diarización como pyannote.audio, o usar un servicio en la nube como AssemblyAI que gestiona la diarización de forma nativa. La diarización local funciona pero requiere más configuración.

¿Cómo grabo una llamada de Discord en Windows?

El método más sencillo es OBS Studio configurado para capturar el audio del escritorio o un cable de audio virtual. Enruta la salida de Discord hacia la fuente de grabación, inicia la sesión y exporta la grabación como WAV o MP3 al terminar la llamada. El bot Craig es una opción nativa de Discord popular que graba a cada hablante en una pista separada.

¿Cuánto tarda Whisper en transcribir una grabación de Discord de una hora?

En una CPU moderna (Ryzen 5 / Core i5) con el modelo small, espera aproximadamente 8–15 minutos para una grabación de una hora. Con una GPU de gama media (RTX 3060 o mejor) y el modelo medium, el mismo archivo se transcribe en menos de 3 minutos. El modelo large-v3 en GPU lo gestiona en 5–8 minutos con mayor precisión.

¿Qué formato de audio acepta Whisper para la transcripción de Discord?

Whisper acepta WAV, MP3, FLAC, M4A, OGG y la mayoría de los formatos de audio comunes porque usa ffmpeg internamente. Las grabaciones de Discord guardadas como MP3 o WAV funcionan perfectamente. Si grabas con OBS, exporta como WAV para mayor precisión: los formatos comprimidos pueden introducir artefactos que perjudican la calidad de la transcripción.


Conclusión

Cómo transcribir llamadas de Discord se reduce a dos pasos: graba el audio con OBS o Craig, luego pásalo por Whisper localmente. Esa combinación es gratuita, precisa y privada: tu audio nunca abandona tu máquina. Para las llamadas grupales, combina las grabaciones de Craig por hablante con pases individuales de Whisper, o añade pyannote.audio para la diarización automatizada si no te importa más configuración. Los servicios en la nube son una alternativa razonable cuando necesitas la diarización desde el primer momento y la privacidad es menos prioritaria.

Si quieres saltarte la configuración de la línea de comandos por completo, VoxBooster incluye transcripción local de calidad Whisper en una aplicación de escritorio para Windows junto con efectos de voz en tiempo real, supresión de ruido y soundboard: todo el procesamiento en el dispositivo, sin controlador de kernel requerido. Es una solución todo en uno práctica para cualquiera que ya pase mucho tiempo en los canales de voz de Discord y quiera que su flujo de trabajo se mantenga sin conexión y sea rápido.

Prueba VoxBooster — 3 días gratis.

Clonación de voz en tiempo real, soundboard y efectos — donde ya hablas.

  • Sin tarjeta
  • ~30ms de latencia
  • Discord · Teams · OBS
Probar 3 días gratis