Cómo mezclar tu voz con música de fondo: guía para streamers y podcasters

Mezclar tu voz con música de fondo es una de esas tareas que parecen sencillas hasta que las haces en directo. De repente tu voz queda enterrada, la música aplasta al chat o un bot de DMCA borra tres horas de contenido a las 2 de la madrugada. Hacerlo bien requiere entender algunos principios de audio, el enrutamiento correcto en OBS y una biblioteca de música que no ponga en riesgo tu canal.

Esta guía cubre el panorama completo: niveles objetivo, configuración de ducking, enrutamiento en el Audio Mixer de OBS, fuentes de música DMCA-safe y consideraciones sobre Discord. Tanto si llevas un podcast con música lo-fi de fondo como si haces streaming en Twitch con una intro a todo volumen, los principios son los mismos.

TL;DR

Objetivo para la voz: -12 LUFS integrados. Objetivo para la música de fondo: -20 LUFS o menos.
El ducking (compresión sidechain) baja la música automáticamente cuando hablas; configúralo una vez y olvídate.
En OBS, enruta la música y el micrófono como fuentes separadas, nunca en el mismo dispositivo.
Opciones DMCA-safe: Twitch Soundtrack, Pretzel Rocks, StreamBeats, Lofi Girl — evita Spotify, Apple Music y radio comercial.
Los bots de música de Discord funcionan bien para crear ambiente en llamadas de equipo; un enrutamiento separado mantiene los niveles limpios.
El audio vocal limpio importa más que cualquier técnica de mezcla elaborada — prioriza la supresión de ruido antes de preocuparte por la compresión sidechain.

Por qué la voz y la música chocan (y cómo los niveles lo solucionan)

La voz humana se concentra principalmente en el rango de 300 Hz a 4 kHz, con las claves de inteligibilidad entre 1 y 4 kHz. La mayoría de la música también es densa en ese mismo rango, excepto los bajos y el bombo. Cuando ambas señales llegan a tu mezcla de stream con una sonoridad similar, compiten por el mismo espacio espectral y de volumen. Los espectadores no pueden seguir lo que dices y la experiencia resulta agotadora.

La solución no es eliminar uno de los dos elementos, sino establecer una jerarquía de sonoridad clara antes que nada.

La regla -12 / -20 LUFS

LUFS (Loudness Units relative to Full Scale) es la métrica que utilizan los estándares modernos de broadcast, plataformas de streaming y podcasting para medir la sonoridad percibida. Es mejor que el dB de pico porque tiene en cuenta cómo el oído humano percibe el sonido sostenido.

Voz: -12 LUFS integrados — aquí es donde se sitúa la voz de los podcasts para una escucha cómoda con auriculares o altavoces, y coincide con los objetivos de normalización de reproducción de YouTube y Spotify.
Música de fondo: -18 a -20 LUFS — a este nivel la música es claramente audible como ambiente sin enmascarar la voz.

Esa diferencia de 6 a 8 LUFS es percibida por el oído humano como la música situada “por debajo” de la voz, no compitiendo con ella.

Para medir LUFS en un contexto de streaming, el plugin gratuito Youlean Loudness Meter funciona en cualquier DAW y como VST en OBS (mediante el filtro VST en una fuente de audio). Graba un segmento corto de prueba, revisa la lectura de LUFS integrados y ajusta los faders en consecuencia. Una vez calibrado, puedes confiar en las posiciones del fader de OBS en futuras sesiones.

Enrutamiento del Audio Mixer de OBS para voz y música

OBS Studio tiene un sistema de enrutamiento de audio sorprendentemente capaz que la mayoría de los streamers nunca llega a utilizar del todo. Esta configuración te da control independiente sobre cada elemento.

Paso 1 — Identifica tus fuentes

En OBS > Ajustes > Audio, asigna tu micrófono a una entrada dedicada:

Entrada Mic/Aux — tu micrófono (por ejemplo, “Micrófono de auriculares” o tu condensador USB)
Audio de escritorio — captura todo lo que suena a través de los altavoces o auriculares

El problema de depender solo del Audio de escritorio es que lo mezcla todo: audio del juego, sonidos de notificaciones, pestañas del navegador, música… y pierdes el control individual.

Paso 2 — Añade tu reproductor de música como fuente separada

En lugar de dejar que la música entre en el Audio de escritorio, enrútala por un canal dedicado:

En OBS, haz clic en + en Fuentes > Captura de Audio de Aplicación (Windows) o Captura de Entrada de Audio.
Selecciona tu reproductor de música (Pretzel, Spotify, una pestaña del navegador con StreamBeats, etc.).
Así obtendrás un fader separado en el Audio Mixer de OBS.

Alternativamente, usa un cable virtual de audio (VB-Cable o Voicemeeter) para enrutar la salida de tu reproductor a un dispositivo virtual dedicado y luego captura ese dispositivo como una fuente separada en OBS. Este método funciona incluso si tu reproductor no aparece en Captura de Audio de Aplicación.

Paso 3 — Ajusta los niveles de los faders

Con las fuentes separadas, abre las Propiedades de Audio Avanzadas (icono de engranaje en cualquier fader del mixer > Avanzado):

Fuente	Nivel objetivo (dB)	Monitor	Asignación de pistas
Micrófono	-12 LUFS / picos a -6 dBFS	Monitor desactivado	Pistas 1 y 2
Música de fondo	-20 LUFS / picos a -16 dBFS	Solo monitor	Solo pista 1
Audio del juego / escritorio	-18 dBFS promedio	Monitor desactivado	Pistas 1 y 2

Asignar la música solo a la Pista 1 (salida de stream) pero no a la Pista 2 (pista de grabación dedicada) significa que las grabaciones locales serán de voz y juego únicamente, lo que resulta útil si quieres reeditar VODs más adelante.

Paso 4 — Filtros en el canal del micrófono

Añade estos filtros a tu fuente de micrófono (clic derecho > Filtros):

Supresión de ruido — usa RNNoise o conéctalo a un supresor externo (consulta nuestra guía sobre software de supresión de ruido)
Compresor — Ratio 3:1, Umbral -18 dB, Ataque 6 ms, Release 60 ms. Esto mantiene tu voz a un nivel consistente incluso cuando te echas hacia atrás.
Limitador — techo a -3 dBFS para evitar que los picos de clipping lleguen al stream.

Una voz bien comprimida es mucho más fácil de equilibrar con la música porque no oscila bruscamente entre lo suave y lo alto.

Ducking de audio: control automático de volumen que realmente funciona

El ducking es la técnica por la que la música de fondo baja automáticamente de volumen cuando se detecta tu voz y vuelve a su nivel original durante los silencios. La radio de broadcast lleva décadas usando esto. Es la forma más suave de mezclar voz con música de fondo para streaming porque elimina la necesidad de mover el fader manualmente.

Cómo funciona la compresión sidechain

En una configuración de DAW completo (Reaper, Ableton, Logic), el ducking se implementa mediante compresión sidechain:

La señal del micrófono se enruta como entrada sidechain de un compresor insertado en el canal de música.
Cuando el volumen del micrófono supera un umbral (por ejemplo, -20 dBFS), el compresor reduce la ganancia del canal de música en una ratio determinada (típicamente 4:1 a 8:1).
El tiempo de ataque controla la rapidez con que la música baja (10–30 ms suena natural). El tiempo de release controla la rapidez con que vuelve (200–500 ms — muy rápido suena a bombeo, muy lento deja la música baja después de que dejes de hablar).
La ganancia de compensación del compresor se fija en cero (quieres que el nivel con ducking sea más bajo que sin él).

Ducking en OBS sin DAW

OBS no tiene compresión sidechain nativa, pero hay dos enfoques prácticos:

Opción A — Plugin obs-audio-ducking

El plugin de la comunidad obs-audio-ducking añade un filtro que utiliza la señal del micrófono para reducir otras fuentes. Instálalo desde el Plugin Manager de OBS, añádelo como filtro a tu fuente de música y configura:

Umbral: -25 dB (se activa cuando hablas a volumen normal)
Cantidad de ducking: -10 a -14 dB (cuánto baja la música cuando hablas)
Tiempo de subida: 200 ms
Tiempo de bajada: 400 ms

Opción B — Mezclador virtual Voicemeeter

Enruta el audio a través de Voicemeeter Banana (gratuito), que tiene un compresor integrado en cada bus. Asigna la música al Bus B y el micrófono al Bus A. Usa el compresor del bus en B con A como fuente de disparo. OBS captura entonces la salida procesada del Bus B como canal de música.

Opción C — VoxBooster + música separada

Si usas VoxBooster para efectos de voz en tu stream, tu voz ya está en una salida de micrófono virtual. Puedes aplicar ducking a nivel de enrutamiento de VoxBooster y mantener la música enrutada por separado en OBS, lo que simplifica considerablemente la cadena de señal.

Música libre de DMCA para streaming: lo que realmente necesitas saber

Aquí es donde los streamers se meten en problemas. Poner música en un stream en directo o en un VOD grabado sin la licencia adecuada puede resultar en:

VODs silenciados — el escaneo de Content ID de Twitch marca los streams grabados a posteriori
Avisos de retirada DMCA — que requieren acción en 24 horas
Advertencias de canal — tres advertencias pueden significar la eliminación en YouTube
Suspensiones de Twitch — las infracciones repetidas conllevan baneos escalonados

Las opciones más seguras, por orden de comodidad:

Twitch Soundtrack

Twitch Soundtrack es la herramienta integrada de Twitch que permite reproducir música licenciada durante una transmisión en directo. Enruta la música directamente al stream sin capturarla en la grabación local, lo que significa que tus VODs y clips quedan automáticamente limpios de DMCA.

Limitación: Twitch Soundtrack solo cubre música en Twitch. Si también haces streaming en YouTube o exportas clips a TikTok o Instagram, esas exportaciones pueden no tener la misma cobertura de licencia.

Bibliotecas libres de derechos y con licencia de streaming

Biblioteca	Coste	Notas
StreamBeats (Harris Heller)	Gratuita	Licencia de streaming para YouTube y Twitch; descarga MP3
Lofi Girl (listas de streaming)	Gratuita	Canal de YouTube con permiso explícito de streaming; requiere crédito
Pretzel Rocks	~8 $/mes	Gran catálogo, licencia para Twitch/YouTube/Facebook, app de escritorio
Epidmic Sound	~15 $/mes	Licencia amplia que cubre todas las plataformas incluido TikTok
Monstercat Gold	~6 $/mes	Reparto de ingresos con artistas, cubre las principales plataformas
Artlist.io	~17 $/mes	La licencia es personal-perpetua; también cubre sincronización de vídeo

Qué evitar: Spotify, Apple Music, listas de YouTube Music, streams de radio comercial y cualquier música para la que no tengas documentación escrita de los derechos de streaming.

El hábito más seguro: descarga localmente una carpeta con MP3s de StreamBeats o stems de Lofi Girl y reprodúcelos desde un reproductor multimedia local. Sin dependencia de internet, sin riesgo de que la fuente desaparezca a mitad del stream.

Claridad vocal sobre la música: consideraciones de EQ

Incluso con los niveles LUFS correctos, la música puede enmascarar la voz si ambas ocupan el mismo rango de frecuencias. Un pequeño ajuste de EQ en el canal de música llamado muesca de presencia puede abrir espacio para la voz:

En el EQ de tu canal de música, aplica una muesca o atenuación suave entre 1 kHz y 4 kHz — este es el núcleo de la inteligibilidad vocal.
La muesca no necesita ser profunda: de -2 a -4 dB con una Q amplia (0,5–1,0) es suficiente.
Tu voz se encuentra en ese mismo rango, así que al crear un pequeño valle en el contenido de frecuencias de la música, la voz parece más clara sin necesidad de subir su volumen.

Esta técnica es práctica estándar en la mezcla de broadcast y a veces se denomina “abrir espacio” para la voz. El efecto es sutil en un analizador de espectro, pero significativo para los oyentes.

También puedes aplicar un suave filtro de paso alto a tu música en torno a 100–120 Hz si hablas sobre música con mucho bajo, dejando que el bombo y el bajo de la música permanezcan audibles mientras reduces la energía de baja frecuencia que puede crear una acumulación embarullada en la mezcla.

Discord y música: bots, compartición de audio y streams de equipo

Si tu caso de uso de música de fondo es un servidor de Discord — para sesiones de juego, co-streams o prerolls de podcast — tienes varias opciones.

Bots de música de Discord

Los bots de música (como Hydra, sucesores de Rythm o el módulo de música de MEE6) se unen a tu canal de voz y reproducen audio directamente a través del pipeline de audio de Discord. Para ambiente de fondo puro, es la opción más sencilla.

Limitaciones de los bots de música de Discord:

El control de volumen es global; no puedes bajar fácilmente la música del bot cuando hablas sin un comando del bot.
La compresión de audio de Discord (códec Opus a 64–128 kbps en la mayoría de los servidores) reduce notablemente la fidelidad de la música.
La música licenciada al bot puede no transferirte los derechos para hacer streaming de esa misma salida del bot en Twitch o YouTube.

Compartición de audio de escritorio en Discord

Para una configuración de producción en la que también haces streaming en otro lugar, enruta tu música a través de un cable de audio virtual y compártela como tu “Audio de escritorio” en un canal de voz de Discord. Obtienes:

Control de nivel independiente del micrófono
Calidad de audio constante (tú controlas la calidad de la fuente)
La posibilidad de usar fuentes DMCA-safe y saber exactamente qué derechos tienes

Mantener la consistencia entre Discord y el stream

Si haces streaming en Twitch mientras estás en una llamada de Discord, quieres que ambas audiencias escuchen una mezcla consistente. El enfoque más limpio:

Enruta el micrófono → VoxBooster o tu procesador de voz → salida de micrófono virtual
En Discord, selecciona el micrófono virtual como entrada
En OBS, selecciona el mismo micrófono virtual como entrada de micrófono
La música se enruta por separado a OBS (y opcionalmente al audio de escritorio compartido de Discord)

Ambas audiencias escuchan la misma voz procesada. La música está separada de la cadena de voz, por lo que la supresión de ruido de Discord no se come accidentalmente tu música de fondo.

Para un análisis más profundo de cómo el procesado de voz se integra con el enrutamiento de stream, consulta nuestra guía sobre cambiador de voz para podcasting y la comparativa de cambiador de voz vs EQ: cuándo usar cada uno.

Errores de mezcla más comunes (y cómo corregirlos)

Error 1: Ajustar los niveles solo por oído con auriculares

Los auriculares suenan más alto que lo que tu stream suena a los espectadores con altavoces. Comprueba siempre el medidor de OBS (apunta a picos de -12 dBFS en la voz) y usa un medidor de LUFS para verificar la sonoridad integrada.

Error 2: Usar el Audio de escritorio como comodín

El Audio de escritorio mezcla todo junto — notificaciones, audio del juego, alertas del navegador, música — y hace imposible el control individual. Separa tus fuentes.

Error 3: Sin compresor en el micrófono

Una voz sin comprimir oscila 10–15 dB entre el habla normal y los momentos de emoción. Con la música de fondo a -20 LUFS, los momentos tranquilos quedarán enterrados y los altos chocarán con ella. Un compresor básico (ratio 3:1, ataque y release medios) lo suaviza automáticamente.

Error 4: Música con voz

La música instrumental de fondo es mucho más fácil de mezclar bajo una voz hablada que la música con voz. Dos flujos de voz compiten por la atención del oyente de una manera que dos instrumentos separados no lo hacen. Usa instrumentales, lo-fi, ambient u orquestales para situaciones de comentario en directo.

Error 5: Ignorar la sonoridad de intro/outro

Una música de intro a volumen máximo (-10 LUFS) que se desvanece bruscamente cuando empiezas a hablar resulta desconcertante. Baja la música durante 2–4 segundos al empezar a hablar y dale un momento para que baje antes de que tu voz llegue al volumen total.

Lista de verificación de inicio rápido

Antes de salir en directo con música de fondo, comprueba:

Los picos del micrófono están a -6 dBFS o menos en el medidor de OBS
La fuente de música de fondo está separada del Audio de escritorio
El fader de música está aproximadamente 8–10 dB por debajo del fader de voz
El medidor de LUFS confirma la voz a -12 LUFS integrados (prueba de 30 segundos)
La fuente de música está confirmada como DMCA-safe (tienes documentación escrita o usas Twitch Soundtrack)
Filtro de compresor aplicado al canal del micrófono
Ducking activado (plugin o plan de automatización manual del fader)
Probado en vista previa del stream durante 60 segundos con los auriculares puestos

Preguntas frecuentes

¿A qué volumen debe estar mi voz respecto a la música de fondo?

Apunta a tu voz en torno a -12 LUFS integrados y la música de fondo a -20 LUFS o menos. Esa diferencia de 8 dB mantiene la voz inteligible sobre la música sin que esta desaparezca. En OBS, usa los faders del Audio Mixer para calibrar estos niveles antes de salir en directo.

¿Qué es el ducking de audio y cómo funciona para hacer streaming?

El ducking baja automáticamente el volumen de la música de fondo cuando se detecta tu voz y lo sube de nuevo durante los silencios. En un DAW se implementa mediante compresión sidechain. En OBS, plugins como obs-audio-ducking o una cadena de cable virtual de audio permiten obtener un resultado similar.

¿Está permitida la música de fondo en los streams de Twitch?

Solo si usas música licenciada a través de Twitch Soundtrack, pistas libres de derechos de bibliotecas como Pretzel Rocks o StreamBeats, o música Creative Commons de Lofi Girl. Poner música comercial sin licencia arriesga silenciados de VODs o advertencias DMCA.

¿Puedo poner música en Discord para mi equipo de stream?

Sí, usando un bot de música de Discord o compartiendo el audio del escritorio en un canal de voz. Para una mezcla de calidad profesional, enruta la música a través de un dispositivo de audio virtual y envíalo tanto a OBS como a Discord.

¿Cómo enruto música de fondo en OBS sin que entre en el micrófono?

Añade tu reproductor como fuente de audio independiente — Captura de Audio de Aplicación o un dispositivo de cable virtual. Mantén el micrófono en su propia fuente de entrada. En las Propiedades de Audio Avanzadas de OBS, asigna cada fuente a pistas de salida específicas de forma independiente.

¿Qué bibliotecas de música libre de DMCA usan los streamers?

Las más populares son Pretzel Rocks (suscripción), StreamBeats de Harris Heller (gratuita), las listas de streaming de Lofi Girl (gratuitas), Monstercat Gold (suscripción) y Epidmic Sound (suscripción). Todas ofrecen licencias de streaming por escrito.

¿La supresión de ruido afecta a la música de fondo en un stream?

Un supresor de ruido orientado a la voz no toca una fuente de música enrutada por separado. Siempre que tu música esté en su propia pista de audio y no pase por el micrófono, la supresión no la alterará.

Conclusión

Mezclar tu voz con música de fondo para streaming o podcasting se reduce a tres fundamentos: los niveles de sonoridad correctos (voz a -12 LUFS, música a -20 LUFS), un enrutamiento adecuado en OBS con fuentes separadas para cada elemento de audio, y música que estés realmente licenciado a usar.

El ducking gestiona automáticamente la relación dinámica entre voz y música una vez configurado, lo que significa que puedes centrarte en lo que estás diciendo en lugar de mover faders manualmente durante el directo. En cuanto a la música, Twitch Soundtrack, StreamBeats y Pretzel Rocks cubren la mayoría de los casos de uso sin riesgo de DMCA.

El resto — muescas de presencia, grabación multipista, enrutamiento de bots de Discord — son refinamientos que añades una vez que los fundamentos están sólidos.

Si quieres añadir efectos de voz o procesado en tiempo real encima de tu mezcla, VoxBooster se integra limpiamente en esta configuración de enrutamiento — crea una salida de micrófono virtual estándar que tanto OBS como Discord reconocen, con supresión de ruido integrada para que tu voz se mantenga limpia incluso cuando el nivel de la música de fondo sube. La prueba gratuita de 3 días te permite probarlo con tu hardware real antes de comprometerte.

Lectura relacionada: Cómo sonar mejor en podcasts — Mejor cambiador de voz para streaming — Cambiador de voz para podcasting