Mezcla de Música de Fondo en YouTube: Niveles, EQ y Ducking Paso a Paso
La música de fondo debe estar 18-20 dB por debajo de la voz. Guía de mezcla con LUFS, ecualización, ducking y licencias para YouTube.
La música de fondo define el tono de tu video, pero solo funciona si el espectador no la nota conscientemente. En el momento en que la música compite con tu voz, deja de ser ambiente y se convierte en distracción: baja la comprensión, reduce la retención y los espectadores se van. La guía de accesibilidad W3C recomienda que los sonidos no verbales estén al menos 20 dB por debajo del habla, y la BBC sigue el mismo principio en producción.
Esta guía cubre los niveles exactos de volumen, el estándar LUFS de YouTube, técnicas de EQ para claridad vocal, flujos de ducking en los editores más usados, selección de género musical por tipo de video y opciones de licencia. Para bibliotecas de música, consulta nuestra guía de música libre de derechos. Para selección de micrófono, revisa nuestra guía de micrófonos.
La regla de volumen: voz primero, música después
Niveles de voz vs. música
| Elemento | Nivel recomendado | Notas |
|---|---|---|
| Voz (principal) | -6 a -3 dBFS pico, -12 dBFS promedio | El elemento dominante — todo lo demás se mezcla relativo a la voz |
| Música durante diálogo | -24 a -18 dB bajo la voz (-25 a -30 dBFS absoluto) | Apenas audible — se siente, no se escucha conscientemente |
| Música sin diálogo | -12 a -6 dBFS | Puede subir durante B-roll, transiciones y pausas |
| Efectos de sonido | -14 a -20 dBFS | Solo ráfagas cortas — no deben acumularse |
La guía de producción de Epidemic Sound recomienda música a -30 a -35 dBFS durante diálogo — incluso más baja que la regla general. Esto es porque música con vocales o mucho bajo compite más agresivamente con las frecuencias del habla.
El principio central: Ajusta primero el nivel de tu voz. La voz es el ancla. Todo lo demás se mezcla relativo a ella — nunca al revés.
La prueba en tres dispositivos
Después de mezclar, prueba tu video en tres dispositivos:
- Bocinas del celular — donde la mayoría de los espectadores ven videos. Las bocinas del celular tienen pobre separación de graves, así que música que suena bien en audífonos se vuelve confusa en el celular.
- Bocinas de la laptop — revisión de rango medio. Si la música es audible durante el diálogo en bocinas de laptop, está demasiado fuerte.
- Audífonos — revisión de detalle para clics, pops y transiciones abruptas que las bocinas enmascaran.
Si la música es audible durante el diálogo en bocinas del celular, reduce 3-6 dB. La prueba en celular detecta el 90% de los problemas de mezcla.
LUFS y la normalización de volumen de YouTube
Qué significa LUFS para creadores
LUFS (Loudness Units relative to Full Scale) mide la sonoridad percibida a lo largo del tiempo — a diferencia del pico dB, que solo mide picos instantáneos de volumen. YouTube normaliza todo el audio a aproximadamente -14 LUFS (integrado). Esto significa:
- Si tu video está más fuerte que -14 LUFS, YouTube reduce el volumen automáticamente
- Si tu video está más bajo que -14 LUFS, YouTube no lo sube — se queda bajo
- YouTube solo atenúa, nunca amplifica
Objetivos LUFS para subir
| Parámetro | Objetivo |
|---|---|
| Sonoridad integrada | -13 a -14 LUFS |
| Pico a corto plazo | No más fuerte que -9 LUFS |
| True peak | -1 dBTP (previene clipping entre muestras durante la recodificación) |
| Promedio de diálogo | -12 LUFS momentáneo |
| Promedio de música | -18 a -20 LUFS integrado (6-8 LU más bajo que la voz) |
El techo de -1 dBTP es importante porque YouTube recodifica tu audio durante el procesamiento. Audio que llega a 0 dBFS puede distorsionarse después de la recodificación, generando distorsión que no existía en tu exportación original.
Cómo revisar LUFS: La mayoría de los editores muestran medidores LUFS. En DaVinci Resolve, la página Fairlight tiene un medidor integrado. En Premiere Pro, usa el efecto Loudness Radar. Opción gratuita: Youlean Loudness Meter (funciona con cualquier editor).
EQ para claridad vocal sobre la música
La razón más común por la que la música interfiere con el habla es el enmascaramiento de frecuencias: voz y música ocupan el mismo rango, así que compiten. La ecualización (EQ) resuelve esto creando espacio para cada elemento.
Ajustes de EQ para la voz
| Frecuencia | Acción | Propósito |
|---|---|---|
| 80 Hz (hombres) / 100 Hz (mujeres) | Filtro pasa-altos (24 dB/oct) | Elimina ruido de baja frecuencia, ruido de cuarto, ruido de manejo |
| 200-300 Hz | Cortar 2-4 dB | Reduce la sensación de "boom" y turbiedad |
| 500 Hz | Cortar 1-3 dB si es necesario | Elimina cualidad hueca o apagada |
| 2-6 kHz | Subir 2-4 dB | Aumenta claridad e inteligibilidad del habla — el ajuste de mayor impacto |
| 8-10 kHz | Subir gentilmente 1-2 dB | Agrega aire y presencia (opcional) |
Ajustes de EQ para la música (el opuesto)
Corta en la música las mismas frecuencias que subiste en la voz:
- Cortar 300 Hz a 3 kHz por 2-4 dB en la pista de música — esto crea un "bolsillo vocal" donde el habla se asienta sin competencia
- Esta técnica se llama "scooping" — excavas las frecuencias de la música que se sobreponen con la voz
El resultado: la voz se escucha claramente por encima de la música, incluso a volúmenes ligeramente más altos de lo que normalmente necesitarías.
Compresión para volumen vocal consistente
La compresión reduce la diferencia de volumen entre tus palabras más fuertes y más suaves, haciendo el habla consistentemente audible:
| Ajuste | Valor recomendado |
|---|---|
| Ratio | 3:1 (punto de partida) |
| Threshold | -20 a -30 dBFS |
| Attack | Rápido (5-10 ms) |
| Release | Medio (50-100 ms) |
Aplica un de-esser antes de EQ y compresión para controlar la sibilancia (sonidos agudos de "s" y "t"). El de-essing previene que el boost de claridad en 2-6 kHz haga la sibilancia dolorosamente aguda.
Para eliminación de ruido antes de mezclar, consulta nuestra guía de eliminación de ruido.
Audio ducking: editor por editor
El ducking reduce automáticamente el volumen de la música cuando detecta habla — la técnica más efectiva para mezcla limpia de voz sobre música. Configura el ducking para reducir la música 6-12 dB durante diálogo, con fade-in de 0.5-1 segundo y fade-out de 1-2 segundos para transiciones naturales.
Premiere Pro
- Selecciona el clip de música en la línea de tiempo
- Abre el panel Essential Sound → etiqueta el clip como Music
- Marca Duck → configura "Duck Against" a tu pista de diálogo
- Ajusta sensibilidad, cantidad de ducking (-6 a -12 dB) y tiempos de fade
- Haz clic en Generate Keyframes — Premiere crea la automatización de volumen
DaVinci Resolve (Fairlight)
- Cambia a la página Fairlight
- Selecciona la pista de música → abre Inspector → pestaña Audio
- Aplica el efecto Ducker (nuevo en DaVinci 19 — sin configuración manual de sidechain)
- Configura la pista de diálogo como fuente de trigger
- Ajusta threshold, range (-6 a -12 dB) y release
Audacity
- Coloca voz y música en pistas separadas
- Selecciona la pista de música → Effect → Auto Duck
- Configura cantidad de ducking (-12 dB por defecto), inner fade (0 segundos) y outer fade (0.5 segundos)
- Audacity analiza la pista de voz y crea automatización de volumen en la pista de música
CapCut
CapCut no tiene ducking automático. Usa keyframes de volumen manuales:
- Selecciona el clip de música → toca la línea de volumen
- Agrega keyframes donde el diálogo empieza (volumen abajo) y termina (volumen arriba)
- Arrastra los keyframes para crear fades suaves
CapCut es extremadamente popular en Latinoamérica por su interfaz intuitiva y la mayoría de funciones son gratuitas. Para una comparación completa de editores, consulta nuestra guía de software de edición.
El flujo de mezcla en 5 pasos
Paso 1: Ajusta primero el nivel de voz
Normaliza el audio de tu voz a un pico de -6 a -3 dBFS, promediando -12 dBFS. Este es tu ancla. Aplica compresión y EQ a la voz antes de agregar cualquier otro elemento.
Paso 2: Agrega música a -24 dB bajo la voz
Empieza con la música muy baja — apenas perceptible durante el diálogo. Sube en incrementos de 1 dB hasta que puedas apenas notarla, después baja 2 dB. Si tu voz tiene picos en -6 dBFS, la música durante diálogo debe estar alrededor de -24 a -30 dBFS.
Paso 3: Automatiza niveles para secciones sin diálogo
Durante B-roll, transiciones o momentos sin diálogo, automatiza el volumen de la música arriba a -12 a -6 dBFS. Esto crea audio dinámico que respira con el contenido. La variación de volumen entre secciones con y sin diálogo es lo que hace que el audio profesional se sienta vivo en vez de plano.
Paso 4: Agrega efectos de sonido con moderación
Sonidos de transición, whooshes y efectos de notificación a -14 a -20 dBFS. Mantenlos cortos (menos de 1 segundo) y poco frecuentes. Los efectos sobreusados distraen tanto como la música demasiado fuerte.
Paso 5: Revisa LUFS y prueba en múltiples dispositivos
Exporta y revisa tus LUFS integrados (objetivo: -13 a -14). Después reproduce en bocinas del celular, bocinas de laptop y audífonos. Corrige cualquier sección donde la música interfiera con la claridad del habla. La prueba en celular es obligatoria — si la saltas, estás mezclando solo para usuarios de audífonos (una minoría de tu audiencia).
Cómo la música de fondo afecta el tiempo de reproducción
La música de fondo no es decorativa — influye directamente en el comportamiento del espectador:
- Los cambios musicales señalan nuevas secciones. Cuando la música cambia (tempo, tono o pista), los espectadores registran subconscientemente que empieza un nuevo segmento. Esto reinicia la atención y reduce el abandono a mitad de video.
- Los ganchos musicales en el intro reducen la salida temprana. Un acento musical energético en los primeros 5-10 segundos crea la sensación de que algo está pasando — manteniendo a los espectadores más allá de la ventana crítica de decisión de 8 segundos.
- El silencio es una herramienta. Quitar la música completamente antes de un punto clave crea tensión y énfasis. Los espectadores se acercan cuando la música se detiene porque señala "pon atención — esto es importante."
- La música equivocada acelera el abandono. Música pop alegre sobre un tema serio crea disonancia cognitiva. El espectador siente que algo está "mal" aunque no pueda articular por qué — y se va.
Para optimización de retención, consulta nuestra guía de CTR. Para entender las señales del algoritmo, revisa nuestra guía del algoritmo.
Género musical por tipo de video
| Tipo de video | Género recomendado | Por qué |
|---|---|---|
| Tutoriales / Cómo hacer | Ambient, lo-fi, corporativo | No distrae; no compite con el habla instructiva |
| Vlogs / Día a día | Acústico alegre, indie pop | Combina con energía casual; complementa la personalidad |
| Reviews de productos | Electrónico neutro, corporativo ligero | No sesga la percepción del espectador sobre el producto |
| Gaming | Electrónico, synthwave, hip-hop | Combina con el ritmo de alta energía; familiar para la audiencia |
| Viajes | Cinemático, world music, guitarra acústica | Mejora la narrativa visual; resonancia emocional |
| Comentario / Opinión | Ambient mínimo o sin música | La voz es el contenido; la música puede sentirse manipuladora |
| Montaje / B-roll | Cinemático, emocional, dinámico | La música lleva la sección — puede ser más fuerte y prominente |
Regla general: Si el video es principalmente hablado (tutoriales, reviews, comentario), usa pistas solo instrumentales sin vocales. Las vocales en la música de fondo compiten con tu habla en todas las frecuencias.
Licencias de música para YouTube
Usar música sin licencia resulta en reclamos de copyright, desmonetización o strikes. Para riesgos de strikes, consulta nuestra guía de strikes de copyright.
Comparación de bibliotecas
| Biblioteca | Pistas | Precio | Modelo de licencia |
|---|---|---|---|
| YouTube Audio Library | 1,500+ | Gratis | Gratis para todo uso en YouTube; algunas requieren atribución |
| Epidemic Sound | 55,000+ | $17.99 USD/mes (~$360 MXN) | Suscripción cubre YouTube, Instagram, TikTok, podcasts |
| Artlist | 30,000+ | $14.99 USD/mes (~$300 MXN) | "Descarga una vez, usa para siempre" — la licencia sobrevive la cancelación |
| Storyblocks | 100,000+ | $15 USD/mes (~$300 MXN) | Descargas ilimitadas; licencia de sincronización incluida |
| Uppbeat | 10,000+ | Gratis (3 descargas/mes) | Tier gratis con atribución; el pago elimina la atribución |
YouTube Audio Library es suficiente para creadores que empiezan — es gratis, pre-aprobada para YouTube y la calidad ha mejorado significativamente. Para producción profesional, Epidemic Sound y Artlist son los estándares de la industria porque ofrecen pistas de alta calidad consistente sin los requisitos de atribución que hacen las bibliotecas gratuitas engorrosas.
Para una comparación detallada de bibliotecas, consulta nuestra guía de música libre de derechos.
6 errores comunes de mezcla
1. Música demasiado fuerte durante el diálogo
El error más común. Si un espectador tiene que esforzarse para escuchar el diálogo sobre la música, se va. Siempre mezcla con la voz primero, música después.
2. Sin headroom (clipping)
Audio que llega a 0 dBFS se distorsiona después de la recodificación de YouTube. Deja al menos 1 dB de headroom (-1 dBTP true peak máximo).
3. Cortes de música abruptos
Empezar o parar música abruptamente suena amateur. Cada entrada y salida de música necesita un fade de 1-3 segundos. Cada cambio de pista necesita un crossfade con 1-2 segundos de overlap.
4. Mismo volumen durante todo el video
Audio plano es aburrido. La mezcla profesional tiene variación dinámica — música más fuerte durante B-roll, más baja durante diálogo, ausente en momentos clave. La variación mantiene el audio interesante y señala la estructura del contenido al espectador.
5. Elegir música con vocales
Vocales en la música de fondo compiten directamente con tu habla en todas las frecuencias. Usa pistas solo instrumentales cuando hables. Reserva pistas con vocales para intros, outros y secuencias de montaje.
6. No probar en bocinas del celular
Mezclar en monitores de estudio o audífonos y nunca probar en bocinas del celular significa que estás optimizando para el dispositivo equivocado. La mayoría de los espectadores ven en celulares. La prueba en celular es obligatoria.
Puntos clave
- La música debe estar 18-20 dB bajo la voz durante diálogo (-24 a -30 dBFS absoluto). Si los espectadores pueden escuchar conscientemente la música mientras hablas, está demasiado fuerte.
- YouTube normaliza a -14 LUFS. Apunta a -13 a -14 LUFS integrado con -1 dBTP true peak. YouTube solo atenúa (reduce), nunca amplifica.
- La EQ crea espacio para la voz. Sube la voz a 2-6 kHz para claridad, corta la música a 300 Hz-3 kHz para crear un "bolsillo vocal." Esto permite que ambos elementos coexistan sin enmascaramiento.
- Usa ducking en cada editor. Premiere Pro (Essential Sound → Duck), DaVinci Resolve (Fairlight Ducker), Audacity (Auto Duck). El ducking automatiza la parte más tediosa de la mezcla.
- Prueba en bocinas del celular. La mayoría de los espectadores ven en celulares con pobre separación de graves. Si la música interfiere con el diálogo en bocinas del celular, está demasiado fuerte.
- La música afecta la retención. Los cambios de pista señalan nuevas secciones (reiniciando atención), los ganchos musicales en intros reducen el abandono temprano, y el silencio antes de puntos clave crea énfasis.
FAQ
Qué tan fuerte debe ser la música de fondo en YouTube?
18-20 dB bajo tu voz durante diálogo (-24 a -30 dBFS absoluto). Durante momentos sin diálogo (B-roll, transiciones), la música puede subir a -12 a -6 dBFS. La guía de accesibilidad W3C recomienda sonidos no verbales al menos 20 dB más bajos que el habla. Siempre prueba en bocinas del celular — si la música es audible durante el diálogo en un celular, reduce.
Qué LUFS debo usar para YouTube?
-13 a -14 LUFS integrado, con true peak de -1 dBTP. YouTube normaliza el audio a aproximadamente -14 LUFS reduciendo el volumen del contenido más fuerte, pero nunca sube el contenido más bajo. El diálogo debe promediar -12 LUFS momentáneo; la música debe promediar -18 a -20 LUFS integrado.
Cómo configuro el ducking en Premiere Pro?
Selecciona el clip de música → abre Essential Sound → etiqueta como Music → marca Duck → configura "Duck Against" a tu pista de diálogo → ajusta sensibilidad y cantidad (-6 a -12 dB) → haz clic en Generate Keyframes. Premiere crea automáticamente la automatización de volumen que baja la música cuando hablas.
Qué ajustes de EQ mejoran la claridad vocal sobre la música?
Aplica un filtro pasa-altos a 80 Hz (hombres) o 100 Hz (mujeres) para eliminar ruido. Corta 2-4 dB a 200-300 Hz para reducir turbiedad. Sube 2-4 dB a 2-6 kHz para claridad del habla. Después corta esas mismas frecuencias medias (300 Hz-3 kHz) en la pista de música para crear un "bolsillo vocal."
Puedo usar cualquier música en YouTube?
No. Música sin licencia resulta en reclamos de copyright, desmonetización o strikes de canal. Usa la Audio Library gratuita de YouTube (1,500+ pistas), o suscríbete a bibliotecas con licencia: Epidemic Sound ($17.99 USD/mes, ~$360 MXN), Artlist ($14.99 USD/mes, ~$300 MXN) o Storyblocks ($15 USD/mes, ~$300 MXN). Todas proporcionan música pre-aprobada para uso en YouTube.
Fuentes
- How to Master Audio for YouTube — Sweetwater — accedido 2026-04-03
- YouTube -13 LUFS Reference Level — Sweetwater — accedido 2026-04-03
- Loudness Standards: LUFS and Peaks — Sweetwater — accedido 2026-04-03
- Mastering for Streaming Platforms — iZotope — accedido 2026-04-03
- Background Music Volume — Pure Audio Insight — accedido 2026-04-03
- Audio Mixing for Video — Epidemic Sound — accedido 2026-04-03
- YouTubers Need Better Sound Mixing — How-To Geek — accedido 2026-04-03
- Auto Ducking in Premiere Pro — Adobe — accedido 2026-04-03
- DaVinci Resolve Audio Ducking — Boris FX — accedido 2026-04-03
- Mixing Narration with Background Music — Audacity Manual — accedido 2026-04-03
- YouTube Background Music by Genre — Soundstripe — accedido 2026-04-03
- Background Music Volume: Getting It Perfect — Wistia — accedido 2026-04-03
- Music and Viewer Engagement on YouTube — Soundraw — accedido 2026-04-03
- YouTube Audio Library — YouTube Help — accedido 2026-04-03
- Artlist vs Epidemic Sound 2025 — Photutorial — accedido 2026-04-03
- EQ for Voice Over — Music Guy Mixing — accedido 2026-04-03