Mezcla de Música de Fondo en YouTube: Niveles, EQ y Ducking Paso a Paso

La música de fondo define el tono de tu video, pero solo funciona si el espectador no la nota conscientemente. En el momento en que la música compite con tu voz, deja de ser ambiente y se convierte en distracción: baja la comprensión, reduce la retención y los espectadores se van. La guía de accesibilidad W3C recomienda que los sonidos no verbales estén al menos 20 dB por debajo del habla, y la BBC sigue el mismo principio en producción.

Esta guía cubre los niveles exactos de volumen, el estándar LUFS de YouTube, técnicas de EQ para claridad vocal, flujos de ducking en los editores más usados, selección de género musical por tipo de video y opciones de licencia. Para bibliotecas de música, consulta nuestra guía de música libre de derechos. Para selección de micrófono, revisa nuestra guía de micrófonos.

La regla de volumen: voz primero, música después

Niveles de voz vs. música

Elemento	Nivel recomendado	Notas
Voz (principal)	-6 a -3 dBFS pico, -12 dBFS promedio	El elemento dominante — todo lo demás se mezcla relativo a la voz
Música durante diálogo	-24 a -18 dB bajo la voz (-25 a -30 dBFS absoluto)	Apenas audible — se siente, no se escucha conscientemente
Música sin diálogo	-12 a -6 dBFS	Puede subir durante B-roll, transiciones y pausas
Efectos de sonido	-14 a -20 dBFS	Solo ráfagas cortas — no deben acumularse

La guía de producción de Epidemic Sound recomienda música a -30 a -35 dBFS durante diálogo — incluso más baja que la regla general. Esto es porque música con vocales o mucho bajo compite más agresivamente con las frecuencias del habla.

El principio central: Ajusta primero el nivel de tu voz. La voz es el ancla. Todo lo demás se mezcla relativo a ella — nunca al revés.

La prueba en tres dispositivos

Después de mezclar, prueba tu video en tres dispositivos:

Bocinas del celular — donde la mayoría de los espectadores ven videos. Las bocinas del celular tienen pobre separación de graves, así que música que suena bien en audífonos se vuelve confusa en el celular.
Bocinas de la laptop — revisión de rango medio. Si la música es audible durante el diálogo en bocinas de laptop, está demasiado fuerte.
Audífonos — revisión de detalle para clics, pops y transiciones abruptas que las bocinas enmascaran.

Si la música es audible durante el diálogo en bocinas del celular, reduce 3-6 dB. La prueba en celular detecta el 90% de los problemas de mezcla.

LUFS y la normalización de volumen de YouTube

Qué significa LUFS para creadores

LUFS (Loudness Units relative to Full Scale) mide la sonoridad percibida a lo largo del tiempo — a diferencia del pico dB, que solo mide picos instantáneos de volumen. YouTube normaliza todo el audio a aproximadamente -14 LUFS (integrado). Esto significa:

Si tu video está más fuerte que -14 LUFS, YouTube reduce el volumen automáticamente
Si tu video está más bajo que -14 LUFS, YouTube no lo sube — se queda bajo
YouTube solo atenúa, nunca amplifica

Objetivos LUFS para subir

Parámetro	Objetivo
Sonoridad integrada	-13 a -14 LUFS
Pico a corto plazo	No más fuerte que -9 LUFS
True peak	-1 dBTP (previene clipping entre muestras durante la recodificación)
Promedio de diálogo	-12 LUFS momentáneo
Promedio de música	-18 a -20 LUFS integrado (6-8 LU más bajo que la voz)

El techo de -1 dBTP es importante porque YouTube recodifica tu audio durante el procesamiento. Audio que llega a 0 dBFS puede distorsionarse después de la recodificación, generando distorsión que no existía en tu exportación original.

Cómo revisar LUFS: La mayoría de los editores muestran medidores LUFS. En DaVinci Resolve, la página Fairlight tiene un medidor integrado. En Premiere Pro, usa el efecto Loudness Radar. Opción gratuita: Youlean Loudness Meter (funciona con cualquier editor).

EQ para claridad vocal sobre la música

La razón más común por la que la música interfiere con el habla es el enmascaramiento de frecuencias: voz y música ocupan el mismo rango, así que compiten. La ecualización (EQ) resuelve esto creando espacio para cada elemento.

Ajustes de EQ para la voz

Frecuencia	Acción	Propósito
80 Hz (hombres) / 100 Hz (mujeres)	Filtro pasa-altos (24 dB/oct)	Elimina ruido de baja frecuencia, ruido de cuarto, ruido de manejo
200-300 Hz	Cortar 2-4 dB	Reduce la sensación de "boom" y turbiedad
500 Hz	Cortar 1-3 dB si es necesario	Elimina cualidad hueca o apagada
2-6 kHz	Subir 2-4 dB	Aumenta claridad e inteligibilidad del habla — el ajuste de mayor impacto
8-10 kHz	Subir gentilmente 1-2 dB	Agrega aire y presencia (opcional)

Ajustes de EQ para la música (el opuesto)

Corta en la música las mismas frecuencias que subiste en la voz:

Cortar 300 Hz a 3 kHz por 2-4 dB en la pista de música — esto crea un "bolsillo vocal" donde el habla se asienta sin competencia
Esta técnica se llama "scooping" — excavas las frecuencias de la música que se sobreponen con la voz

El resultado: la voz se escucha claramente por encima de la música, incluso a volúmenes ligeramente más altos de lo que normalmente necesitarías.

Compresión para volumen vocal consistente

La compresión reduce la diferencia de volumen entre tus palabras más fuertes y más suaves, haciendo el habla consistentemente audible:

Ajuste	Valor recomendado
Ratio	3:1 (punto de partida)
Threshold	-20 a -30 dBFS
Attack	Rápido (5-10 ms)
Release	Medio (50-100 ms)

Aplica un de-esser antes de EQ y compresión para controlar la sibilancia (sonidos agudos de "s" y "t"). El de-essing previene que el boost de claridad en 2-6 kHz haga la sibilancia dolorosamente aguda.

Para eliminación de ruido antes de mezclar, consulta nuestra guía de eliminación de ruido.

Audio ducking: editor por editor

El ducking reduce automáticamente el volumen de la música cuando detecta habla — la técnica más efectiva para mezcla limpia de voz sobre música. Configura el ducking para reducir la música 6-12 dB durante diálogo, con fade-in de 0.5-1 segundo y fade-out de 1-2 segundos para transiciones naturales.

Premiere Pro

Selecciona el clip de música en la línea de tiempo
Abre el panel Essential Sound → etiqueta el clip como Music
Marca Duck → configura "Duck Against" a tu pista de diálogo
Ajusta sensibilidad, cantidad de ducking (-6 a -12 dB) y tiempos de fade
Haz clic en Generate Keyframes — Premiere crea la automatización de volumen

DaVinci Resolve (Fairlight)

Cambia a la página Fairlight
Selecciona la pista de música → abre Inspector → pestaña Audio
Aplica el efecto Ducker (nuevo en DaVinci 19 — sin configuración manual de sidechain)
Configura la pista de diálogo como fuente de trigger
Ajusta threshold, range (-6 a -12 dB) y release

Audacity

Coloca voz y música en pistas separadas
Selecciona la pista de música → Effect → Auto Duck
Configura cantidad de ducking (-12 dB por defecto), inner fade (0 segundos) y outer fade (0.5 segundos)
Audacity analiza la pista de voz y crea automatización de volumen en la pista de música

CapCut

CapCut no tiene ducking automático. Usa keyframes de volumen manuales:

Selecciona el clip de música → toca la línea de volumen
Agrega keyframes donde el diálogo empieza (volumen abajo) y termina (volumen arriba)
Arrastra los keyframes para crear fades suaves

CapCut es extremadamente popular en Latinoamérica por su interfaz intuitiva y la mayoría de funciones son gratuitas. Para una comparación completa de editores, consulta nuestra guía de software de edición.

El flujo de mezcla en 5 pasos

Paso 1: Ajusta primero el nivel de voz

Normaliza el audio de tu voz a un pico de -6 a -3 dBFS, promediando -12 dBFS. Este es tu ancla. Aplica compresión y EQ a la voz antes de agregar cualquier otro elemento.

Paso 2: Agrega música a -24 dB bajo la voz

Empieza con la música muy baja — apenas perceptible durante el diálogo. Sube en incrementos de 1 dB hasta que puedas apenas notarla, después baja 2 dB. Si tu voz tiene picos en -6 dBFS, la música durante diálogo debe estar alrededor de -24 a -30 dBFS.

Paso 3: Automatiza niveles para secciones sin diálogo

Durante B-roll, transiciones o momentos sin diálogo, automatiza el volumen de la música arriba a -12 a -6 dBFS. Esto crea audio dinámico que respira con el contenido. La variación de volumen entre secciones con y sin diálogo es lo que hace que el audio profesional se sienta vivo en vez de plano.

Paso 4: Agrega efectos de sonido con moderación

Sonidos de transición, whooshes y efectos de notificación a -14 a -20 dBFS. Mantenlos cortos (menos de 1 segundo) y poco frecuentes. Los efectos sobreusados distraen tanto como la música demasiado fuerte.

Paso 5: Revisa LUFS y prueba en múltiples dispositivos

Exporta y revisa tus LUFS integrados (objetivo: -13 a -14). Después reproduce en bocinas del celular, bocinas de laptop y audífonos. Corrige cualquier sección donde la música interfiera con la claridad del habla. La prueba en celular es obligatoria — si la saltas, estás mezclando solo para usuarios de audífonos (una minoría de tu audiencia).

Cómo la música de fondo afecta el tiempo de reproducción

La música de fondo no es decorativa — influye directamente en el comportamiento del espectador:

Los cambios musicales señalan nuevas secciones. Cuando la música cambia (tempo, tono o pista), los espectadores registran subconscientemente que empieza un nuevo segmento. Esto reinicia la atención y reduce el abandono a mitad de video.
Los ganchos musicales en el intro reducen la salida temprana. Un acento musical energético en los primeros 5-10 segundos crea la sensación de que algo está pasando — manteniendo a los espectadores más allá de la ventana crítica de decisión de 8 segundos.
El silencio es una herramienta. Quitar la música completamente antes de un punto clave crea tensión y énfasis. Los espectadores se acercan cuando la música se detiene porque señala "pon atención — esto es importante."
La música equivocada acelera el abandono. Música pop alegre sobre un tema serio crea disonancia cognitiva. El espectador siente que algo está "mal" aunque no pueda articular por qué — y se va.

Para optimización de retención, consulta nuestra guía de CTR. Para entender las señales del algoritmo, revisa nuestra guía del algoritmo.

Género musical por tipo de video

Tipo de video	Género recomendado	Por qué
Tutoriales / Cómo hacer	Ambient, lo-fi, corporativo	No distrae; no compite con el habla instructiva
Vlogs / Día a día	Acústico alegre, indie pop	Combina con energía casual; complementa la personalidad
Reviews de productos	Electrónico neutro, corporativo ligero	No sesga la percepción del espectador sobre el producto
Gaming	Electrónico, synthwave, hip-hop	Combina con el ritmo de alta energía; familiar para la audiencia
Viajes	Cinemático, world music, guitarra acústica	Mejora la narrativa visual; resonancia emocional
Comentario / Opinión	Ambient mínimo o sin música	La voz es el contenido; la música puede sentirse manipuladora
Montaje / B-roll	Cinemático, emocional, dinámico	La música lleva la sección — puede ser más fuerte y prominente

Regla general: Si el video es principalmente hablado (tutoriales, reviews, comentario), usa pistas solo instrumentales sin vocales. Las vocales en la música de fondo compiten con tu habla en todas las frecuencias.

Licencias de música para YouTube

Usar música sin licencia resulta en reclamos de copyright, desmonetización o strikes. Para riesgos de strikes, consulta nuestra guía de strikes de copyright.

Comparación de bibliotecas

Biblioteca	Pistas	Precio	Modelo de licencia
YouTube Audio Library	1,500+	Gratis	Gratis para todo uso en YouTube; algunas requieren atribución
Epidemic Sound	55,000+	$17.99 USD/mes (~$360 MXN)	Suscripción cubre YouTube, Instagram, TikTok, podcasts
Artlist	30,000+	$14.99 USD/mes (~$300 MXN)	"Descarga una vez, usa para siempre" — la licencia sobrevive la cancelación
Storyblocks	100,000+	$15 USD/mes (~$300 MXN)	Descargas ilimitadas; licencia de sincronización incluida
Uppbeat	10,000+	Gratis (3 descargas/mes)	Tier gratis con atribución; el pago elimina la atribución

YouTube Audio Library es suficiente para creadores que empiezan — es gratis, pre-aprobada para YouTube y la calidad ha mejorado significativamente. Para producción profesional, Epidemic Sound y Artlist son los estándares de la industria porque ofrecen pistas de alta calidad consistente sin los requisitos de atribución que hacen las bibliotecas gratuitas engorrosas.

Para una comparación detallada de bibliotecas, consulta nuestra guía de música libre de derechos.

6 errores comunes de mezcla

1. Música demasiado fuerte durante el diálogo

El error más común. Si un espectador tiene que esforzarse para escuchar el diálogo sobre la música, se va. Siempre mezcla con la voz primero, música después.

2. Sin headroom (clipping)

Audio que llega a 0 dBFS se distorsiona después de la recodificación de YouTube. Deja al menos 1 dB de headroom (-1 dBTP true peak máximo).

3. Cortes de música abruptos

Empezar o parar música abruptamente suena amateur. Cada entrada y salida de música necesita un fade de 1-3 segundos. Cada cambio de pista necesita un crossfade con 1-2 segundos de overlap.

4. Mismo volumen durante todo el video

Audio plano es aburrido. La mezcla profesional tiene variación dinámica — música más fuerte durante B-roll, más baja durante diálogo, ausente en momentos clave. La variación mantiene el audio interesante y señala la estructura del contenido al espectador.

5. Elegir música con vocales

Vocales en la música de fondo compiten directamente con tu habla en todas las frecuencias. Usa pistas solo instrumentales cuando hables. Reserva pistas con vocales para intros, outros y secuencias de montaje.

6. No probar en bocinas del celular

Mezclar en monitores de estudio o audífonos y nunca probar en bocinas del celular significa que estás optimizando para el dispositivo equivocado. La mayoría de los espectadores ven en celulares. La prueba en celular es obligatoria.

Puntos clave

La música debe estar 18-20 dB bajo la voz durante diálogo (-24 a -30 dBFS absoluto). Si los espectadores pueden escuchar conscientemente la música mientras hablas, está demasiado fuerte.
YouTube normaliza a -14 LUFS. Apunta a -13 a -14 LUFS integrado con -1 dBTP true peak. YouTube solo atenúa (reduce), nunca amplifica.
La EQ crea espacio para la voz. Sube la voz a 2-6 kHz para claridad, corta la música a 300 Hz-3 kHz para crear un "bolsillo vocal." Esto permite que ambos elementos coexistan sin enmascaramiento.
Usa ducking en cada editor. Premiere Pro (Essential Sound → Duck), DaVinci Resolve (Fairlight Ducker), Audacity (Auto Duck). El ducking automatiza la parte más tediosa de la mezcla.
Prueba en bocinas del celular. La mayoría de los espectadores ven en celulares con pobre separación de graves. Si la música interfiere con el diálogo en bocinas del celular, está demasiado fuerte.
La música afecta la retención. Los cambios de pista señalan nuevas secciones (reiniciando atención), los ganchos musicales en intros reducen el abandono temprano, y el silencio antes de puntos clave crea énfasis.

FAQ

Qué tan fuerte debe ser la música de fondo en YouTube?

18-20 dB bajo tu voz durante diálogo (-24 a -30 dBFS absoluto). Durante momentos sin diálogo (B-roll, transiciones), la música puede subir a -12 a -6 dBFS. La guía de accesibilidad W3C recomienda sonidos no verbales al menos 20 dB más bajos que el habla. Siempre prueba en bocinas del celular — si la música es audible durante el diálogo en un celular, reduce.

Qué LUFS debo usar para YouTube?

-13 a -14 LUFS integrado, con true peak de -1 dBTP. YouTube normaliza el audio a aproximadamente -14 LUFS reduciendo el volumen del contenido más fuerte, pero nunca sube el contenido más bajo. El diálogo debe promediar -12 LUFS momentáneo; la música debe promediar -18 a -20 LUFS integrado.

Cómo configuro el ducking en Premiere Pro?

Selecciona el clip de música → abre Essential Sound → etiqueta como Music → marca Duck → configura "Duck Against" a tu pista de diálogo → ajusta sensibilidad y cantidad (-6 a -12 dB) → haz clic en Generate Keyframes. Premiere crea automáticamente la automatización de volumen que baja la música cuando hablas.

Qué ajustes de EQ mejoran la claridad vocal sobre la música?

Aplica un filtro pasa-altos a 80 Hz (hombres) o 100 Hz (mujeres) para eliminar ruido. Corta 2-4 dB a 200-300 Hz para reducir turbiedad. Sube 2-4 dB a 2-6 kHz para claridad del habla. Después corta esas mismas frecuencias medias (300 Hz-3 kHz) en la pista de música para crear un "bolsillo vocal."

Puedo usar cualquier música en YouTube?

No. Música sin licencia resulta en reclamos de copyright, desmonetización o strikes de canal. Usa la Audio Library gratuita de YouTube (1,500+ pistas), o suscríbete a bibliotecas con licencia: Epidemic Sound ($17.99 USD/mes, ~$360 MXN), Artlist ($14.99 USD/mes, ~$300 MXN) o Storyblocks ($15 USD/mes, ~$300 MXN). Todas proporcionan música pre-aprobada para uso en YouTube.

Fuentes

How to Master Audio for YouTube — Sweetwater — accedido 2026-04-03
YouTube -13 LUFS Reference Level — Sweetwater — accedido 2026-04-03
Loudness Standards: LUFS and Peaks — Sweetwater — accedido 2026-04-03
Mastering for Streaming Platforms — iZotope — accedido 2026-04-03
Background Music Volume — Pure Audio Insight — accedido 2026-04-03
Audio Mixing for Video — Epidemic Sound — accedido 2026-04-03
YouTubers Need Better Sound Mixing — How-To Geek — accedido 2026-04-03
Auto Ducking in Premiere Pro — Adobe — accedido 2026-04-03
DaVinci Resolve Audio Ducking — Boris FX — accedido 2026-04-03
Mixing Narration with Background Music — Audacity Manual — accedido 2026-04-03
YouTube Background Music by Genre — Soundstripe — accedido 2026-04-03
Background Music Volume: Getting It Perfect — Wistia — accedido 2026-04-03
Music and Viewer Engagement on YouTube — Soundraw — accedido 2026-04-03
YouTube Audio Library — YouTube Help — accedido 2026-04-03
Artlist vs Epidemic Sound 2025 — Photutorial — accedido 2026-04-03
EQ for Voice Over — Music Guy Mixing — accedido 2026-04-03