immersive audiosound designEdición de sonidospatial audioTechnology

Audio 8D – un viaje espacial

Por: Santiago Ruiz Sánchez

Tiempo de lectura: 15 min

En  diciembre  de  2019  se  hizo  viral  un  canción  de  la  banda  Pentatonix la cual mencionaba el uso de audio 8D. El mensaje indicaba a los oyentes a escuchar con audífonos para experimentar el efecto correctamente. Curiosamente, durante los días siguientes a esto, colegas investigadores en audio publicaban mensajes en relación a lo fácil que sería de ese momento en adelante  explicar  su  campo  de  investigación  a  las  personas  que  no  conocen  del tema.  Gran  cantidad  de  personas  desconoce  conceptos  de  audio  y  acústica que permiten explicar y entender lo que sucede tras el audio 8D. La idea de este artículo es simplificar algunos de esos conceptos para aquellas personas que los desconocen.

Comencemos por aclarar que el término audio 8D es un nombre llamativo que  se  le  dió  al  concepto  científico:  audio  espacial.  El  audio  espacial  es  un conjunto  de  técnicas  de  grabación  y reproducción,  así como  lo  son  el  audio estéreo y envolvente (surround). En el audio estéreo la reproducción se realiza a través de dos altavoces y diferentes sonidos (guitarras, batería, voces, en una canción, por ejemplo) son ubicados horizontalmente entre los altavoces. En el audio envolvente existen mas posibilidades, ya que se cuenta con mínimo 6 altavoces; 5 altavoces ubicados a ciertos ángulos sobre una circunferencia y 1 altavoz que reproduce frecuencias bajas (subwoofer), de ahí el nombre 5.1. Esta distribución de altavoces permite crear experiencias auditivas en donde los sonidos provienen de cierta dirección alrededor del oyente. Ésta es una de las razones porque las películas producen el audio en este formato. Tanto el audio estéreo como envolvente incrementan o disminuyen el nivel con el que cada sonido se reproduce en los altavoces para crear el efecto deseado de localización. Por otra parte, el audio espacial utiliza otras técnicas para recrear estos efectos, y se fundamenta en cómo los humanos percibimos el sonido a nuestro alrededor [1, 2].

Los humanos poseemos un sistema auditivo complejo que nos permite analizar las diferentes características de los sonidos que escuchamos en milisegundos,  y,  además,  asociarlas con  la  fuente  que  genera  el  sonido;  su ubicación, velocidad a la que se desplaza y/o distancia a la que se encuentra, entre otros [1]. El sistema auditivo humano comienza en las orejas, las cuales son fundamentales para definir la ubicación de una fuente sonora. La distancia entre las orejas ocasiona que un sonido llegue primero a una oreja, creando una diferencia de tiempo (de milisegundos) que nos permite ubicar fuentes sonoras. La cabeza, torso y hombros se encargan de modificar el sonido en cada oreja, lo que genera que los sonidos que percibimos en cada una sean ligeramente diferentes. El audio espacial se ayuda de estas diferencias para generar  modelos  físicos  y  matemáticos  de  como  los  humanos  escuchamos  y así procesar los sonidos de manera acorde para recrear la misma experiencia auditiva en la reproducción de cualquier sonido [3–5].

Considera el siguiente escenario: te encuentras con los ojos cerrados escuchando  un  radio  que  está en  frente.  Si  le  das  la  espalda  al  radio,  el sonido proveniente del radio llegará al mismo tiempo a ambos oídos, lo cual también  sucede  cuando  el  radio  está  en  frente.  Entonces,  ¿cómo  diferenciamos entre sonidos que provienen de diferentes posiciones pero llegan al mismo tiempo a ambos oídos? El torso, hombros, cabeza y orejas son cruciales para lograr determinar la dirección de la que proviene un sonido, pues alteran algunas  características  de  estos.  

Ahora  bien,  considera  un  escenario  donde en lugar de escuchar un radio físicamente, escuchas una representación (imagen) virtual del radio a través de audífonos. Para dar la impresión que el radio se encuentra al frente tuyo, los auriculares, izquierdo y derecho, deben reproducir ambos sonidos con el mismo nivel simultáneamente. Sin embargo, el sonido proveniente de los altavoces al interior del los audífonos no interactúan de ninguna manera con nuestro torso, hombros y/o cabeza ¿cómo diferenciamos entre sonidos que llegan a nuestros oídos con la misma diferencia de tiempo e igual amplificación usando audífonos? El audio Binaural permite superar estas dificultades [3, 4].

imagen tomada de Unsplash - MT Nguyen

La palabra binaural proviene de escuchar con dos oídos. El audio binaural es  una  técnica  que  permite  grabar  y  reproducir  audio  espacial.  Su  concepto  es  simple,  capturar  el  sonido  lo  más  fielmente  posible  a  lo  que  dos  oídos escucharían [2]. Para esto se usan cabezas artificiales que tienen micrófonos en donde estarían los tímpanos. Esto da como resultado la grabación de dos sonidos, uno en el micrófono del oído izquierdo y otro del derecho. Para una correcta reproducción de los sonidos, la grabación del oído izquierdo se debe reproducir únicamente en el oído izquierdo y la grabación del oído derecho en el oído derecho del oyente. La forma más simple de lograr esto es con audífonos, es por esto que muchas de estas experiencias auditivas requieren su uso de audífonos (Virtual barber shop). Sin embargo esta técnica no funciona correctamente en algunas personas debido a que las dimensiones morfológicas de la cabeza artificial no se ajustan a las de algunas personas.

A  raíz  de  esas  limitaciones  del  audio  binaural,  otras  técnicas  de  grabación  y  reproducción  se  han  desarrollado.  Entre  ellas,  Ambisonics  resalta  en la comunidad de audio; tanto productores, ingenieros y músicos la han oído mencionar, pero ¿en qué consiste? El objetivo de Ambisonics es capturar información  sobre  el  campo  sonoro  alrededor  de  un  oyente  en  lugar  de  en  los tímpanos [6,7]. Para lograrlo es necesario ubicar múltiples micrófonos en posiciones determinadas usualmente sobre una esfera. La cantidad de micrófonos determinará la calidad de la información grabada sobre el campo sonoro. La reproducción de Ambisonics puede realizarse a través de múltiples altavoces arreglados  en  una  esfera,  o  a  través  de  audífonos.  A  la  representación  que se obtiene del campo sonoro se le da el nombre de codificación, la cual, una vez es obtenida, permite incluir el efecto del torso, hombros y cabeza de un oyente para crear los sonidos correctos en los oídos izquierdo y derecho, sin necesidad de usar una cabeza artificial [8]. Esta técnica es mucho más versátil ya que permite incluir rotaciones y movimientos de la cabeza.

Volviendo al escenario con el radio físico, considera un escenario donde el  oyente  gira  su  cabeza  hacia  la  izquierda,  esto  ocasionará  que  el  sonido proveniente del radio se escuche primero y más fuerte en su oído derecho. Al usar audífonos, idealmente, la imagen virtual del radio debería escucharse con mayor amplificación en el auricular derecho que en el izquierdo. Además, el sonido en el auricular izquierdo debería estar retrasado con respecto al derecho para recrear más fielmente la situación real. Sin embargo esto no sucede, al  girar,  ambos  auriculares  mantienen  su  amplificación  original,  lo  cual  significa que no solo la persona gira su cabeza a la izquierda sino también que el radio se desplaza en la misma dirección, estando siempre frente al oyente. La inhabilidad de compensar el contenido dependiendo de las rotaciones de la  cabeza  del  oyente  es  una  de  las  limitaciones  de  la  reproducción  de  audio binaural en audífonos. Esto puede resolverse incluyendo un giroscopio y así actualizar  los  sonidos  dependiendo  de  la  orientación  de  la  cabeza  del  oyente [5].

Ahora bien, si un sonido fue grabado y posteriormente se decide que el contenido se presentará usando audio espacial, es posible lograrlo utilizando filtros, así como en las fotografías. Existen ahora versiones de canciones en ’audio 8D’ que no fueron grabadas usando audio espacial, haciendo uso de los filtros adecuados. Esto abre un abanico de posibilidades para crear contenido audiovisual que den una mayor inmersividad a los oyentes. Un ejemplo de esto es ECUADOR (Ver video), un pequeño audiovisual, mezclado en Sinsonte, con tecnologías de audio espacial.

En  resumen,  el  audio  espacial  es  un  conjunto  de  técnicas  de  grabación y  reproducción  de  sonido  que  permite  a  los  oyentes  recrear  experencias  auditivas  de  una  manera  más  cercana  a  la  realidad.  En  la  actualidad  existen múltiples aplicaciones de esta tecnología: cines, barras de sonido (Las cuales reproducen audio binaural sin audífonos), implantes auditivos (donde todo el conocimiento del sistema auditivo es vital para que personas con problemas auditivos escuchen con la menor cantidad de inconvenientes), videojuegos, instalaciones multimedia interactivas, smartphones (El iOS 14  de  Apple  incluye  ahora  audio  espacial  y  permite  rastrear  la  orientación de la cabeza usando Airpods [9]),  y producción musical (el audio de la banda Pentatonix es un ejemplo). Se espera que, en los próximos años, el desarrollo de esta tecnología siga creciendo como fruto de la investigación desarrollada, volviéndose más accesible a todas las personas.

Bibliografía

[1] Blauert, Spatial hearing: the psychophysics of human sound localiza- tion. MIT press, 1997.

[2] Blauert, Ed., The technology of binaural listening. Springer, 2013.

[3] Paul, “Binaural recording technology: A historical review and possible future developments,” Acta acustica united with Acustica, vol. 95, no. 5, pp. 767–788, 2009.

[4] Møller, “Fundamentals of binaural technology,” Applied acoustics, vol. 36, no. 3-4, pp. 171–218, 1992.

[5] Hess, “Head-tracking techniques for virtual acoustics applications,” in Audio Engineering Society Convention 133. Audio Engineering Society, 2012.

[6] A. Gerzon, “Ambisonics in multichannel broadcasting and video,” Journal of the Audio Engineering Society, vol. 33, no. 11, pp. 859–871, 1985.

[7] Fazi, M. Noisternig, and O. Warusfel, “Representation of sound fields for audio recording and reproduction,” in Acoustics 2012, 2012.

[8] S. Davis, R. Duraiswami, E. Grassi, N. A. Gumerov, Z. Li, and D. N. Zotkin, “High order spatial audio capture and its binaural head-tracked playback over headphones with hrtf cues,” in Audio Engineering Society Convention 119. Audio Engineering Society, 2005.

[9] (2020) iOS 14 preview. [Online]. Available: https://www.apple. com/ios/ios-14-preview/