El día en que podamos ignorar a grupos enteros de población, ¿ha llegado?

Google ha desarrollado un conjunto de algoritmos que permite filtrar una voz entre otras aplicado a un vídeo. Funciona mediante técnicas de machine learning. Se trata de una tecnología maravillosa que nos ayudará a disfrutar de los vídeos con mucho ruido de fondo o con varias voces que se pisan unas a otras.

Pero también sienta un peligroso precedente. Cuando se da voz a una persona, se está silenciando a otras. Una tecnología capaz de suprimir a ciertas personas puede tener usos poco éticos. Especialmente si esta se miniaturiza y llega al teléfono móvil. El día en que podamos ignorar a grupos enteros de población, ¿ha llegado?

¿Cómo funciona esta tecnología que separa el sonido?

El sonido es un conjunto de variaciones de presión en la atmósfera. Un tipo de transmisión de energía y potencia. Cuando alguien habla, el aire sale de sus pulmones en forma de ondas esféricas de presión. Estas ondas ven modulada su frecuencia con las cuerdas vocales. Así se ve el sonido de la palabra “hola” repetida tres veces:

sonido-ver

Cuando varias personas hablan cerca de un observador (como un micrófono o tus oídos) sus sonidos se entremezclan. La potencia sonora se suma, y por tanto también lo hacen las variaciones de presión. El sonido se vuelve confuso, y por eso no podemos escuchar con nitidez si dos personas hablan  la vez.

El departamento Research at Google ha usado un modelo de machine learning para desentrelazar las pistas de audio. Usan para ello diferentes marcadores. Por ejemplo, el tono y timbre de la voz, únicos para cada persona. Este es el magnífico resultado:

Como podemos comprobar, funciona para filtrar las voces cuando en un programa de televisión ambos comentaristas hablan al tiempo. Y sorprende que pueda filtrarse también a alguien cuando superponemos dos vídeos suyos, o cómo elimina el ruido ambiente.

La tecnología dispone de dos capas diferentes. Además de la capa de audio para desentrelazar sonidos hay una capa de vídeo que “lee los labios”. Esto consolida la capa anterior y la convierte en una tecnología con cierto grado de autonomía.

La red está repleta de vídeos en los que los ruidos no nos permiten disfrutar de lo que dicen los protagonistas. Con esta tecnología podríamos separar aquellos sonidos molestos y concentrarnos en una sola voz. Es genial, ¿verdad? Pero plantea también cuestiones éticas.

Podremos ignorar a otras personas, ¿lo haremos?

Como hemos introducido al inicio del artículo, la tecnología podría ser usada de una forma poco ética. El poder de silenciar a una persona, a una parte de la población o incluso a un idioma es un poder considerable. Google tiene YouTube para experimentar con esta tecnología, y tendrá el poder de “modular” ciertas voces.

tecnologia-sonido-google-ignorar

Otra palabra un poco menos bonita es “censurar”. YouTube censura constantemente. Una tecnología que me permite apagar voces puede ser fácilmente utilizada para acallar voces. De forma ideológica, política, educativa… El buen o mal uso de esta tecnología dependerá de cómo se use, e incluso de las tendencias del mercado.

Esto es especialmente duro si la tecnología se mercantiliza y miniaturiza hasta resultar portátil. O, dicho de otro modo, si nos la podemos descargar en nuestros smartphones en forma de aplicación. Imaginemos un mundo en el que podemos suprimir en tiempo real diferentes sonidos. ¿Qué “modularíamos” primero?

Está claro que no queremos escuchar sonidos de obras, pitidos de coches, jaleo de muchas voces, algunas demasiado estridentes…, el sonido de los aires acondicionados, los ladridos del perro del vecino, el sonido de los niños jugando en la calle…, las voces de los comerciales y las de los mendigos…

Puede parecer duro, pero la mayoría de personas consideramos molesto el spam, y hay aplicaciones que nos ayudan a evitarlo. Por la calle, las peticiones (incluso las que vienen por una buena causa) nos generan cierto rechazo y son consideradas una forma de spam. En ocasiones es porque vamos con prisa, en otras porque no disponemos de dinero, y también las hay por vergüenza social.

mendigo-sordo-tecnologia

Si hubiese una aplicación que pudiese suprimir el “Dame un euro” junto con otros sonidos molestos, ¿cuánta gente se la instalaría? Es más que probable que las personas sin hogar, un colectivo a menudo invisibilizado quedase, además, silenciado.

La voz, ¿próxima frontera de los delitos?

En 2016 Adobe mostró un programa llamado el “Photoshop de la voz”. Hasta entonces era posible manipular una imagen y hacer fotomontajes, pero desde entonces ha sido posible hacer “fonomontajes” o montajes de sonido. Todavía no está lanzado al mercado, pero VoCo promete dar mucho juego, ya que allá por 2016 permitía editar palabra a palabra un sonido.

En una línea parecida iba la aplicación diseñada en la Escuela de Ciencias de la Computación e Ingeniería de la Universidad de Washington, que en 2017 mostró un vídeo en el que se conseguía sintetizar la voz de Obama. Por supuesto se ha conseguido gracias a que es una voz grabada decenas de miles de veces y de la que hay un amplio repertorio en la red.

En la misma línea se encuentra la aplicación desarrollada por Lyrebird en 2017. Utiliza inteligencia artificial para construir las voces de personajes famosos. De momento lo clava con Obama, Trump y Hillary Clinton. Si podemos suprimir la voz o generar audios nuevos, tenemos un enorme poder de acción… y manipulación.

Pistas complementarias, el formato de los subtítulos de YouTube

Solo la educación puede evitar que hagamos oídos sordos gracias a esta futura tecnología portátil, que llegará antes o después. En su aplicación web, sin embargo, las diferentes compañías pueden establecer herramientas que eviten la censura o el mal uso.

El sistema de pistas complementarias que utiliza YouTube para sus subtítulos es un buen formato que este sistema podría adoptar. Cualquier persona puede seleccionar, de entre los idiomas disponibles, en cuál quiere leer el vídeo. La decisión no es de YouTube, sino del espectador y de quien sube el vídeo. Se da la opción al usuario.

Netflix, Prime Vídeo o HBO hacen lo mismo añadiendo pistas de idiomas. Es el cliente el que elige en qué idioma ve el vídeo, en ocasiones a elegir entre una decena.

Si el sistema de filtrado de voces desarrollado por Google no suprime ninguna y se usa para mejorar la calidad del vídeo, dando la opción al usuario de elegir qué audio desea escuchar, se tratará de un sistema que no añada conflicto ético.

Si por contra se aplica de manera automática haciendo imposible escuchar ciertas voces, como las de fondo en una convención, estaremos ante un uso de la tecnología de ética cuestionable.

En Lenovo | Quieren ponerte un chip en el cerebro. ¿Te dejas?

Imágenes | iStock/SIphotography, iStock/OcusFocus, Matt Collamer

 

Etiquetas: