Header Ads

test

Así es como Shazam o SoundHound saben qué canción está sonando

Hace años que se acabó aquello de buscar el título de una canción por el estribillo. O por las tres palabras que hemos entendido de su letra en otro idioma. Ahora basta con desenfundar el móvil y utilizar una aplicación de reconocimiento musical como Shazam. Sus algoritmos son capaces de identificar un tema a partir de unos pocos segundos de reproducción. Sólo hace falta acercar el teléfono al altavoz para que las apps registren las melodías y den incluso con las más remotas. A Shazam, probablemente la más conocida, ni siquiera le molestan demasiado los ruidos del ambiente (y eso que muchas de las búsquedas se realizan en bares y restaurantes donde el silencio brilla por su ausencia). ¿Cómo es posible que ignore otros sonidos y reconozca hasta la última nota? Te desvelamos todos los secretos, a continuación.

La inmensa colección musical de Shazam
Los algoritmos que utiliza Shazam y otras aplicaciones parecidas hacen la identificación en base a una especie de huellas sonoras.

Primero, la aplicación guarda un completo catálogo de temas, cada uno con un espectrograma único. Se trata de una representación gráfica de tres variables: el tiempo, la frecuencia y la intensidad. En otras palabras: el espectrograma refleja la distribución de sonidos y las propiedades acústicas de la canción. Actúa como un DNI musical donde figuran su melodía y letra. Shazam tiene una biblioteca virtual donde guarda millones de estas identificaciones (cada una para un tono distinto), generadas por ella misma.


Los algoritmos de la aplicación consultan el catálogo siempre que un usuario registra una canción con su teléfono. La herramienta toma ese fragmento y extrae su espectrograma para compararlo con los que ya tiene en su poder. Si encuentra una coincidencia, devuelve al curioso la información de la canción correspondiente; si no, le muestra un mensaje de error.

SoundHound, otra de las apps estrellas de la identificación musical, utiliza un sistema muy parecido. También almacena un multitudinario repertorio de señas musicales y es capaz de detectar las propiedades de cada nueva canción para buscar su gemela.

Aunque ni los creadores de Shazam ni los de SoundHound quieren desvelar muchos detalles sobre la tecnología que utilizan, la segunda parece ser más precisa. Las características acústicas que detecta le permiten incluso identificar canciones silbadas o tarareadas.

¿Esto es música clásica o hip hop?
Aparte de reconocer canciones, la inteligencia artificial puede utilizarse para averiguar su género, pero primero hay que entrenarla. Así lo ha explicado el programador Julian Despois, que ha desarrollado una herramienta para clasificar temas en base a este criterio.

El primer paso en el proceso es recopilar un gran número de canciones (Despois ha considerado 2.000) y clasificarlas según su género, procurando que todos estén representados.

Después, hay que extraer las particularidades sonoras que caracterizan cada una de ellas y crear su corriente espectrograma, como ocurría en las aplicaciones Shazam y SoundHound.


Aquí es donde entra en juego la inteligencia artificial (IA). Despois usa un tipo de red neuronal artificial, es decir, una serie de algoritmos que funcionan como las neuronas del cerebro. Basan su funcionamiento en el del órgano y por eso son capaces de aprender.

Los pequeños soldados del sistema artificial reciben primero la información, esto es, estudian cada canción y la relacionan con su género. Así es como extraen y asimilan las claves que caracterizan el sonido del rock, la música electrónica, la clásica, una banda sonora o el rap.

Ahora, están listos para aplicar la lección que han aprendido a nuevos casos. Al conocer las características acústicas de cada género, serán capaces de identificarlas en nuevas canciones y clasificarlas desde cero.

Cantautores artificiales
Unos sistemas similares a los anteriores han utilizado los ingenieros de Google para conseguir lo contrario: que un programa escriba una canción. Su idea se engloba en un proyecto más amplio, Magenta, enfocado a fomentar la creatividad de la inteligencia artificial.

Las herramientas creadas en este marco, también basadas en redes neuronales artificiales, analizan decenas de miles de canciones y son entrenadas para predecir la siguiente nota en una secuencia. Pese a los esfuerzos, hasta ahora sólo se habían conseguido composiciones mediocres.


En esta nueva iniciativa, los expertos han añadido a la ecuación algo de teoría musical. Han enseñado (técnicamente hablando) a los algoritmos algunos principios básicos de composición musical: no ser repetitivo, no ir demasiado rápido o despacio, etc.

Para dirigir a la herramienta en el aprendizaje, han usado una técnica de refuerzo. En otras palabras, le daban un refuerzo positivo cuando acertaba y uno negativo cuando lo hacía mal, como si se tratara de un niño pequeño.

La pieza resultante, compuesta algorítmicamente, podría haber salido de la cabeza de un compositor humano. Según Jürgen Schmidhuber, que ha participado en investigaciones relacionadas con este trabajo, “no hay ninguna razón para que las máquinas no puedan ser curiosas y creativas”.

Aplicaciones científicas
El reconocimiento de sonidos no sólo resulta útil en el ámbito musical, sino que también tiene usos científicos. Un buen ejemplo es el de dos desarrolladores y una ornitóloga de la Universidad de Cornell que han colaborado con expertos del Laboratorio Creativo de Google para estudiar los gorjeos de los pájaros.

El objetivo de este curioso equipo era analizar los miles de trinos grabados por los investigadores del centro estadounidense. Para ello, los informáticos utilizaron el machine learning o aprendizaje automático, una rama de la inteligencia artificial.

El sistema creado por estos expertos fue capaz de clasificar los sonidos sin que tuvieran que indicarle ningún detalle sobre las variables acústicas o la especie de ave.

El algoritmo fue capaz de organizar los gorjeos y los datos asociados a cada pájaro escuchando los audios y analizando únicamente el sonido. De forma similar a las aplicaciones que reconocen canciones, generó huellas acústicas (como los espectrogramas) de los trinos para identificar cada uno de ellos. “Son imágenes o conjuntos de números que representan cada muestra”, explica uno de los desarrolladores. Gracias a la información que pudo asimilar, el sistema consiguió agrupar los sonidos parecidos y representarlos visualmente. El algoritmo “averiguó cómo agrupar sonidos similares de pájaros relacionados”, indica el otro programador.


El mapa acústico resultante permitía, además, buscar el nombre de una especie para que la herramienta hallara el sonido correspondiente. “Algún día seremos capaces de poner un micrófono en el Amazonas e identificar las especies tanto de aves como de otros animales”, predice la ornitóloga del grupo.

Enseñando a las máquinas a escuchar
Otro equipo de científicos del Instituto Técnico de Massachusetts (MIT), en el que figura el español Antonio Torralba, intenta también enseñar a las máquinas a escuchar. El fin es que puedan distinguir distintos sonidos, sin restringir las categorías a canciones o aves.

A diferencia del caso anterior, estos expertos sí usaron pistas visuales: mostraron a sus algoritmos los sonidos acompañados de imágenes. Por ejemplo, si se trataba del llanto de un bebé, utilizaban vídeos en los que aparecían niños llorando.

Con este entrenamiento, el sistema fue capaz de asociar los sonidos con las imágenes correspondientes y reconocerlos después.

Ya es una realidad
Los aparatos que escuchan no son solamente cosa de laboratorios científicos. Los móviles modernos ya están habitados por ávidos oyentes: los asistentes como Siri de Apple, Cortana de Microsoft, Alexa de Amazon o Google Assistant ya registran y analizan los comandos de voz de los usuarios.

El gigante de Redmond quiere ir un poco más allá. Se ha asociado con Intel para desarrollar las capacidades de Cortana en los ordenadores (viene instalado por defecto en Windows 10). “Pronto los usuarios serán capaces de hablar con sus ordenadores a distancia y acceder a toda la información en el dispositivo y la nube”, ha explicado Navin Shenoy, uno de los responsables del fabricante de chips.

Si todo sigue así y esta tecnología se extiende a toda la casa, no sólo nos escucharán nuestros ordenadores y smartphones. También lo harán el frigorífico, el microondas o la televisión. Lo malo es que, además de un hogar inteligente, tendremos las habitaciones plagadas de cotillas.

¿Tienes algo que añadir a esta historia? Compártelo en los comentarios.

Fuente y texto: mediatrends

VIDEOS DE RECOMENDACION