Esta apasionante tecnología de Inteligencia Artificial es capaz de crear temas completos a partir de sólo unas palabras descriptivas –aún no la puedes usar, pero escucha sus resultados…
Por mucho que pese a algunos (uhm, quizá muchos), la Inteligencia Artificial ha llegado al mundo de la producción musical con grandes expresiones, y para quedarse aquí, sin duda. El hype del momento es que Google ha provisto algunas de las pruebas sonoras más convincentes del uso de la IA.
Y nos referimos a MusicLM, un nuevo modelo basado en aprendizaje automático que es capaz de generar música a partir de una entrada de texto, al estilo de ChatGPT, pero con salida musical; en estos momentos, aunque aún está en una fase inicial de su desarrollo, MusicLM es capaz de entregar resultados que podríamos calificar como asombrosos, y hasta increíbles.
A finales de 2022, sistemas como Riffusion ya nos metieron en este campo, aunque los desarrolladores de Google aseguran ahora que MusicLM es capaz de sobrepasar a los esfuerzos previos tanto en calidad sonora como en su apego a las descripciones entregadas de base.
«MusicLM aborda el proceso de generación musical condicional como una tarea de modelado jerárquico de secuencia a secuencia, y es capaz de generar música a 24kHz que mantiene constante durante varios minutos» –Google Research
No sólo texto: MusicLM opera incluso con música de entrada
Esos 24kHz quizá no sean ‘alta fidelidad’ para nuestros estándares, todo sea dicho de paso, pero otro de los alicientes de MusicLM es que el usuario puede entrenar al sistema con música tarareada, improvisada, o incluso a partir de silbidos o susurros. Imagina una combinación de todo ello con el texto ya comentado, y verás que esta herramienta es capaz de entregar resultados de gran creatividad, como es posible dilucidar a la luz del sonido de los ejemplos provistos.
Y es que el potencial de MusicLM queda bien claro con los ejemplos que Google ha publicado: Hablamos de muchos clips de audio, decenas de hecho, que puedes escuchar al tiempo que lees las cadenas de texto que emplearon para su creación –fíjate bien, aquí puedes acceder a ellos.
De este modo, cuando leemos el ejemplo «Sonidos techno industriales, ritmos repetitivos e hipnóticos […] Las cuerdas que tocan una melodía repetitiva crean una atmósfera espeluznante e inquietante […] La música es hipnótica y parecida al trance, y es fácil perderse en el beat […] Las notas agudas de las cuerdas atraviesan la oscuridad, agregando una capa de tensión y suspenso…», y escuchamos el resultado, quedamos perplejos. Y tú mismo puedes ser también testigo del resultado en MusicLM que provocó tal petición (embebido desde la fuente oficial)…
Temas completos, uso de instrumentos, interpretación, ¡imágenes!
Entre los ejemplos puedes escuchar pistas completas de hasta cinco minutos, que aparentemente fueron obtenidas desde sólo una o dos palabras; incluso hay generaciones desde una enumeración de marcadores de tiempo, con música basada en diversas peticiones (prompts) de fragmentos diferentes que acaba sonando en continuidad, sin ningún tipo de costuras.
Y parece aún más sorprendente la posibilidad de instruir a MusicLM a partir de imágenes y pies de foto, (escucha la música interna de obras como El Grito de Edvard Munch, o Guernica de Pablo Ruíz Picasso, por ejemplo); o generar audio con un instrumento específico o cualesquiera variaciones del mismo.
Devuelve incluso resultados basados en sugerencias de estilos o géneros musicales, niveles de experiencia del intérprete virtual (guitarrista principiante, intermedio o profesional, dicen), así como música inspirada en sitios, épocas de la historia (club en los años 50), situaciones, o finalidades –música motivadora para deportes es otro de los ejemplos provistos.
Tan sorprendente como aterrador: MusicLM dibuja el futuro musical de la IA
Cuando has experimentado el sonido de todo lo que citamos como ejemplos, y has alcanzado a tan sólo arañar en sus fundamentos, empiezas a ver a MusicLM como un sistema de enormes posibilidades. Pero al mismo tiempo parece preocupante e infunda cierto miedo, ya que no deja de ser un robot que muchos ya perciben como de existencia perturbadora, por resumirlo de alguna manera.
El asunto de los derechos de autor parece ser, a todas luces, un campo difuso al toparse con este tipo de avances con tecnología computacional de vanguardia…
Las razones para que el sistema haya sido presentado en un nivel de resultados sin opciones para disponer de una funcionalidad pública, al parecer estarían basadas en ciertas preocupaciones del equipo de desarrollo sobre el copyright. Y es que su creación basada en técnicas de Machine Learning incluyó el análisis de material pendiente de derechos, alojado en múltiples repositorios, con una buena parte del mismo obtenido desde YouTube.
Sería el mismo precedente tras otros generadores de texto a multimedia, con los casos conocidos de Midjourney, Stability AI, e incluso DeviantArt, con finalidades gráficas en esos casos. Pero hasta donde sabemos, los promotores de dichos modelos de IA no han sido tan cautos y sinceros con el asunto de los derechos de autor, lo cual parece ser a todas luces, un campo difuso al toparse con este tipo de avances con tecnología computacional de vanguardia.
La presentación de MusicLM añade más leña a esta hoguera actual de la irrupción ‘creativa’ de la Inteligencia Artificial, reforzando el argumentario de quienes consideran que esta tecnología es capaz de acabar con la producción musical tal como la conocemos. Al menos, y de momento, ‘el demonio’ está atado, ya que como decimos no es posible estar bajo su influencia a menos que pertenezcas al equipo humano de Google Research.
Todo lo que es posible comprobar y revisar sobre sus trabajos incluye la documentación completa del proyecto, una base de datos MusicCaps de 5.500 asociaciones por pares de música y texto, e incluso el código fuente del modelo de IA, por si quieres sumergirte en sus profundidades.