智慧應用 影音
Microchip
ST Microsite

AI解析音樂與尼采如是說

我以AI物聯網分析音樂,並利用其結果來驅動樂器的演奏,稱之為MusicTalk。接下來就想訓練大型語言模型(LLM),將文字與音樂互換,再將音樂用來詮釋影像。最大的應用是電影配樂。

要將音樂智慧化以配合影像,科技人必須對音樂的內涵有深入的認識。例如電影的配樂最讓人印象深刻的是1968年電影《2001太空漫遊》(2001: A Space Odyssey)中用史特勞斯(Richard Strauss, 1864~1949)演繹《查拉圖斯特拉如是說》(Thus Spake Zarathustra)這首樂曲的開場。

《查拉圖斯特拉如是說》是尼采(Friedrich Wilhelm Nietzsch, 1844~1900)的作品。它不同於一般哲學作品,而是以散文詩完成。尼采曾表示這本書實際上是一部「交響曲」,以一種偽聖經風格撰寫,它包含許多含糊不清且充滿詩意的神秘箴言。

我沒讀通這本書,膚淺了解其主要思想是,人類應該擁抱生活、自然、身體和物質存在,包括其中的樂趣和痛苦,而非尋求超越或來世的精神世界。生活即使伴隨著所有的苦難,還是值得為了它的存在而生活。

許多藝術家和作曲家受到《查拉圖斯特拉如是說》的影響,但很少有人像史特勞斯那樣深切融入尼采的哲學觀點。1896年時32歲的史特勞斯開始創作 《查拉圖斯特拉如是說》樂章。當時尼采因三期梅毒的感染,已精神失常。史特勞斯將自己作品的各個部分以尼采書中不同章節命名。他嘗試將尼采抽象的文字清晰地翻譯成同樣抽象的器樂音樂。該作品在完成後幾個月內進行首演,其華麗的編曲、複雜的音樂紋理、大膽的和諧和具爭議性的主題,引發激烈的批評和喝采。

《2001太空漫遊》使用這首樂曲開場為外太空的日出配樂,符合史特勞斯描繪尼采書中開場的山頂日出情境。開場中的小號旋律呈現「自然」或「世界之謎」動機;它在整個樂曲中反覆出現,象徵著大自然的冷漠和神秘性: 在強烈的開場之後,號角的回應是一個宗教式的旋律,由分散的弦樂器精彩演奏。開場時音樂從柔和到逐漸增強,象徵著人類對一個完美、天堂般、精神上的自然替代的渴望。

有了《2001太空漫遊》的例子,我嘗試以MusicTalk反推史特勞斯的音樂,想找出他想表現的意涵,卻遭遇極大困難。史特勞斯曾經開玩笑地說,他可以在音樂中訴說一切,即使人們無法理解,我就是那位無法理解的人,妄想以物聯網駕馭史特勞斯的音樂。

《查拉圖斯特拉如是說》太過深奧,AI處理不來。我決定放棄好高騖遠的做法,由小朋友聽得懂的《彼得與狼》訓練MusicTalk,總算有初步成果。這是一個基於物聯網的創新音樂樂器檢測系統。MusicTalk 引入了一種名為亮度特徵基礎Patchout的新穎機制,以提高樂器檢測的準確性,並超越現有解決方案。

MusicTalk首次系統性地將單個樂器檢測器作為物聯網設備進行整合,為與其他物聯網設備的交互管理提供有效的方法。我們在MusicTalk中引入一個通用音頻整形器,融合各種音樂公開數據集,如Audioset、OpenMIc-2018、MedleyDB、URMP和INSTDB。

我們利用Grand-CAM分析Mel-Spectrograms來優化 MusicTalk中ViT Patchout和CNN的組合,以實現前所未有的準確率。例如,小提琴檢測的精確率和召回率分別達到96.17%和95.77%,這是所有方法中最高的。此外,MusicTalk 的另一個優勢在於其基於物聯網的視覺化能力。通過將樂器檢測器作為物聯網設備整合,MusicTalk能夠使用動畫Avatar來無縫地視覺化歌曲。

透過《彼得與狼》為例的案例研究,我們證明,改進的樂器檢測準確性增強音樂的視覺敘事效果。與先前的方法相比,MusicTalk在這首歌曲上的F1分數提高12%。然而,我念念不忘的是,我們訓練AI模型,何時能如同史特勞斯,了解尼采的想法。MusicTalk仍有很大的改進空間。

 

尼采(Friedrich Wilhelm Nietzsch, 1844~1900)。

現為國立陽明交通大學資工系終身講座教授暨華邦電子講座,曾任科技部次長,為ACM Fellow、IEEE Fellow、AAAS Fellow及IET Fellow。研究興趣為物聯網、行動計算及系統模擬,發展出一套物聯網系統IoTtalk,廣泛應用於智慧農業、智慧教育、智慧校園等領域/場域。興趣多元,喜好藝術、繪畫、寫作,遨遊於科技與人文間自得其樂,著有<閃文集>、<大橋驟雨>。