數位音樂典藏之資料探勘與智慧型檢索技術            政治大學資訊科學系

「數位典藏國家型科技計畫」的目的在於妥善保存國家的文化資產,推廣精緻藝術的流傳與品賞,強健文化的傳承與發展,並鼓勵資訊與知識的分享。在目前典藏的文物中,常見的媒體形式多以文字、影像與視訊為主體,以音樂為主題的典藏資料庫並不多。

然而台灣在音樂方面,從國樂、南北管、原住民音樂、閩南民謠、客家民謠乃至校園民歌都是豐富的文化資產。國樂中,由董榕森先生作曲的「陽明春曉」是耳熟能詳的梆笛演奏曲。而1996年亞特蘭大奧運主題曲「反璞歸真」即源自於馬蘭地區的阿美族人郭英男的「老人飲酒歌」。日據時期由鄧雨賢先生作曲、李臨秋先生作詞的「望春風」則為家喻戶曉的閩南民謠。921地震之後,旅美的大提琴家郭虔哲即在美國卡內基音樂廳演奏閩南民謠「望春風」、「補破網」、「雨夜花」來賑災募款。60年代陳達的恆春民謠「思想起」,一把月琴、一生艱辛更是台灣經濟發展過程中的重要文化資產。在客家民謠方面,無論是老山歌、山歌仔、平版調,都是質樸勤奮的客家人之寫照。而70年代由於時代背景而風行一時的校園民歌,隨著時光的流逝,也逐漸進入我們的回憶中。這些音樂都伴隨著台灣的發展,以音樂的方式訴說著我們文化發展的歷程。

與其他形式的媒體類似,數位音樂典藏的技術研究議題包括智慧財產權與隱私權管理機制、數位典藏資料庫技術與多媒體處理技術。隨著MP3P2P的盛行,智慧財產權管理機制在數位音樂中扮演重要的角色。與文字、影像、視訊等視覺媒體不同,人類對音樂的認知是透過聽覺的方式而非視覺的方式。因此人類在表達音樂擷取的條件時,相對地比較困難。音樂擷取技術不僅有助於一般的使用者擷取數位音樂典藏,也有助於建置、維護與管理典藏資料的專業使用者。例如,當電視廣告的專業配樂師想為60年代台灣鄉村風格為場景的廣告做配樂時,配樂師就有由數位典藏搜尋音樂的需求。這也是提供數位典藏加值服務的基本技術。

本計畫的研究重點即為利用音樂探勘技術,研究數位音樂典藏中的智慧型擷取技術。數位音樂典藏的擷取方式,最直接的方式是以後設資料(metadata)查詢擷取。與音樂有關的後設資料包括曲名、作曲者、樂派、歌詞或以文字描述的曲風等。但如同其他媒體形式的後設資料,後設資料必須透過專業人員的加註(Annotation),也因此會有解讀(Interpretation)的問題。

因此,音樂內容擷取(Content-based Retrieval), 音樂曲風查詢(Music Style Retrieval), 相關回饋(Relevance Feedback), 音樂瀏覽(Music Browsing)與個人化音樂推薦(Personalized Music Recommendation)等功能將有助於使用者方便地擷取典藏的數位音樂。其相關功能與技術如下圖所示。

音樂內容擷取(Content-based Music Retrieval)是目前在音樂擷取中研究最多的技術。常見的音樂內容擷取方式包括query-by-humming, query-by-tapping或以鍵盤輸入音樂旋律的音階查詢等。但無論是哪種方式都受限於使用者表達樂曲的能力。因此,音樂內容擷取技術中,相似度的衡量是音樂內容擷取的重要議題。

音樂曲風查詢(Music Style Retrieval)提供使用者查詢風格相近的音樂,換句話說,音樂內容擷取著重在幫助使用者查詢已經聽過的音樂,而音樂曲風查詢還可幫助使用者查詢尚未聽過但風格相近的音樂。曲風查詢的典型應用是戲劇的音效師想查詢具備動感活潑風格的音樂。

相關回饋(Relevance Feedback)則是透過使用者對於查詢結果的正面與負面回饋(Positive, Negative Feedback),系統自動修正查詢(Automatic Query Refinement)產生新的查詢並傳出新的結果。透過多回合的互動,可以幫助使用者找到所要的音樂。相較於其他媒體形式,尤其對於受限於樂曲表達能力的音樂擷取而言,相關回饋是重要的功能。

音樂瀏覽(Music Browsing)則是提供音樂的分類索引,讓使用者以瀏覽的方式擷取音樂。此外,每首音樂也會以摘要(Summarization)的方式呈現,以方便使用者不必循序的播放而直接地聆聽音樂。這將有助於瀏覽諸如交響樂等長度長的音樂。

個人化音樂推薦(Personalized Music Recommendation)根據使用者過去聆聽音樂的喜好推薦符合使用者風格喜好的音樂。個人化技術也可以應用在個人化的音樂典藏目錄,協助愛樂人組織管理大量的音樂典藏。系統可以自動學習使用者的分類規則,進而利用分類規則產生典藏目錄,對於新下載的音樂進行自動的個人化分類。

音樂內容擷取已有不少相關研究。而我們已經發展了音樂曲風探勘的技術,並提出音樂風格查詢及個人化音樂推薦機制。我們也研究了音樂動機探勘的演算法。

在前一年的計畫中,我們進行了利用音樂探勘中的音樂樣式探勘、音樂分群與音樂曲風探勘技術,以發展音樂瀏覽(Music Browsing)技術的研究。我們利用音樂樣式探勘技術音樂動機的發展變形(Motivic Treatment),探勘出音樂的動機(Motive)。根據動機,將音樂做主題式的分段(Thematic Segmentation),以提供使用者做主題的瀏覽。我們進一步利用分段的結果產生出多媒體內容的摘要(SummarizationThumbnailing)。此外,分段後的音樂可以利用分群(clustering)的技術,將風格或旋律特徵相近的音樂群聚建立分類索引。

在這一年的計畫中,我們將結合資料探勘技術,發展數位音樂典藏中,相關回饋技術的技術。相較於其他以視覺為主的多媒體檢索,音樂檢索更需仰賴相關回饋的機制。因為一般使用者往往受限於本身的音感或音樂訓練,在表達其對音樂檢索的需求上有一定的困難。在文字檢索領域,相關回饋的技術已發展了數十年。而近年來,多媒體內容檢索的研究中,影像與視訊檢索也有不少有關相關回饋的研究。但是,音樂檢索的相關回饋機制,目前已知的研究並不多。

相較於影像與視訊檢索,音樂的特徵與表示法更加複雜。尤其,影像與視訊的特徵多可以表示成多維的向量。然而,音樂的特徵不盡然可以向量表示。再者,源自於人類在視覺與聽覺上的差異,使用者對於系統回傳音樂的回饋,不確定性也比視覺媒體高。當我們看到一張影像時,雖然會有解讀的差異性,但我們會看圖說故事。但當我們聽到一首音樂時,對於音樂的解讀,並沒有那麼直覺。此外,對於系統回傳的音樂,往往只因為其中一小段音樂予我們似曾相似的感覺,我們就會認為整首音樂是接近檢索目標的音樂。反觀影像檢索中,我們往往以整張影像的角度來判斷其與檢索目標的相關程度。針對以上特性,本計畫將研究利用資料探勘技術,發展以音樂動機以基礎的音樂相關回饋機制,以幫助使用者檢索音樂。