實驗結果
標音高軟體介紹
在此系統中,已經能擷取一段音訊的音高,但是為了確認其正確性,我們選用了音高軟體來作為我們對照的依據,以
確認我們的擷取的音高的準確性。
市面上存在著很多標音高軟體,我們是否可以藉由這些軟體就達到我們要的目的,那也就在好不過了,目前大概有
Speech Filing System (SFS)、Speech Analyzer、Solo Explorer、Praat 。我們用的主要是Praat這套軟體,Praat
主要是一套用來分析發音的軟體,主要是給學語言的人來使用,可做講話分析、分析語調、發音正確性…等等,而且
這套軟體是完全免費的,使用起來也相當的人性化,讓我們使用起來也相當的便利。到 http://www.fon.hum.uva.nl/praat/
可以下載這套軟體。
Praat執行結果圖:
圖3-1
實例討論與比較
首先我們藉由容易且簡短的樂句測試。
實例一
演唱者:曾琪騰(左)、唐明甫(右)
圖3-2
實例二、五月天的歌
演唱者:曾琪騰
圖3-3
圖3-3中其中高起的區段是沒有語音的部分,資料中用NaN取代,不納入計算。
同一段樂句
演唱者:唐明甫
圖3-4
在此我們將語音作相關係數比較,其相關係數的特性如下所述:
1、相關係數r介於正負一之間
2、X、Y表是將計算的相關性之兩組變數,X、Y表示平均值。
3、相關係數r定義為
(式3-1)
相關係數r |
相關程度 |
0.8以上 |
極高 |
0.6-0.8 |
高 |
0.4-0.6 |
普通 |
0.2-0.4 |
低 |
0.2以下 |
極低 |
(表3-1)
在實例二,兩組樣本之間相關係數=0.7702
實例三、月亮惹的禍
演唱者:曾琪騰(左)、唐明甫(右)
圖3-5
在實例三,兩組樣本之間相關係數=0.6799
實例四、征服
演唱者:曾琪騰(左)、唐明甫(右)
圖3-6
在實例四,兩組樣本之間相關係數=0.3155,此例子從圖3-6可看出音高有差距,導致相關性低。
評分分數機制
評分分數機制
=( ACF曲線相關係數*0.35 +ACF曲線差值比較*0.35+音量比對*0.3)*100%
1. ACF曲線相關係數
音高曲線的相關係數介於1及-1之間,是為了觀察此二曲線之走勢相似度,若果相關係數為1,則表示此二曲線完全相
同。但是在評分時相關係數不可為負數,因此會在前面加上一絕對值。
2. ACF曲線差值比較
有時候也許二音高曲線極為相似,但是音高值相差許多,雖然相關係數接近1,但是卻嚴重走音,因此本系統在此設計
音高曲線之差值比較,只要差到一個半音,就判定為走音,沒走音即為滿分。
3. 音量曲線比對
在人聲要素中的其中之一-音量,也是一個評分要素,只要本系統測量出來的歌者音量不小於樣本且符合,就可以得到
接近滿分。
本系統的目標是對於流行歌曲的演唱作客觀的評分,以下我們選了7首流行歌錄製建立樣本。並且試著利用所建立的
評分機制來比較樣本與使用者錄音。
歌名 |
ACF曲線相關係數 |
ACF曲線差值比較 |
音量比對 |
加權分數 |
唯一 |
0.1018 |
0.3000 |
0.7166 |
35.5617 |
蝸牛 |
0.4831 |
0.3360 |
0.8115 |
53.0121 |
用心良苦 |
0.3683 |
0.6057 |
0.6679 |
54.1270 |
背叛 |
0.0606 |
0.5285 |
0.6801 |
41.0202 |
手放開 |
0.2180 |
0.4348 |
0.7093 |
44.1278 |
寂寞邊界 |
0.0982 |
0.6631 |
0.6927 |
47.4250 |
戀愛ing |
0.2906 |
0.4492 |
0.6660 |
45.8723 |
表3-2
討論:
以上樣本都是選擇歌曲副歌做為錄製的依據,並且保持樂句的完整,長度大都在10秒到15秒之間。錄音使用者則是在聆聽樣本數次之後,在
沒有樣本導引之下,憑對樣本的印象及自身對歌曲的認識唱出。在此,我們將分數偏低的例子選出進行討論。
例1:唯一
圖3-7
例2:背叛
圖3-8
例3:寂寞邊界
圖3-9
如表3-2可得知,這些歌曲的比對都得到相關係數低的結果,由實驗中可得知相關性高主要和數值的走勢有關,在系統
中的數值代表及是音高,但因為選擇的流行歌音高在同一樂句當中並無明顯變化且數值相近,而在錄音環境條件是無
配樂的狀況,因此這條件將可能導致歌曲節拍因不同人演唱而有所差異,會影響使用者錄音檔和樣本的ACF音高曲線走
勢比較上的困難與誤差。因此為了減少節拍時間差異導致的比較錯誤,我們將比對的範圍減短,每首歌曲從原本10
秒修剪到5秒左右,相關結果如表3-3可得知。
歌名 |
ACF曲線相關係數 |
ACF曲線差值比較 |
音量比對 |
加權分數 |
唯一 |
0.0703 |
0.3750 |
0.7145 |
37.0232 |
蝸牛 |
0.5454 |
0.0233 |
0.8616 |
45.7525 |
用心良苦 |
0.2509 |
0.7522 |
0.6579 |
54.8449 |
背叛 |
0.4193 |
0.7412 |
0.6705 |
60.7312 |
手放開 |
0.3016 |
0.6393 |
0.7325 |
54.9062 |
寂寞邊界 |
0.3104 |
0.8818 |
0.6612 |
61.5620 |
戀愛ing |
0.3720 |
0.5222 |
0.5507 |
47.8190 |
表3-3
縮短了時間之後,如表3-3可得知,各項比較成績都有提高分數的趨勢,比較時間減短結果優於時間長。但這是否是一
個「比較正確的結果」,是建立於吾人聽覺的感受,我們主觀的認為此次比較的錄音檔與樣本足夠相似,不應該在ACF
曲線相關係數中比對出誤差的數據結果,仔細觀察音高走勢的數據,可發現在數列中有一組錯誤的數值誤判,在此誤
判我們認為應該是ACF的在計算上所出現的誤差(圈選處),如圖3-10所示。
圖3-10
實驗結論:
對於歌者評分系統來說,目前我們完成辨識使用者的錄音與進行樣本間相互比對等功能,並找出其兩樣本之間的相似
程度與相關性,但就客觀的歌唱評分考量上,除了音高音量與其他比對數據外,對於聽者在樣本上的聽覺感受也必須
列為評分的考量。在未來系統改良上也可針對如何利用系統自動指出使用者在音高或音量在兩樣本之間的不同之處這
部分去著手,相信必定能更提升系統比對的準確性與參考價值。