前言

近年來由於通訊系統、訊號處理、語音辨識等多種音訊訊號處理技術的蓬勃發展下,也開啟了人類文明社會的進步,並增添人們日常生活中的便利性,而本專題也將著手於語音訊號的處理應用上,同樣的針對於聲音特性的分析也成為本專題的研究重點,聲音又可分為音量、音色、音高等此三項特徵,音高指的是每秒聲波震動所產生的頻率,此頻率則稱為聲音訊號之基頻 (Fundamental Frequency),音色則是由基頻頻譜上不同泛音變化所構成的,音量則是指聲波振幅的大小,當聲波的振幅越大時則聲音就越強。本專題是採用人耳對於聲音感受其高低音特性,藉由哼唱一段歌曲,分析其音高週期變化。對於人耳在聲音高低的辨識度而言,可以從觀察基本頻率的週期特性變化得知,其人耳對音高特性的判別是伴隨著基本頻率的對數值成正比。而我們就開發出針對音高及音量來評分的系統。

針對於音高追蹤的相關論文與研究中又可分為:時域(time domain)及頻域(frequency domain)的應用。在此我們也將選擇時域(time domain)的應用方式,使用時域上的音高追蹤方式是將原音框的訊號做平移後,針對每個音框訊號做相似度的比對,求出其基本週期。而目前常使用於時域分析上的演算法又可分為:ACF(Autocorrelation Function)AMDF(Average Magnitude Difference Functions)SIFT (Simple Inverse Filter Tracking)..等,本專題則是採用基於時域的ACF (Autocorrelation Function)音高追蹤方式,此ACF演算法的優點是能有效地改善當音高進行偵測時,降低雜訊所帶來的干擾,並提升音高偵測的精準性。而對於音高追蹤的進行步驟,首先將輸入的一段音訊訊號切成音框(frame),音框間所相鄰的音框則採用重疊(overlap)的方式,並且算出每個音框所對應的音高值,排除其不穩定的音高值,從不同音高所構成之基頻軌跡曲線(Pitch Contour)比對其差異性,最後藉由其歌曲中特徵參數擷取,建立評分機制依照其特徵值相似度與差異性進行統計並給予適當的評分。

 

    返回首頁