本專題實驗以人聲為樂器,哼奏出MIDI檔中音樂旋律。為了要哼奏出每個音符來完成音樂的演奏,首先得從語音訊號處理著手。
在做合成音樂之前,要先了解一些音訊資訊並做前置處理。一開始先找出最有效的求取基頻方式,並分析語音訊框基頻頻率;為了消除錄音時的靜音部分,我們要選擇一種辨識Voice/Unvoice訊框的方法;再來就是使用HNM將分析好的基頻合成其他的音調;除此之外,因為是要合成MIDI音樂檔,所以我們先要對MIDI音樂檔取出拍速、音符、音長等資訊做分析。等這些步驟都完成後,才開始做合成音樂的研究。
最後我們也會針對幾項研究時會發生的問題做研究改善,例如自相關函數(Auto correlation function, ACF)對頻譜解析度不足所造成的基頻位置誤差,因此得對基頻頻率進行修正;合成語音Frame與Frame間相位問題,訊框間相位不連續處容易產生雜音或爆音,可對Frame作overlap降低此問題的發生;合成音自然度不足為TTS(Text-To-Speech)最常見的問題,我們可以加入類雜訊方式可改善語音品質。