s(n)
由圖二(b)所示,頻譜波形在2500Hz以前較具週期性,之後的峰值距離較不明顯且也不固定,HNM便是利用頻譜波形的此特性,對信號做分析。對一個語音信號的有聲部份,HNM會依據頻譜計算出最大有聲頻率Fm(t),以此分為兩部份:頻率值小於Fm(t)的為諧波部份h(t),頻率值大於Fm(t)為雜訊部份n(t)。
其中
最後合成信號
由圖三很明顯的可以看出前段波型(紅框標示)與中後段差很多,所以我們擷取的音框由有聲起始的前20ms,以用來和已經合成好的音段做語音合成。
語音相加模式如上圖四,以避免相位不同而產生的爆音。
且合成過後的語音與原始音音量會不同,為了避免每段的聲音不齊,故以原始音量的最大值作為標準,合成音量以其作為標準乘上原本的振幅作為權狀值,使每個音的音量不會差異過大。