聲學模型是語音識別系統中非常重要的組成部分,它負責對給定的聲學符號(如音素)建立基於音頻特徵的模型。在主流的語音識別系統中,通常採用隱馬爾科夫模型(HMM)進行建模,這種模型是一種離散時域有限狀態自動機,其中內部狀態對外部是不可見的,而外部可以看到的是各個時刻的輸出值,這些輸出值通常是通過對各個幀計算而得的聲學特徵。
隱馬爾科夫模型的打分、解碼和訓練相應的算法分別是前向算法、Viterbi算法和前向後向算法。隨著計算能力的提升和深度學習的發展,基於深度學習的聲學模型在人工智慧領域的重要性日益凸顯,它們對於提高語音識別的準確率和拓展人機互動方式具有重要意義。