混合高斯模型(Gaussian Mixture Model, GMM)是一種機率模型,它通過對多個常態分配(高斯分布)進行加權組合來對數據進行建模。這些常態分配被稱為「分量」,它們共同構成了混合模型。每個分量都由三個基本要素定義:均值、協方差矩陣和權重。數據點根據這些分量的權重被分配到相應的分量中。
GMM在聚類分析和密度估計中有廣泛套用。在聚類分析中,每個分量通常對應於一個簇,而數據點被分配到機率最高的分量中,從而完成聚類。密度估計則是通過估計數據點的機率密度函式來完成的,這在處理具有多個隱含模式的數據時尤其有用。
GMM的數學表達式為:
p(x)=∑i=1kπiN(x∣μi,Σi)p(x) = \sum_{i=1}^{k} \pi_i \mathcal{N}(x|\mu_i, \Sigma_i)p(x)=i=1∑kπiN(x∣μi,Σi)
其中,k是分量的數量,πi\pi_iπi是第i個分量的權重,滿足∑i=1kπi=1\sum_{i=1}^{k} \pi_i = 1∑i=1kπi=1,N(x∣μi,Σi)\mathcal{N}(x|\mu_i, \Sigma_i)N(x∣μi,Σi)是多維常態分配,由均值μi\mu_iμi和協方差矩陣Σi\Sigma_iΣi確定。
GMM的參數估計通常使用期望最大化(Expectation-Maximization, EM)算法。這種算法在每次疊代中交替執行期望(E-step)和最大化(M-step)步驟,直到模型參數收斂。
GMM的套用場景包括但不限於圖像處理、語音識別、金融風險評估、生物信息學和數據挖掘。在這些領域中,GMM可以幫助處理複雜的數據分布、生成新的數據樣本和發現數據中的規律和模式。