GWAS(全基因組關聯研究)分析流程通常包括以下步驟:
質控質檢。首先,需要控制檢出率,去除在最初的二進制檔案中存在的缺失SNPs數據的個體和缺失個體數據的SNPs。這一過程稱為控制檢出率。
剔除性別不一致。在二進制數據中,如果個體的性別信息存在表型~基因型的衝突,即在基因型數據中表現為一性別,而在表型中記錄為另一性別,為了實驗結果的準確性,需要剔除或修正(根據基因型)數據。
剔除低MAF數據。次等位基因(Minor Allele,MA),即在給定的群體中,其基因頻率第二高的基因,其出現的頻率即為次等位基因頻率(Minor Allele Frequency,MAF)。次等位基因在群體中出現的頻率較少,較難發現,但是對於變異(常見變異和特殊變異)的研究卻極為重要,而過低MAF又會影響分析結果。因此,需要去除這些數據。
去除反HWE項。哈達——溫伯格平衡(Hardy–Weinberg equilibrium,HWE)認為,在一個無限大的種群中,個體完全隨機交配,沒有選擇和基因流存在,那麼這個種群中的基因頻率將會保持平衡。在GWAs中,違反HWE會使分析結果偏離預期,因此,需要剔除離群值。
控制雜合率。雜合率(Heterozygosity Rates),即樣本中雜合子基因型。
以上步驟完成後,就可以進行GWAS分析,以發現與表型相關的遺傳變異。