冗餘性分析是一種統計學方法,用於評估一組變數中哪些信息是冗餘的,即哪些變數的信息可以通過其他變數解釋,從而可以幫助降低模型的複雜度。這種方法結合了回歸分析和主成分分析的原理,用於分析多個解釋變數對多個回響變數的影響。
在統計學中,冗餘分析(Redundancy Analysis, RDA)是一種直接梯度分析技術,它通過原始變數與典型變數之間的相關性來分析引起原始變數變異的原因。RDA可以生成兩個排序:一個是由回響變數矩陣定義的空間中的排序,另一個是由解釋變數矩陣定義的空間中的排序。這種方法可以幫助研究者理解哪些解釋變數(即自變數)對回響變數(即因變數)有顯著影響,並且可以揭示這些變數之間的關係。
在組學研究中,冗餘性分析屬於特徵篩選的範疇,它不同於傳統的特徵選擇方法,如PCA、LASSO、RFE、mRMR等。冗餘性分析通過相關係數分析來探索變數的關係,以找出對病理或診斷有用的信息。這個過程旨在降低建模的負擔,通過刪除多餘的特徵來起到降維的作用。統計機器學習的要求是模型的變數儘可能少且變數所包含的信息儘可能多,以滿足「奧卡姆剃刀原理」。冗餘性分析可以幫助解決由於變數間高度相關性導致的共線性問題,從而避免模型不穩定和預測效能低的現象。
在影像組學中,由於大量的組學特徵之間可能存在高度相關性,冗餘性分析可以幫助識別這些高度相關的特徵,從而避免維數災難問題。影像組學的特徵大部分為定量特徵,少數為定性特徵。對於定量特徵,可以使用Pearson或Spearman相關性分析,而對於定性特徵,可以使用Kendall相關性分析。