特徵分類可以從多個角度進行,主要包括:
定性特徵與定量特徵。定性特徵是指非數值型的特徵,如性別、職業等,這些特徵通常以分類變數的形式出現。定量特徵則是數值型的特徵,如年齡、收入等,這些特徵可以用數值來度量。
Low level特徵與High level特徵。Low level特徵是較低級別的特徵,如原始數據,通常不需要或只需要很少的人工處理,例如文本中的詞向量特徵或圖像中的像素點。High level特徵是經過較複雜處理得到的特徵,如人工打分或模型打分,適用於更複雜的模型。
穩定特徵與動態特徵。穩定特徵是變化頻率較低的特徵,如評價平均分,較長時期內保持不變。動態特徵是頻繁更新的特徵,如實時統計的數據。
二值特徵、連續特徵、枚舉特徵。二值特徵只取0或1兩種值。連續特徵是有理數範圍內的值。枚舉特徵是有固定個數可能值的特徵,如星期幾。
離散特徵與連續(數值)特徵。離散特徵可以是類別或有序的,如性別或收入等級。連續(數值)特徵如身高或算法獲得的嵌入特徵。
時空特徵、文本特徵、富媒體特徵。時空特徵考慮時間和空間維度。文本特徵可以從文本數據中提取,如使用TF-IDF算法。富媒體特徵是從圖片、視頻等中提取的特徵。
顯式特徵與隱式特徵。顯式特徵是具有實際意義的,可以直接理解的,如類別、數值等。隱式特徵則不易直接解釋,如某些算法生成的嵌入向量。
這些分類方法有助於理解特徵的多樣性和在數據分析及機器學習中的套用。