數據清洗是指對數據進行重新審查和校驗的過程,目的在於刪除重複信息、糾正存在的錯誤,並提供數據一致性。數據清洗利用數理統計、數據挖掘和預定義清理規則等有關技術將“髒數據”處理掉,把數據中的髒東西洗掉,轉變爲高質量的數據,以滿足要求提供高質量的數據,是數據預處理的重要組成部分,其結果質量直接關係到分析效果和最終結論。
數據清洗包括檢查數據一致性,處理無效值和缺失值等,常見方法如下:
重複數據清洗。爲了減少數據中冗餘信息,首先對一定範圍內數據進行排序算法,根據預定義的重複標識規則進行重複檢測,最後完成重複數據的清洗工作,以確保對原始數據的完整性。
不完整數據清洗。首先對數據表結構字段按照重要性等級進行判斷,按照缺失比例和字段重要性制定方案,對於不完整的記錄並且不需要的字段進行刪除處理,每次刪除前需要單獨備份,對於重要字段並缺失的記錄,通過計算分析對字段進行填充。
數據格式清洗。數據格式的清洗主要針對由人工蒐集或用戶填寫的信息,對不符合規定的格式及內容進行清洗。主要包括時間、日期等。
此外,數據清洗的原理是將數據輸入到數據清理處理器,通過一系列步驟,根據數據源的實際需要,以不同的數據清洗方法進行處理,然後以期望的格式輸出清理過的數據。