183.17.230.* 2020-08-12 13:18:11 |
數據處理的工作時間占整個數據分析項目的70%以上,因此,數據的質量直接決定了分析模型的準確性。那么,數據預處理的方法是什么呢?例如數據清理、數據集成、數據規(guī)范、數據轉換等,其中最常用的是數據清理和數據集成,下面中琛魔方將來詳細介紹一下這2種方法。
數據預處理的方法
1、數據清洗
數據清洗是通過填補缺失值,平滑或刪除離群點,糾正數據的不一致來達到清洗的目的。簡單來說,就是把數據里面哪些缺胳膊腿的數據、有問題的數據給處理掉?偟膩碇v,數據清洗是一項繁重的任務,需要根據數據的準確性、完整性、一致性、時效性、可信性和解釋性來考察數據,從而得到標準的、干凈的、連續(xù)的數據。
。1)缺失值處理
實際獲取信息和數據的過程中,會存在各類的原因導致數據丟失和空缺。針對這些缺失值,會基于變量的分布特性和變量的重要性采用不同的方法。若變量的缺失率較高(大于80%),覆蓋率較低,且重要性較低,可以直接將變量刪除,這種方法被稱為刪除變量;若缺失率較低(小于95%)且重要性較低,則根據數據分布的情況用基本統(tǒng)計量填充(**值、最小值、均值、中位數、眾數)進行填充,這種方法被稱為缺失值填充。對于缺失的數據,一般根據缺失率來決定“刪”還是“補”。
。2)離群點處理
離群點(異常值)是數據分布的常態(tài),處于特定分布區(qū)域或范圍之外的數據通常被定義為異常或噪聲。我們常用的方法是刪除離群點。
。3)不一致數據處理
實際數據生產過程中,由于一些人為因素或者其他原因,記錄的數據可能存在不一致的情況,需要對這些不一致數據在分析前進行清理。例如,數據輸入時的錯誤可通過和原始記錄對比進行更正,知識工程工具也可以用來檢測違反規(guī)則的數據。
2、數據集成
隨著大數據的出現,我們的數據源越來越多,數據分析任務多半涉及將多個數據源數據進行合并。數據集成是指將多個數據源中的數據結合、進行一致存放的數據存儲,這些源可能包括多個數據庫或數據文件。在數據集成的過程中,會遇到一些問題,比如表述不一致,數據冗余等,針對不同的問題,下面簡單介紹一下該如何處理。
(1)實體識別問題
在匹配來自多個不同信息源的現實世界實體時,如果兩個不同數據庫中的不同字段名指向同一實體,數據分析者或計算機需要把兩個字段名改為一致,避免模式集成時產生的錯誤。
。2)冗余問題
冗余是在數據集成中常見的一個問題,如果一個屬性能由另一個或另一組屬性“導出”,則此屬性可能是冗余的。
(3)數據值的沖突和處理
不同數據源,在統(tǒng)一合并時,需要保持規(guī)范化,如果遇到有重復的,要去重。
數據預處理的方法有哪些.中琛魔方大數據分析平臺(www.zcmorefun.com)表示在實踐中,我們得到的數據可能包含大量的缺失值、異常值等,這對數據分析是非常不利的。此時,我們需要對臟數據進行預處理,以獲得標準、干凈和連續(xù)的數據,這些數據可以用于數據分析、數據挖掘等。 |