免費注冊
有哪些提高數據質(zhì)量的數據清洗方法

有哪些提高數據質(zhì)量的數據清洗方法

作者: 低代碼架構師Kaiwen
閱讀數:415
更新時(shí)間:2024-02-23 12:34:49
有哪些提高數據質(zhì)量的數據清洗方法
p>數據清洗是整個(gè)數據分析鏈路中非常重要的一個(gè)環(huán)節,能夠提供更高的質(zhì)量的數據,同時(shí)供應挖掘材料。

 

一、介紹
在進(jìn)行數據分析之前,自己拿到的數據大部分情況下都是不能夠直接用的,會(huì )存在很多數據質(zhì)量的問(wèn)題,這個(gè)時(shí)候就需要我們先過(guò)濾一遍。

數據清洗是整個(gè)數據分析鏈路中非常重要的一個(gè)環(huán)節,能夠提供更高的質(zhì)量的數據,同時(shí)供應挖掘材料。

二、解決質(zhì)量問(wèn)題
解決各種數據質(zhì)量問(wèn)題的目的,包括但不限于:

數據的完整性 —— 例如,人的屬性中缺少性別、籍貫、年齡等
數據的唯一性 —— 例如,不同來(lái)源的數據重復出現的情況
數據的權威性 —— 例如,同一個(gè)指標出現多個(gè)來(lái)源的數據,且數值不一樣
數據的合法性 —— 例如,獲取的數據與常識不符,年齡大于150歲。
數據的一致性 —— 例如,不同來(lái)源的不同指標,實(shí)際內涵是一樣的,或是同一指標內涵不一致。
數據清洗的結果是對各種臟數據進(jìn)行對應方式的處理,得到標準的、干凈的、連續的數據,提供給數據統計、數據挖掘等使用。

三、解決辦法

  1. 數據的完整性
    思路:數據缺失,那么補上就好了。

首先判斷能不能從源頭上直接補上,這部分的數據缺失太多,是否研發(fā)那邊某個(gè)埋點(diǎn)的功能異常,導致一些數據無(wú)法上報,這個(gè)時(shí)候需要找研發(fā)對接。

如果是正常的數據丟失率例如1%-2%左右,那么可以具體通過(guò)一下一些方式不上數據:

通過(guò)其他信息補全,例如使用身份證件號推算性別、籍貫、出生日期、年齡等
通過(guò)前后數據補齊,例如時(shí)間序列數據確實(shí)了,可以使用前后的均值,缺的多了,可以使用平滑等處理。均值、中位數,或者自動(dòng)向上或者向下補齊都是比較常用的方法。
實(shí)在補不全的,雖然很可惜,但也必須要剔除。但是不要刪掉,沒(méi)準以后用的上。
sql處理方式

#查看comm字段缺失數量
select sum(comm is null) from emp;
# 平均值填充
select ifnull(comm,(select avg(comm) from emp)) from emp;
# 也可以使用coalesce()函數,該函數將多個(gè)表達式或列作為參數,并返回第一個(gè)非空的值
select coalesce(comm,0) from emp; # 將null值填充為0

 

  1. 數據的唯一性
    思路:去除重復記錄,只保留一條。

去重的方法有:

按主鍵去重,用sql 『去除重復記錄』即可。
按規則去重,編寫(xiě)一系列規則,對重復情況復雜的數據進(jìn)行去重。例如不同渠道來(lái)的客戶(hù)數據,可以通過(guò)相同的關(guān)鍵信息進(jìn)行匹配,合并去重。
sql處理方式

 
# 去重單個(gè)字段
select distinct comm from emp;
# 使用group by + 聚合函數例如max,min,any_value
# 去重多個(gè)字段,設定一個(gè)student表,其中,同一個(gè)學(xué)生可能有兩個(gè)age值
select name,any_value(age) from student group by name
select name,max(age) from student group by name
any_value()會(huì )選擇被分到同一組的數據里第一條數據的指定列值作為返回數據

 

  1. 數據的權威性
    思路:用最權威的那個(gè)渠道的數據

方法:對不同渠道設定權威級別

  1. 數據的合法性
    思路:設定判定規則

設定強制合法規則,凡是不在此規則范圍內的,強制設為最大值,或者判為無(wú)效,剔除
字段類(lèi)型合法規則:日期字段格式為『2010-10-10』
字段內容合法規則:性別 in (男、女、未知);出生日期<=今天
設定告警規則,凡是不再此規則范圍內的,進(jìn)行告警,然后人工處理
告警規則:年齡 > 110
離群值人工特殊處理,使用分箱、聚類(lèi)、回歸、等方法發(fā)現離群值
sql處理方式

# 使用where條件進(jìn)行限制
select name,sex,age from student
where sex in ("男","女","未知")
and age between 0 and 110

 

  1. 數據的一致性問(wèn)題
    思路:建立元數據體系,包括但不限于:指標體系(度量)、維度(分組、統計口徑)、單位、頻度、數據。

tips:如果數據質(zhì)量問(wèn)題比較嚴重,建議跟技術(shù)團隊好好聊聊。

 

 

發(fā)表評論

評論列表

暫時(shí)沒(méi)有評論,有什么想聊的?

低代碼快速開(kāi)發(fā)平臺

低代碼快速開(kāi)發(fā)平臺

會(huì )用表格工具,就能用低代碼開(kāi)發(fā)系統



熱推產(chǎn)品-全域低代碼平臺

會(huì )Excel就能開(kāi)發(fā)軟件

全域低代碼平臺,可視化拖拉拽/導入Excel,就可以開(kāi)發(fā)小程序、管理系統、物聯(lián)網(wǎng)、ERP、CRM等應用

有哪些提高數據質(zhì)量的數據清洗方法最新資訊

分享關(guān)于大數據最新動(dòng)態(tài),數據分析模板分享,如何使用低代碼構建大數據管理平臺和低代碼平臺開(kāi)發(fā)軟件

大模型計費時(shí)候的Token是什么意思?怎么計算

概述:大模型計費時(shí)的Token定義與重要性 在大型機器學(xué)習模型的計費過(guò)程中,Token作為一種重要的計量單位,扮演著(zhù)至關(guān)重要的角色。Token不僅代表了模型使用的資源量,還反映

...
2024-07-08 11:45:41
智能物聯(lián)網(wǎng)無(wú)線(xiàn)電子秤硬件技術(shù)方案的未來(lái)趨勢

智能物聯(lián)網(wǎng)無(wú)線(xiàn)電子秤硬件技術(shù)方案的未來(lái)趨勢 一、引言 1.1 智能物聯(lián)網(wǎng)無(wú)線(xiàn)電子秤的背景介紹 隨著(zhù)物聯(lián)網(wǎng)技術(shù)的快速發(fā)展,智能物聯(lián)網(wǎng)無(wú)線(xiàn)電子秤作為物聯(lián)網(wǎng)技術(shù)在稱(chēng)重領(lǐng)域的

...
2024-07-08 11:43:27
PLC無(wú)線(xiàn)通信模塊:連接工業(yè)設備與互聯(lián)網(wǎng)的橋梁

PLC無(wú)線(xiàn)通信模塊:連接工業(yè)設備與互聯(lián)網(wǎng)的橋梁 一、PLC無(wú)線(xiàn)通信模塊概述 1. PLC無(wú)線(xiàn)通信模塊的定義與功能 PLC無(wú)線(xiàn)通信模塊是一種用于連接工業(yè)設備與互聯(lián)網(wǎng)的關(guān)鍵組件。它利

...
2024-07-07 00:45:37

速優(yōu)云

讓監測“簡(jiǎn)單一點(diǎn)”

×

??

銷(xiāo)售溝通:17190186096

售前咨詢(xún):15050465281

掃碼加顧問(wèn)微信 -->

速優(yōu)物聯(lián)PerfCloud官方微信
精品国产欧美SV在线观看|亚洲永久精品线看|女同性另类一区二区三区视频|性做久久久久久久|亚洲中文字幕无码天然素人在线