一、介紹
在進(jìn)行數據分析之前,自己拿到的數據大部分情況下都是不能夠直接用的,會(huì )存在很多數據質(zhì)量的問(wèn)題,這個(gè)時(shí)候就需要我們先過(guò)濾一遍。
數據清洗是整個(gè)數據分析鏈路中非常重要的一個(gè)環(huán)節,能夠提供更高的質(zhì)量的數據,同時(shí)供應挖掘材料。
二、解決質(zhì)量問(wèn)題
解決各種數據質(zhì)量問(wèn)題的目的,包括但不限于:
數據的完整性 —— 例如,人的屬性中缺少性別、籍貫、年齡等
數據的唯一性 —— 例如,不同來(lái)源的數據重復出現的情況
數據的權威性 —— 例如,同一個(gè)指標出現多個(gè)來(lái)源的數據,且數值不一樣
數據的合法性 —— 例如,獲取的數據與常識不符,年齡大于150歲。
數據的一致性 —— 例如,不同來(lái)源的不同指標,實(shí)際內涵是一樣的,或是同一指標內涵不一致。
數據清洗的結果是對各種臟數據進(jìn)行對應方式的處理,得到標準的、干凈的、連續的數據,提供給數據統計、數據挖掘等使用。
三、解決辦法
首先判斷能不能從源頭上直接補上,這部分的數據缺失太多,是否研發(fā)那邊某個(gè)埋點(diǎn)的功能異常,導致一些數據無(wú)法上報,這個(gè)時(shí)候需要找研發(fā)對接。
如果是正常的數據丟失率例如1%-2%左右,那么可以具體通過(guò)一下一些方式不上數據:
通過(guò)其他信息補全,例如使用身份證件號推算性別、籍貫、出生日期、年齡等
通過(guò)前后數據補齊,例如時(shí)間序列數據確實(shí)了,可以使用前后的均值,缺的多了,可以使用平滑等處理。均值、中位數,或者自動(dòng)向上或者向下補齊都是比較常用的方法。
實(shí)在補不全的,雖然很可惜,但也必須要剔除。但是不要刪掉,沒(méi)準以后用的上。
sql處理方式
#查看comm字段缺失數量
select sum(comm is null) from emp;
# 平均值填充
select ifnull(comm,(select avg(comm) from emp)) from emp;
# 也可以使用coalesce()函數,該函數將多個(gè)表達式或列作為參數,并返回第一個(gè)非空的值
select coalesce(comm,0) from emp; # 將null值填充為0
去重的方法有:
按主鍵去重,用sql 『去除重復記錄』即可。
按規則去重,編寫(xiě)一系列規則,對重復情況復雜的數據進(jìn)行去重。例如不同渠道來(lái)的客戶(hù)數據,可以通過(guò)相同的關(guān)鍵信息進(jìn)行匹配,合并去重。
sql處理方式
# 去重單個(gè)字段
select distinct comm from emp;
# 使用group by + 聚合函數例如max,min,any_value
# 去重多個(gè)字段,設定一個(gè)student表,其中,同一個(gè)學(xué)生可能有兩個(gè)age值
select name,any_value(age) from student group by name
select name,max(age) from student group by name
any_value()會(huì )選擇被分到同一組的數據里第一條數據的指定列值作為返回數據
方法:對不同渠道設定權威級別
設定強制合法規則,凡是不在此規則范圍內的,強制設為最大值,或者判為無(wú)效,剔除
字段類(lèi)型合法規則:日期字段格式為『2010-10-10』
字段內容合法規則:性別 in (男、女、未知);出生日期<=今天
設定告警規則,凡是不再此規則范圍內的,進(jìn)行告警,然后人工處理
告警規則:年齡 > 110
離群值人工特殊處理,使用分箱、聚類(lèi)、回歸、等方法發(fā)現離群值
sql處理方式
# 使用where條件進(jìn)行限制
select name,sex,age from student
where sex in ("男","女","未知")
and age between 0 and 110
tips:如果數據質(zhì)量問(wèn)題比較嚴重,建議跟技術(shù)團隊好好聊聊。
暫時(shí)沒(méi)有評論,有什么想聊的?
概述:大模型計費時(shí)的Token定義與重要性 在大型機器學(xué)習模型的計費過(guò)程中,Token作為一種重要的計量單位,扮演著(zhù)至關(guān)重要的角色。Token不僅代表了模型使用的資源量,還反映
...智能物聯(lián)網(wǎng)無(wú)線(xiàn)電子秤硬件技術(shù)方案的未來(lái)趨勢 一、引言 1.1 智能物聯(lián)網(wǎng)無(wú)線(xiàn)電子秤的背景介紹 隨著(zhù)物聯(lián)網(wǎng)技術(shù)的快速發(fā)展,智能物聯(lián)網(wǎng)無(wú)線(xiàn)電子秤作為物聯(lián)網(wǎng)技術(shù)在稱(chēng)重領(lǐng)域的
...PLC無(wú)線(xiàn)通信模塊:連接工業(yè)設備與互聯(lián)網(wǎng)的橋梁 一、PLC無(wú)線(xiàn)通信模塊概述 1. PLC無(wú)線(xiàn)通信模塊的定義與功能 PLC無(wú)線(xiàn)通信模塊是一種用于連接工業(yè)設備與互聯(lián)網(wǎng)的關(guān)鍵組件。它利
...??
銷(xiāo)售溝通:17190186096
售前咨詢(xún):15050465281
掃碼加顧問(wèn)微信 -->
阿帥: 我們經(jīng)常會(huì )遇到表格內容顯示不完整的問(wèn)題。 回復
理理: 使用自動(dòng)換行功能,以及利用條件格式和數據分析工具等。回復