一、介紹
在進(jìn)行數(shù)據(jù)分析之前,自己拿到的數(shù)據(jù)大部分情況下都是不能夠直接用的,會(huì)存在很多數(shù)據(jù)質(zhì)量的問題,這個(gè)時(shí)候就需要我們先過濾一遍。
數(shù)據(jù)清洗是整個(gè)數(shù)據(jù)分析鏈路中非常重要的一個(gè)環(huán)節(jié),能夠提供更高的質(zhì)量的數(shù)據(jù),同時(shí)供應(yīng)挖掘材料。
二、解決質(zhì)量問題
解決各種數(shù)據(jù)質(zhì)量問題的目的,包括但不限于:
數(shù)據(jù)的完整性 —— 例如,人的屬性中缺少性別、籍貫、年齡等
數(shù)據(jù)的唯一性 —— 例如,不同來(lái)源的數(shù)據(jù)重復(fù)出現(xiàn)的情況
數(shù)據(jù)的權(quán)威性 —— 例如,同一個(gè)指標(biāo)出現(xiàn)多個(gè)來(lái)源的數(shù)據(jù),且數(shù)值不一樣
數(shù)據(jù)的合法性 —— 例如,獲取的數(shù)據(jù)與常識(shí)不符,年齡大于150歲。
數(shù)據(jù)的一致性 —— 例如,不同來(lái)源的不同指標(biāo),實(shí)際內(nèi)涵是一樣的,或是同一指標(biāo)內(nèi)涵不一致。
數(shù)據(jù)清洗的結(jié)果是對(duì)各種臟數(shù)據(jù)進(jìn)行對(duì)應(yīng)方式的處理,得到標(biāo)準(zhǔn)的、干凈的、連續(xù)的數(shù)據(jù),提供給數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)挖掘等使用。
三、解決辦法
首先判斷能不能從源頭上直接補(bǔ)上,這部分的數(shù)據(jù)缺失太多,是否研發(fā)那邊某個(gè)埋點(diǎn)的功能異常,導(dǎo)致一些數(shù)據(jù)無(wú)法上報(bào),這個(gè)時(shí)候需要找研發(fā)對(duì)接。
如果是正常的數(shù)據(jù)丟失率例如1%-2%左右,那么可以具體通過一下一些方式不上數(shù)據(jù):
通過其他信息補(bǔ)全,例如使用身份證件號(hào)推算性別、籍貫、出生日期、年齡等
通過前后數(shù)據(jù)補(bǔ)齊,例如時(shí)間序列數(shù)據(jù)確實(shí)了,可以使用前后的均值,缺的多了,可以使用平滑等處理。均值、中位數(shù),或者自動(dòng)向上或者向下補(bǔ)齊都是比較常用的方法。
實(shí)在補(bǔ)不全的,雖然很可惜,但也必須要剔除。但是不要?jiǎng)h掉,沒準(zhǔn)以后用的上。
sql處理方式
#查看comm字段缺失數(shù)量
select sum(comm is null) from emp;
# 平均值填充
select ifnull(comm,(select avg(comm) from emp)) from emp;
# 也可以使用coalesce()函數(shù),該函數(shù)將多個(gè)表達(dá)式或列作為參數(shù),并返回第一個(gè)非空的值
select coalesce(comm,0) from emp; # 將null值填充為0
去重的方法有:
按主鍵去重,用sql 『去除重復(fù)記錄』即可。
按規(guī)則去重,編寫一系列規(guī)則,對(duì)重復(fù)情況復(fù)雜的數(shù)據(jù)進(jìn)行去重。例如不同渠道來(lái)的客戶數(shù)據(jù),可以通過相同的關(guān)鍵信息進(jìn)行匹配,合并去重。
sql處理方式
# 去重單個(gè)字段
select distinct comm from emp;
# 使用group by + 聚合函數(shù)例如max,min,any_value
# 去重多個(gè)字段,設(shè)定一個(gè)student表,其中,同一個(gè)學(xué)生可能有兩個(gè)age值
select name,any_value(age) from student group by name
select name,max(age) from student group by name
any_value()會(huì)選擇被分到同一組的數(shù)據(jù)里第一條數(shù)據(jù)的指定列值作為返回?cái)?shù)據(jù)
方法:對(duì)不同渠道設(shè)定權(quán)威級(jí)別
設(shè)定強(qiáng)制合法規(guī)則,凡是不在此規(guī)則范圍內(nèi)的,強(qiáng)制設(shè)為最大值,或者判為無(wú)效,剔除
字段類型合法規(guī)則:日期字段格式為『2010-10-10』
字段內(nèi)容合法規(guī)則:性別 in (男、女、未知);出生日期<=今天
設(shè)定告警規(guī)則,凡是不再此規(guī)則范圍內(nèi)的,進(jìn)行告警,然后人工處理
告警規(guī)則:年齡 > 110
離群值人工特殊處理,使用分箱、聚類、回歸、等方法發(fā)現(xiàn)離群值
sql處理方式
# 使用where條件進(jìn)行限制
select name,sex,age from student
where sex in ("男","女","未知")
and age between 0 and 110
tips:如果數(shù)據(jù)質(zhì)量問題比較嚴(yán)重,建議跟技術(shù)團(tuán)隊(duì)好好聊聊。
暫時(shí)沒有評(píng)論,有什么想聊的?
一、引言:大模型技術(shù)與RLHF訓(xùn)練概覽 1.1 大模型技術(shù)的崛起背景 1.1.1 人工智能技術(shù)的快速發(fā)展 近年來(lái),隨著計(jì)算能力的提升、大數(shù)據(jù)的積累以及算法的不斷優(yōu)化,人工智能技
...揭秘!大模型里的SFT定義與應(yīng)用全解析 一、SFT基礎(chǔ)概念與定義深度剖析 1.1 SFT概念起源與背景介紹 SFT,全稱為Softmax Fine-Tuning,是近年來(lái)在自然語(yǔ)言處理(NLP)及深度
...大語(yǔ)言模型在企業(yè)中的實(shí)際應(yīng)用策略與案例分析 一、大語(yǔ)言模型概述與企業(yè)應(yīng)用背景 1.1 大語(yǔ)言模型技術(shù)基礎(chǔ)與發(fā)展趨勢(shì) 大語(yǔ)言模型,作為人工智能領(lǐng)域的璀璨明珠,依托于深度
...?? 微信聊 -->
銷售溝通:17190186096(微信同號(hào))
售前電話:15050465281
微信聊 -->
阿帥: 我們經(jīng)常會(huì)遇到表格內(nèi)容顯示不完整的問題。 回復(fù)
理理: 使用自動(dòng)換行功能,以及利用條件格式和數(shù)據(jù)分析工具等。回復(fù)