大屁股美女视频国产免费_日韩在线 欧美成人网站视频在线观看_亚洲国产欧洲在线播放_欧美老妇配种高清视频_午夜日逼福利视频_不卡av中文在线观看_国产无遮挡又黄又爽高潮_中文字幕有码在线日韩电影大全_2019午夜三级网站理论_污黄啪啪网18以下勿进

免費(fèi)注冊(cè)
有哪些提高數(shù)據(jù)質(zhì)量的數(shù)據(jù)清洗方法

有哪些提高數(shù)據(jù)質(zhì)量的數(shù)據(jù)清洗方法

作者: 低代碼架構(gòu)師Kaiwen
閱讀數(shù):415
更新時(shí)間:2024-02-23 20:34:49
有哪些提高數(shù)據(jù)質(zhì)量的數(shù)據(jù)清洗方法
p>數(shù)據(jù)清洗是整個(gè)數(shù)據(jù)分析鏈路中非常重要的一個(gè)環(huán)節(jié),能夠提供更高的質(zhì)量的數(shù)據(jù),同時(shí)供應(yīng)挖掘材料。

 

一、介紹
在進(jìn)行數(shù)據(jù)分析之前,自己拿到的數(shù)據(jù)大部分情況下都是不能夠直接用的,會(huì)存在很多數(shù)據(jù)質(zhì)量的問題,這個(gè)時(shí)候就需要我們先過濾一遍。

數(shù)據(jù)清洗是整個(gè)數(shù)據(jù)分析鏈路中非常重要的一個(gè)環(huán)節(jié),能夠提供更高的質(zhì)量的數(shù)據(jù),同時(shí)供應(yīng)挖掘材料。

二、解決質(zhì)量問題
解決各種數(shù)據(jù)質(zhì)量問題的目的,包括但不限于:

數(shù)據(jù)的完整性 —— 例如,人的屬性中缺少性別、籍貫、年齡等
數(shù)據(jù)的唯一性 —— 例如,不同來(lái)源的數(shù)據(jù)重復(fù)出現(xiàn)的情況
數(shù)據(jù)的權(quán)威性 —— 例如,同一個(gè)指標(biāo)出現(xiàn)多個(gè)來(lái)源的數(shù)據(jù),且數(shù)值不一樣
數(shù)據(jù)的合法性 —— 例如,獲取的數(shù)據(jù)與常識(shí)不符,年齡大于150歲。
數(shù)據(jù)的一致性 —— 例如,不同來(lái)源的不同指標(biāo),實(shí)際內(nèi)涵是一樣的,或是同一指標(biāo)內(nèi)涵不一致。
數(shù)據(jù)清洗的結(jié)果是對(duì)各種臟數(shù)據(jù)進(jìn)行對(duì)應(yīng)方式的處理,得到標(biāo)準(zhǔn)的、干凈的、連續(xù)的數(shù)據(jù),提供給數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)挖掘等使用。

三、解決辦法

  1. 數(shù)據(jù)的完整性
    思路:數(shù)據(jù)缺失,那么補(bǔ)上就好了。

首先判斷能不能從源頭上直接補(bǔ)上,這部分的數(shù)據(jù)缺失太多,是否研發(fā)那邊某個(gè)埋點(diǎn)的功能異常,導(dǎo)致一些數(shù)據(jù)無(wú)法上報(bào),這個(gè)時(shí)候需要找研發(fā)對(duì)接。

如果是正常的數(shù)據(jù)丟失率例如1%-2%左右,那么可以具體通過一下一些方式不上數(shù)據(jù):

通過其他信息補(bǔ)全,例如使用身份證件號(hào)推算性別、籍貫、出生日期、年齡等
通過前后數(shù)據(jù)補(bǔ)齊,例如時(shí)間序列數(shù)據(jù)確實(shí)了,可以使用前后的均值,缺的多了,可以使用平滑等處理。均值、中位數(shù),或者自動(dòng)向上或者向下補(bǔ)齊都是比較常用的方法。
實(shí)在補(bǔ)不全的,雖然很可惜,但也必須要剔除。但是不要?jiǎng)h掉,沒準(zhǔn)以后用的上。
sql處理方式

#查看comm字段缺失數(shù)量
select sum(comm is null) from emp;
# 平均值填充
select ifnull(comm,(select avg(comm) from emp)) from emp;
# 也可以使用coalesce()函數(shù),該函數(shù)將多個(gè)表達(dá)式或列作為參數(shù),并返回第一個(gè)非空的值
select coalesce(comm,0) from emp; # 將null值填充為0

 

  1. 數(shù)據(jù)的唯一性
    思路:去除重復(fù)記錄,只保留一條。

去重的方法有:

按主鍵去重,用sql 『去除重復(fù)記錄』即可。
按規(guī)則去重,編寫一系列規(guī)則,對(duì)重復(fù)情況復(fù)雜的數(shù)據(jù)進(jìn)行去重。例如不同渠道來(lái)的客戶數(shù)據(jù),可以通過相同的關(guān)鍵信息進(jìn)行匹配,合并去重。
sql處理方式

 
# 去重單個(gè)字段
select distinct comm from emp;
# 使用group by + 聚合函數(shù)例如max,min,any_value
# 去重多個(gè)字段,設(shè)定一個(gè)student表,其中,同一個(gè)學(xué)生可能有兩個(gè)age值
select name,any_value(age) from student group by name
select name,max(age) from student group by name
any_value()會(huì)選擇被分到同一組的數(shù)據(jù)里第一條數(shù)據(jù)的指定列值作為返回?cái)?shù)據(jù)

 

  1. 數(shù)據(jù)的權(quán)威性
    思路:用最權(quán)威的那個(gè)渠道的數(shù)據(jù)

方法:對(duì)不同渠道設(shè)定權(quán)威級(jí)別

  1. 數(shù)據(jù)的合法性
    思路:設(shè)定判定規(guī)則

設(shè)定強(qiáng)制合法規(guī)則,凡是不在此規(guī)則范圍內(nèi)的,強(qiáng)制設(shè)為最大值,或者判為無(wú)效,剔除
字段類型合法規(guī)則:日期字段格式為『2010-10-10』
字段內(nèi)容合法規(guī)則:性別 in (男、女、未知);出生日期<=今天
設(shè)定告警規(guī)則,凡是不再此規(guī)則范圍內(nèi)的,進(jìn)行告警,然后人工處理
告警規(guī)則:年齡 > 110
離群值人工特殊處理,使用分箱、聚類、回歸、等方法發(fā)現(xiàn)離群值
sql處理方式

# 使用where條件進(jìn)行限制
select name,sex,age from student
where sex in ("男","女","未知")
and age between 0 and 110

 

  1. 數(shù)據(jù)的一致性問題
    思路:建立元數(shù)據(jù)體系,包括但不限于:指標(biāo)體系(度量)、維度(分組、統(tǒng)計(jì)口徑)、單位、頻度、數(shù)據(jù)。

tips:如果數(shù)據(jù)質(zhì)量問題比較嚴(yán)重,建議跟技術(shù)團(tuán)隊(duì)好好聊聊。

 

 

發(fā)表評(píng)論

評(píng)論列表

暫時(shí)沒有評(píng)論,有什么想聊的?

數(shù)字鄉(xiāng)村平臺(tái)定制

數(shù)字鄉(xiāng)村平臺(tái)定制

數(shù)字鄉(xiāng)村,共享未來(lái)。定制平臺(tái),助力鄉(xiāng)村振興,共創(chuàng)美好生活。

推薦閱讀


熱推產(chǎn)品-全域低代碼平臺(tái)

會(huì)Excel就能開發(fā)軟件

全域低代碼平臺(tái),可視化拖拉拽/導(dǎo)入Excel,就可以開發(fā)小程序、管理系統(tǒng)、物聯(lián)網(wǎng)、ERP、CRM等應(yīng)用

有哪些提高數(shù)據(jù)質(zhì)量的數(shù)據(jù)清洗方法最新資訊

分享關(guān)于大數(shù)據(jù)最新動(dòng)態(tài),數(shù)據(jù)分析模板分享,如何使用低代碼構(gòu)建大數(shù)據(jù)管理平臺(tái)和低代碼平臺(tái)開發(fā)軟件

揭秘大模型技術(shù):RLHF訓(xùn)練的意義與應(yīng)用詳解

一、引言:大模型技術(shù)與RLHF訓(xùn)練概覽 1.1 大模型技術(shù)的崛起背景 1.1.1 人工智能技術(shù)的快速發(fā)展 近年來(lái),隨著計(jì)算能力的提升、大數(shù)據(jù)的積累以及算法的不斷優(yōu)化,人工智能技

...
2024-08-19 10:57:34
揭秘!大模型里的SFT定義與應(yīng)用全解析

揭秘!大模型里的SFT定義與應(yīng)用全解析 一、SFT基礎(chǔ)概念與定義深度剖析 1.1 SFT概念起源與背景介紹 SFT,全稱為Softmax Fine-Tuning,是近年來(lái)在自然語(yǔ)言處理(NLP)及深度

...
2024-08-19 10:57:34
大語(yǔ)言模型在企業(yè)中的實(shí)際應(yīng)用策略與案例分析

大語(yǔ)言模型在企業(yè)中的實(shí)際應(yīng)用策略與案例分析 一、大語(yǔ)言模型概述與企業(yè)應(yīng)用背景 1.1 大語(yǔ)言模型技術(shù)基礎(chǔ)與發(fā)展趨勢(shì) 大語(yǔ)言模型,作為人工智能領(lǐng)域的璀璨明珠,依托于深度

...
2024-08-19 10:57:34

速優(yōu)云

讓監(jiān)測(cè)“簡(jiǎn)單一點(diǎn)”

×

?? 微信聊 -->

銷售溝通:17190186096(微信同號(hào))

售前電話:15050465281

微信聊 -->

速優(yōu)物聯(lián)PerfCloud官方微信