如何做数据清洗?全过程梳理
2021-01-06 13:37:01 阅读(144) 评论(0)
数据清洗是整个数据分析过程中不可缺少的一部分,其结果质量直接关系到模型效果和最终结论。在实践中,数据清洗通常占分析过程的50%-80%。一些外国学术机构将专门研究如何清理数据,并有许多相关的书籍。(从美亚搜索datacleaning的结果可以看出,这本书还是挺贵的。)本文将尝试对数据清理过程进行非常浅层次的梳理,供您参考。像往常一样,先上图:预处理阶段预处理阶段主要做两件事:一是将数据导入处理工具。一般情况下,建议使用数据库,单机跑数可以构建MySQL环境。如果数据量大(千万级以上),可以存储文本文件 Python操作方法。二是看数据。这里有两部分:一是看元数据,包括所有描述数据的信息,如字段解释、数据源、代码表等;二是提取部分数据,使用人工查看,直观了解数据本身,初步发现一些问题,为以后的处理做准备。第一步:清理缺失值是最常见的数据问题,处理缺失值的方法有很多。我建议遵循以下四个步骤:1、确定缺失值范围:计算每个字段的缺失值比,然后根据缺失比和字段的重要性制定策略,如下图所示:2、删除不必要的字段:这一步很简单,可以直接删除...但强烈建议清洗每一步都要备份,或者成功测试小规模数据,然后处理全量数据,否则如果你删除错误,你会后悔的(换句话说,在编写SQL时,delete必须与where相匹配!)。)。3、填充缺失内容:可以填充一些缺失值。有三种方法:根据业务知识或经验,很容易理解填充缺失值的前两种方法:根据同一指标(平均值、中位数、众数等)的计算结果,以不同指标的计算结果填充缺失值。至于第三种方法,举个最简单的例子:缺少年龄字段,但有六个身份证号码被屏蔽,so……4、重新取数:如果某些指标非常重要且缺失率高,则需要了解取数人员或业务人员是否有其他渠道可以获取相关数据。以上简单梳理了缺失值清洗的步骤,但有些内容比我说的要复杂得多,比如填充缺失值。许多关于统计方法或统计工具的书籍都会提到相关方法,感兴趣的人可以自己深入了解。第二步:如果数据来自系统日志,格式内容清洗通常与元数据的描述一致。如果数据是手动收集或用户填写的,则很有可能在格式和内容上存在一些问题。简单地说,格式内容有以下类别:1、时间、日期、值、全半角等显示格式不一致的问题通常与输入端有关,也可能在整合多源数据时遇到,并将其处理成一致的格式。2、有些不应该存在的字符可能只包括一部分字符,比如身份证号码是数字 中国人的名字是汉字(赵C这种情况还是少数)。最典型的是头、尾、中间的空间,名称中也可能有数字符号、身份证号中的汉字等问题。在这种情况下,需要通过半自动验证和半人工验证来发现可能出现的问题,并去除不必要的字符。3、内容与字段应有的内容不符,姓名写性别,身份证号码写手机号码等,都是这样的问题。然而,这个问题的特殊性在于,它不能简单地通过删除来处理,因为原因可能是人工填写错误,或者前端没有验证,或者在导入数据时部分或全部列没有对齐,因此有必要详细识别问题的类型。格式内容问题是一个更详细的问题,但许多分析错误都种植在这个坑上,如跨表关联或VLOOKUP失败(多个空格导致工具认为“陈丹奕”和“陈丹奕”不是一个人)、统计值不完整(数字中加入字母当然是求和时的结果有问题)、模型输出失败或效果不好(数据对错列,日期和年龄混合,so……)。因此,请务必注意这部分清洁工作,特别是当处理的数据是手动收集的,或者当您确定产品的前端验证设计不是很好。第三步:逻辑错误清洁的工作是删除一些使用简单的逻辑推理可以直接发现问题的数据,以防止分析结果的偏差。主要包括以下步骤:1、去重有的分析师喜欢把去重放在第一步,但我强烈建议把去重放在格式内容清洗后,原因已经说过了(多个空格导致工具认为“陈丹奕”和“陈丹奕”不是一个人,去重失败)。而且,并不是所有的重复都能如此简单地删除。。。我曾经做过与电话销售相关的数据分析,发现销售人员无所不用。。例如,一家叫做“ABC管家有限公司”的公司在销售A手中,然后销售B在系统中输入一家“ABC管家有限公司”,以抢夺客户。你看,如果你不仔细看,你就看不出两者的区别,即使你看到了,你能保证没有“ABC官方有限公司”的存在吗。。。在这个时候,你要么抱着RD大腿,让别人给你写一个模糊的匹配算法,要么用肉眼看。上面这个不是最狠的,请看下图:你用的系统很有可能两条路都叫八里庄路,敢直接去重吗?(附送重小tipss:两条八里庄路的门牌号范围不同)当然,如果数据不是手动输入的,那就简单地去重。2、去除不合理值一句话就能说清楚:有人填表时盲目填表,年收入2万(估计没看到“万”字),要么删除,要么按缺失值处理。如何发现这个值?提示:可用但不限于箱形图(Box-plot).3、纠正矛盾内容的一些字段可以相互验证。例如,身份证号码为1101031980XXXXXXXX,然后年龄为18岁。虽然我们理解人们总是18岁的想法,但我们知道真正的年龄可以为用户提供更好的服务(胡说八道)。此时,需要根据字段的数据来源来确定哪个字段提供更可靠的信息,以去除或重构不可靠的字段。除上述情况外,逻辑错误还有许多未列举的情况,在实际操作中应酌情处理。此外,这一步可能会在随后的数据分析和建模过程中重复,因为即使问题很简单,也不是所有的问题都能一次发现。我们所能做的就是使用工具和方法,尽量减少问题的可能性,使分析过程更有效率。第四步:非需求数据清洗的步骤很简单:删除不需要的字段。但在实践中,有很多问题,比如删除看似不需要但实际上对业务非常重要的字段;一个字段感觉有用,但不知道如何使用,不知道是否删除;看一会儿,删除错误的字段。在前两种情况下,我给出的建议是:如果数据量没有大到不删除字段就无法处理的程度,那么尽量不要删除不能删除的字段。第三种情况,请勤备份数据...第五步:如果您的数据有多个来源,则需要进行相关验证。例如,您有汽车离线购买信息和电话客户服务问卷信息,两者通过姓名和手机号码相关,所以看看同一人离线注册车辆信息和在线问卷问车辆信息是否相同,如果不是(别笑,业务流程设计可能会出现这个问题!),然后需要调整或删除数据。严格来说,这已经脱离了数据清洗的范围,应该涉及数据库模型中的相关数据变化。但我仍然想提醒你,多源数据集成是一项非常复杂的工作。我们必须注意数据之间的相关性,尽量不要在分析过程中相互矛盾,但你没有注意到。
推荐阅读
- 苏州商标注册去哪里?通过这些渠道就能够完成商标注册
很多企业为了能够保护自己的品牌形象,都会设有商标设计,而且设计完商标之后也会进行商标注册,其实这对于企业来讲是非常重要的选择了,只有拥有了自己的商标注册之后,才能够得到产品的保护,也能够对自己的企业形象带来维护,而且企业商标也更是能够让消费…查看详情
- 三级分销系统有哪些 分销系统哪个平台比较好?
说道三级分销就不得不说当年的微商了,当年更随着微商时代的脚步,通过快速吸粉引流进行多级分销,销售的花样百变,其中最为瞩目的就是直播卖货了,丰富的营销工具,精准的会员体系,详细的数据分析,那么今天我们就来盘点一下三级分销系统。1、迪士尼迪士尼…查看详情
- 如何建立免费公司网站,这些步骤要熟悉
其实,伴随着互联网的快速发展,越来越多的大学生都开启了自主创业模式,创业的形式多种多样,但如果想跟互联网接轨就离不开网站。下面小编就给大家来详细介绍一下如何建立免费公司网站,这一块的内容,希望能帮助到大家。据小编了解,网站承载的内容有很…查看详情
- 中文域名注册骗局的套路
中文域名注册骗局是一种网络欺诈手段,以利用用户对中文域名的需求和不了解相关规则为基础,通过虚假宣传、误导性信息等方式进行欺骗。以下是其中几种常见的套路: 1.中文域名抢注:骗子会声称某个中文域名非常热门或有大量人想要注册,并且告诉用户只剩下…查看详情
- 超好用的3款电子相册制作软件,再不用为照片丢失而担心
因为很多人都比较喜欢照相,如果我们把所有的相片都存在手机里面的话,很容易会丢失,这样的话找的时候就比较困难了,那么,做成电子相册的话就不怕丢失了,电子相册制作软件有哪些? 1、私密相册官方版 是一款很实用的相册管理软件,守护…查看详情
- 2021最实用的免费企业管理系统软件盘点
随着经济的发展,企业的管理方面越来越复杂,企业在管理方面面临着很大的麻烦,当今社会学的企业选择运用好的软件来进行企业的管理,但是却很难找到一些比较实用的,今天就来给大家介绍一下2021最实用的免费企业管理系统软件盘点。 1.e-office…查看详情
- 小程序定制开发需要多少钱?了解价格更好的进行小程序开放
小程序的出现吸引了很多企业,因为现在小程序使用率是比较高的,点击量也比较大,有很多的用户都在使用,所以从小程序就能够了解到一家企业的动态,也能够看到企业的产品,所以说相对来说推广也是比较方便的。现在很多企业也都想要开发小程序,但…查看详情
- transformer模型是什么
chatgpt为什么这么强大?ChatGPT是一种基于Tra1former模型的自然语言处理技术,是OpenAI研究团队发布的一种语言模型。它之所以强大,是因为它在大规模语料库上进行了预训练,可以更好地理解和处理自然语言,能够生成自然流畅的…查看详情
- 国外社交app有哪些?这些比较受欢迎
现在不仅网络在全球已经覆盖,并且发展的越来越智能和先进,一些社交软件的出现,更是让大家的交流拉近了距离,不管是国内还是国外,都有十分不错的社交APP可供大家选择,那么国外社交APP有哪些呢?这些比较受欢迎一起来看看吧。 1…查看详情
- windows10桌面图标大小怎么更改
在Windows10 操作系统中,默认情况下桌面上的图标大小是中等大小。但是有时候,由于屏幕分辨率的不同或者视力的问题,中等大小的图标可能不适合某些人的需求。如果你需要更改 Windows10桌面上的图标大小,可以按照下面的步骤进行…查看详情
- 专利权是无形产权吗?专利权是不是无形资产?
在平时很多的小伙伴都不知道专利权是无形产权吗的基本情况,而且对专利权是无形产权吗都不是很熟悉,下面万商云集小编就为大家整理了专利权是无形产权吗这方面的相关内容,希望下面的内容能帮助到各位。 一、专利权是无形产权吗 专利技术属…查看详情
- 2022年怎么做网站推广 如何做网站推广
其实很多人对于网站推广不是很清楚,很多人以为网站做好了不去做推广就能有访客,其实这是大错特错的认知,下面万商云集小编给大家来详细介绍一下2022年怎么做网站推广 如何做网站推广这一块的内容,希望能帮助到大家做好网站推广。 1.关键词选择 …查看详情
- 共享衣橱风起,中小服装品牌再遇危机
你一定发现,最近朋友圈的好友们纷纷换上了带有国旗的头像,为祖国庆生、打call。除此之外,还有一些好友的头像换上了各民族服装。对于共享这个词,相信企业商家十分熟悉了。从单车到汽车到充电宝,如今又悄悄潜入服装行业了。朋友圈中的民族服装头像,就…查看详情
- 2022武胜网站建设多少钱?武胜网站建设价格
现在很多的中小企业在疫情的冲击下都活得很艰难,再加上一个企业还是需要有自己的一个网站,现在很多的企业做网站都比较关心的是网站建设的价格,下面万商云集小编给大家来详细介绍一下2022武胜网站建设多少钱?武胜网站建设价格这一块的内容。武胜网…查看详情
- sql如何防范注入语句
SQL注入系统拦截提示?呵呵,这个解决非常简单,你只需要清除下cookies就好了目标网站做了cookies防止注入了,我也做了这种防止注入工具-Internet选项-删除文件-删除cookies-确定解决不了你找我sql注入的攻击原理是什…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP

企业首选的数字选用平台






