数据处理时可能遇到的问题及解决方案
2020-12-29 15:13:11 阅读(173) 评论(0)
应该从数据源中解决的问题 缺少注意数据集中的空值或“null除非你知道它们的确切含义。如果数据是年度数据,有没有收集到哪一年的数据?假如是问卷调查,是否有受访者拒绝回答问题?当你处理缺失的数据时,你应该问自己:“我知道缺失这个值是什么意思吗?“如果答案是否定的,你应该检查你的数据源。 用零代替缺失值代替缺失值比缺失值本身更糟糕。这可能是人类无意义思维的结果,也可能是不知道如何处理空值的自动化。无论如何,如果你看到一长串零,你应该问问自己,这些值真的是零,或者说“不”(有时使用-1)。如果您不确定,请检查您的数据源。 如果同一行数据不止一次出现在数据集中,你应该找出原因,有时它可能不是整个行。一些活动财务数据包含一些修订数据,使用与原始交易相同的唯一标识符。如果你不知道这一点,你对数据所做的任何计算都是错误的。假如有些东西看起来应该是唯一的,那就验证吧。如果您发现不是,请检查您的数据源。 拼写不一致的拼写检查是判断数据是否手动输入最明显的方法之一。不要只看人们的名字——这些往往是最难检测到拼写错误的地方——你应该找到城市名称或州名称不一致的地方。如果你发现了这些问题,你可以确保数据是手动编辑的。手工编辑的数据最有可能出错。这并不意味着你不应该使用它们,但你可能需要手动纠正它们,或者在报告中解释它们。 如果第一个是欧洲人写的,第二个是美国人,那么两个日期都意味着9月:10/9/159/10/15。如果你不知道数据的来源,你就不能确定。所以确定你的数据来自哪里,并确保它是由来自同一大洲的人生成的。 没有指定单位的weight和cost就无法传达任何关于计量单位的信息。不要认为美国生产的数据必须是磅和美元。国外价格可能在本地货币中提及。如果数据没有指定单位,请检查您的数据源。 来源未记录的数据通常由包括企业、政府、非营利组织在内的各种个人和组织创建。我们以问卷调查、传感器和卫星等多种不同的方式收集数据。了解你的数据来自哪里,可以让你深入了解它的局限性。例如,问卷调查数据通常不是很详细。传感器的精度不同。政府往往不愿意给你无偏见的信息。由于穿越战线的危险,来自战区的数据可能具有较强的地域偏见。更糟糕的是,这些不同的来源经常混在一起。政策分析师经常打乱政府收集的数据。护士可以输入医生指定的数据。每一种情况都有可能出现错误,所以检查你的数据源是必要的。 你有州的数据太粗糙了,但你需要的是县的数据。您拥有雇主的数据,但您需要的是雇员的数据。他们给了你几年的数据,但你想要几个月的数据。在很多情况下,我们收集的数据对我们的使用目的来说太多了。一旦数据合并在一起,通常很难将其分开。若您提供的数据过于粗糙,则需要向数据源索要更具体的内容。也许他们没有。即使有,你也可能无法或不愿意把它们给你。许多联邦数据集无法在本地访问,以保护个人隐私。永远不应该做的一件事就是将年度数据除以12,并称之为“月平均值”。如果不知道数值的具体分布,那么数字就没有意义了。这是错误的,所以不要这样做。 老式Excel电子表允许65536行数据的最大行数为65536。如果您收到具有该行数的数据集,您收到的数据几乎可以被切断。Excel支持1、048、576行的新版本,因此数据行不太可能达到极限。 Numbers应用程序拥有255列数据,只能处理包含255列的电子表格,应用程序将在不警告用户的情况下切断更多列的文件。如果您收到的数据集只有255列,请确认该文件是否在Numbers中打开或转换。 并非所有的数字都是数字,文本都被转换成数字。例如,美国人口普查局使用“FIPS代码”代表美国的每一个地方。这些代码有不同的长度,它们都是由数字组成的,但它们实际上并不是数字。037是洛杉矶县的FIPS代码,不是指数字37。37是北卡罗来纳州的FIPS代码。Excel和其它电子表格通常认为它们是数字,所以它们去掉了前导零。 使用电子表格时,数字可以以文本的形式保存。例如,单元格可以使用字符串“1000,000”、“一万”或“USD1,一万,一万”来表示一百万美元,而不是直接使用一万美元。Excel可以使用内置函数来处理一些简单的情况,但通常需要使用公式去除字符,直到单元格的内容被识别为数字。最好的方法是不使用格式来保存数字,并在列名或元数据中包含相关信息。你应该自己解决的问题 在大多数情况下,你的文本编辑器或电子表应用程序会找到正确的编码,但你可能会发现有些人的名字中有奇怪的字符。你的数据源应该能够告诉你数据使用了什么编码。如果他们不能提供这些信息,你可以通过一些可靠的方式猜测或询问程序员。 所有文本和“文本数据”文件(如CSV)都使用不可见的字符来代表换行符。Windows、Mac和Linux一直没有就换行符应该使用什么字符达成协议。试图在一个操作系统上打开保存在另一个操作系统上的文件,有时会导致Excel或其他应用程序无法正确识别换行符。通常,这个问题只需要在通用文本编辑器中打开文件并重新保存即可轻松解决。如果文件特别大,你可能需要考虑使用命令行工具或向程序员寻求帮助。 PDF中的大量数据,特别是政府数据,只能以PDF格式提供。如果您在PDF中有真实的文本数据,可以通过几种方式提取它们。Tabula是一款优秀的免费工具。如果订阅AdobeCreativeCloud,可以使用AcrobatPro,提供将PDF表格导出到Excel的功能。 数据太细,这与数据太粗糙恰恰相反。在这种情况下,你有县数据,但你想要州或几个月的数据。幸运的是,这通常很简单。Excel或谷歌文档的数据透视表可以使用(PivotTable)总结数据的功能。透视表是每个记者都应该学习的神奇工具,但它们也有其局限性。对于非常大的数据集,你应该向程序员寻求帮助,他们可以制定一个更容易验证和重用的解决方案。 手动输入数据手动输入是一个常见的问题,至少在这里描述的其他问题中有10个与之相关。没有比让一个人输入数据而不验证数据更糟糕的方法来搞砸数据了。例如,我曾获得伊利诺伊州库克县完整的养狗许可数据库。系统创建者要求狗主人通过文本框输入狗的质量,而不是提供狗的质量列表供他们选择。因此,该数据库中至少有250个不同的吉娃娃品种。 HTML和XML复杂的数据表示与格式和注释混合在一起,在数据和格式之间有清晰的分离,但电子表格的数据表示并非如此。电子表数据的一个常见问题是,前几行数据实际上是对数据的描述或评论,而不是列出标题或数据本身。数据字典也将放置在电子表格中,标题线可以重复,或包含多个表(可能有不同的列标题),而不是存储在不同的表格中。显然,试图分析有这些问题的电子表格是失败的。因此,在第一次查看新数据时,请确保数据中不包含额外的标题线或其他格式化字符。 一个基于缺失值的数据集有100行数据,其中一列称为cost。cost列在其中50行中是空白的。那么该列的平均值是多少呢?是sum_of_cost/50还是sum__of_cost/100?没有明确的答案。一般情况下,如果要聚合在缺失值的列上,可以先安全过滤掉有缺失值的行。在某些情况下,缺失的值也可以设置为0。如果您不确定,请咨询专家,或者不要做聚合计算。 如果误差幅度太大,没有什么比使用误差幅度较大的数据得到的报告更多的错误了。非反应性使用数字,而不是有很大的错误余量。问卷调查数据通常与误差幅度有关。美国人口普查局的投票数据或美国社区调查数据最有可能出现误差。误差范围通常用于测量真实值。它可以说是一个数字(4000) /-80)或百分比(400) /-20%)。相关人口越少,误差越大。例如,根据2014年5年ACS的估计,住在纽约的亚洲人数为1、106、989 /-3,526(0.3%)。菲律宾人的数量是71,969 /-3,088(4.3%)。203年萨摩亚人数为203 /-144(71%)。前两个数字是安全可信的,但第三个数字不应用于已发布的报告。没有关于什么样的数字不能使用的规则,但经验告诉我们,我们应该小心使用超过10个误差%的数字。 有时候误差幅度不明,问题不在于误差幅度太大,而在于没有人想过要弄清楚它到底是什么。这是一个不科学的民意调查问题。如果不计算误差幅度,就不可能知道结果的准确性。作为一般规则,只要你有问卷调查数据,你就应该询问误差范围。如果数据源不能提供这些信息,那么这些数据可能不值得分析。 有偏见和偏见的数据样本是由粗心的抽样造成的,或者有人故意扭曲。样本可能包含偏见,因为它是从互联网上收集的,而穷人不像富人那样经常使用互联网。必须仔细权衡问卷调查,以确保它们覆盖所有人口比例,避免扭曲。几乎不可能完美地做到这一点,所以人们经常犯错误。 手动编辑数据的问题几乎与人类输入数据的问题相同,但它只发生在后面。实际上,手动编辑数据通常是为了修复人类最初输入的数据。当编辑不完全理解原始数据时,就会出现问题。我曾经看到有人自发地“修正”,将数据集中的Smit改为Smith。那个人的名字真的是Smith吗?我不知道,我只知道现在值有问题。 通货膨胀扭曲了数据通货膨胀,表明货币的价值随着时间的推移而变化。通过观察数字,我们无法判断数字是否出现了“膨胀调整”。如果您在获取数据后不知道它们是否已被调整,请检查您的数据源。如果他们没有调整,你可能想自己调整,你可以使用这个工具http://inflation-adjust.herokuapp.数据调整的com。 由于某些潜在原因,自然/季节变化扭曲了数据,许多类型的数据会自然波动。最著名的例子是随季节而变化的就业形式。经济学家开发了各种方法来补偿这种变化。这些方法的细节并不重要,重要的是要知道你使用的数据是否已经“季节性调整”。如果他们没有,你想比较每月的就业情况,你可能需要调整数据源(他们比膨胀调整困难得多)。第三方专家需要帮助您解决的问题 有时候,你拥有的唯一数据就是你不想依赖的来源。在某些情况下,这很好。只有枪械制造商知道他们生产了多少枪。但是,如果您的数据来自可疑制造商,请务必与其他专家核对,最好与两三位专家核对。除非你有确凿的证据,否则不要发布包含偏见来源的数据。 在数据收集过程中,很容易引入不真实的假设、错误或纯粹的谬误。因此,收集数据的方法必须是透明的,这一点非常重要。很少有人知道如何收集数据集,但问题可以从一些表象中看出,比如不切实际的断言精度和结果要好得多的数据。 除了硬科学之外,很少有不切实际的精确度能用超过两位小数的精确度来测量。假如某个数据集打算在小数点后面显示工厂的排放量第七位,那么它们可能是从其它值估算出来的。它们常常是错误的。 我最近创建了一个数据集,表明通过互联网到达不同目的地需要多长时间。除其中三个超过5000秒外,所有时间都在0.05到0.8秒之间。这意味着数据生成过程中存在问题。我写的代码有一个错误,导致在发送和接收其他信息时无法计算某些信息的时间。这些异常值可能会极大地影响你的统计数据——
推荐阅读
猜你喜欢
最新文章
扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121
关注微信公众号
和10万中小企业共同成长
扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有 蜀ICP备12001963号-2 川公网安备 51010402000322号
快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
免费查找信息保护中请放心填写-
-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP
企业首选的数字选用平台