数据分析人员称道和接受的数据降维方法
2021-01-11 10:52:13 阅读(178) 评论(0)
近年来,由于数据记录和属性规模的快速增长,也出现了大数据处理平台和并行数据分析算法。同时,这也促进了数据降维处理的应用。事实上,数据量有时过多。有时在数据分析应用中,大量的数据会产生更糟糕的性能。最新的例子是使用2009KDChalenge大数据集来预测客户流失。数据集维度达到15000维。大多数据挖掘算法直接逐列处理数据,当数据数量较大时,算法越来越慢。这个项目最重要的是减少数据列数,尽可能少地丢失数据信息。以这个项目为例,我们开始讨论数据分析师在当前数据分析领域称赞和接受的数据降维方法。缺失值比率(MissingValuesRatio)该方法是基于包含过多缺失值的数据列,包含有用信息的可能性较小。因此,数据列缺失值大于一定阈值的列可以去除。阈值越高,降维方法越积极,即降维越少。该方法示意图如下:低方差滤波(LowVarianceFilter)类似于上一种方法,假设数据列变化很小的列所包含的信息量较少。因此,所有数据列方差小的列都被删除了。需要注意的是,方差与数据范围有关,因此在采用该方法之前需要对数据进行归一化。算法示意图如下:高相关滤波器(HighCorrelationFilter)高相关滤波器认为,当两列数据变化趋势相似时,也显示了它们所包含的信息。这样,机器学习模型就可以通过使用类似列中的一列来满足。通过计算相关系数来表示数值列之间的相似性,通过计算皮尔逊卡方值来表示名词类列的相关系数。两列相关系数大于一定阈值的列只保留一列。还需要注意的是,相关系数对范围敏感,因此在计算前也需要对数据进行归一化。算法示意图如下:随机森林/组合树(RandomForests)组合决策树通常被用作随机森林,在选择特征和构建有效的分类器时非常有用。一种常用的降维方法是根据每个属性的统计结果,对目标属性产生许多巨大的树木,然后找到信息量最大的特征子集。例如,我们可以将一棵非常大的数据集生成非常浅层的树,每棵树只训练一小部分属性。若属性往往成为最佳分裂属性,则很可能是需要保留的信息特征。与其他属性相比,随机森林数据属性的统计评分将向我们揭示哪个属性是预测能力最好的属性。算法示意图如下:主成分分析(PCA)主要成分分析是一个统计过程,通过正交变换将原始n维数据集转换为新的数据集,称为主要成分。在变换后的结果中,第一个主要成分具有最大的方差,每个后续成分在与上述主要成分正交条件的限制下具有最大的方差。降维时只保存前m(m<n)保持最大数据信息量的主要成分。需要注意的是,主要成分的转换对正交向量的尺度很敏感。变换前需要对数据进行归一化处理。还需要注意的是,新的主要成分不是由实际系统产生的,因此在PCA转换后会失去对数据的解释。如果数据的解释能力对你的分析很重要,那么PCA可能不适用于你。算法示意图如下:消除反向特征(BackwardFeatureElimination)在这种方法中,所有分类算法首先使用n个特征进行训练。每次降维操作,用n-1个特性对分类器进行n次训练,获得新的n个分类器。将新分类器中错分率变化最小的分类器使用的n-1维特征作为降维后的特征集。通过不断迭代这个过程,可以得到降维后的结果。n-k维特征分类器是在第k次迭代过程中获得的。通过选择最大的错误容忍度,我们可以得到在选择分类器时达到指定分类性能的最小特征。算法示意图如下:前向特征结构(ForwardFeatureConstruction)构建前向特征是消除反向特征的反过程。在前向特征的过程中,我们从一个特征开始,每次训练增加一个特征,最大限度地提高分类器的性能。前向特征结构和反向特征消除都非常耗时。它们通常用于输入维数相对较低的数据集。算法示意图如下:我们选择2009KDChanlenge的切割数据集,比较这些降维技术的降维率、精度损失率和计算速度。当然,最终的准确性和损失率也与所选数据分析模型有关。因此,最终降维率和精度的比较是在三种模型中进行的,即决策树、神经网络和简单贝叶斯。通过运行优化循环,最佳循环终止意味着低纬度和高精度取决于七种降维方法和最佳分类模型。通过将训练模型的基准精度与ROC曲线下的面积进行比较,最终最佳模型的性能。以下是对所有比较结果的比较。从上表的比较可以看出,数据降维算法不仅可以提高算法的执行速度,还可以提高分析模型的性能。采用数据集:缺失值降维、低方差滤波、高相关滤波或随机森林降维时,表中的AoC在测试数据集中略有增长。的确,在大数据时代,数据越多越好,似乎已经成为公理。当数据集宝航行过多的数据噪声时,算法的性能会导致算法的性能达不到预期。只有少量甚至无效的信息才能帮助我们构建更具可扩展性和通用性的数据模型。新数据集中的数据模型可能会表现得更好。最近,我们咨询了Linkedin数据分析小组中最常用的数据降维方法。除了本博客中提到的数据降维方法外,它还包括:随机投影(RandomProjections)、非负矩阵分解(N0n-negativeMatrixFactorization),自动编码(Auto-encoders),卡方检测和信息增益(Chi-squareandinformationgain),多维标定(MultidimensionalScaling),相关性分析(CoorespondenceAnalysis),因子分析(FactorAnalysis)、聚类(Clustering)贝叶斯模型(BayesianModels)。感谢Asteriosstergioudis、RaoulSavos和MichaelWill在Linkedin小组中提供意见。本博客在KNIMEEXAMPLES服务器上描述了“003_”的工作流程Preprocessing/003005_dimensionality_reduction可以在目录中找到。本博客在KNIMEEXAMPLES服务器上描述了“003_”的工作流程Preprocessing/003005_dimensionality_reduction可以在目录中找到。2009KDChalenge大小数据集下载地址:下载。本博文只是对整个项目的简要总结,如果您想了解更多细节,可以阅读相关白皮书,白皮书下载地址:链接本博文原载:dataminingreporting.com#sthash.3vHXD9wv.dpuf翻译后记本文翻译自7machineleningtechniquesfordimensioninityreduction。为了方便解释,白皮书在原有的基础上进行了比较,每种方法的示意图都是从白皮书中添加的,有兴趣的可以直接阅读白皮书。翻译后没有仔细校对。如果有错误,请读者雅正。
推荐阅读
- 2022最新清理垃圾软件 手机最强深度清理软件
我们的手机使用的时间长了多多少少会有一些垃圾出现,那么肯定是需要借助垃圾清理软件去清理的,这样的话才能保证手机的内存够用,如果你一直不清理的话,时间长了,堆积的垃圾越来越多,就会导致手机出现卡顿的现象。 1、系统优化大师 一…查看详情
- 一键去水印的APP有哪些?去水印好用的软件推荐
很多人特别喜欢拍照片或者是选择一些比较好的图片,这个时候如果图片上有水印就需要进行图片修理,如果想要去掉图片上的水印,那么也应该要选择一款专业的软件。有了软件之后就能够将图片上的水印更好的去除,打造出自己想要的图片效果。那么一键…查看详情
- java的特点是什么
java是什么文件格式?Java一般存在两种文件格式,如下: 1.*.java文件是保存源代码的文本文件(*代表类名)使用javac*.java可以编译该文件使用java*可以运行该类2.*.class是用于保存Java类的二进制编码以及…查看详情
- 作者许可他人版权登记,著作权归属为谁?
通常情况下,著作权一般都归原创作者。我国同时又实行著作权登记制度,谁登记谁就拥有对作品的使用权。那么若是作者许可他人版权登记,作品著作权应归谁所有呢? 图片来源于网络 作者许可他人版权登记,著作权归属如何确定? 首先,作者许可他人版权登记在…查看详情
- ems网点的优缺点总结大全
ems网点作为全国范围最广的快递网点,相信许多人都用它寄存过东西。作为中国速递行业的最大运营商和领导者,它能吸引人们的不仅仅是因为它的范围广阔,还由于它各处优于其它网点的特点,那么今天我们来分析一下ems网点的优缺点。…查看详情
- lrc是什么文件
LRC文件是什么意思?lrc是英文lyric(歌词)的缩写,被用做歌词文件的扩展名。以lrc为扩展名的歌词文件可以在各类数码播放器中同步显示。LRC歌词是一种包含着形式的“标签(tag)”的、基于纯文本的歌词专用格式。最早由郭祥祥先生(Dj…查看详情
- 好用的安卓锁屏软件 免费的安卓锁屏软件
现在越来越多的用户都比较喜欢追求个性化,很多的人都对自己手机的锁屏软件比较在意,下面万商云集小编就为大家分析5款好用的好用的安卓锁屏软件。 【Top.5】天天锁屏 网友点评:漂亮又赚钱的锁屏,还能下载DIY锁屏模板,制作属于自己的锁屏,…查看详情
- 7款免费收银软件系统排行
随着时代的进步,使用现金的年轻人越来越少,但更多的年轻人纷纷开始使用了在线支付。不仅省去了找零钱的麻烦又省去收到假钱的麻烦。那么我给大家推荐7款实用又免费的收银系统软件如下。 1中国移动云pos收银台 中国移动云pos收银台是中国移动面向手…查看详情
- 企业网站建设的功能需求和性能要求
互联网技术在发展,人们对技术的依赖和需求也越来越强,企业在网站建设上的投入也越来越大,对于网站建设功能的要求也越加严格和完善,当网站需要进行功能拓展的时候,就需要整合主站、分站和其它内外网的工作,这样的拓展工作是很花费时间和人力的。也容易让…查看详情
- fprintf函数的用法matlab
matlab中的fprintf('y[%2.0f]=%12.6f'?1、首先,fprintf如果没指定文件句柄,则直接在屏幕上输出。 2、格式字符串中,其它内容都是原样输出,只有百分号后面的内容是要转换的,%2.0f表示要…查看详情
- 知识产权服务机构进行项目评估的实施流程
知识产权评估是指知识产权服务机构的注册资产评估师依据相关法律、法规和资产评估准则,对知识产权评估对象在评估基准日特定目的下的知识产权价值进行分析、估算并发表专业意见的行为和过程。知识产权评估中所涉及的知识产权内容比较多,一般主要对商标权、专…查看详情
- 几款免费在线观看电视软件,好剧再也不错过
看电视可以直接在电视上看,还可以在手机上看,不过现在大多数人都会在手机上看,而且方便,不需要准时准点,随时都可以看,那么,关于看电视软件都有哪些,许多人还不知道。 1、腾讯视频 腾讯视频是腾讯公司旗下的视频在线观看产品,定位…查看详情
- 免费好用的安卓模拟器有哪些 安卓模拟器排行榜
对于android开发者来说,模拟器是开发工具,但是对用户来说,可能就是薅羊毛、找漏洞的赚钱工具。不管是活动风控还是内容保护等等其他的出发点,应要求可能会要识别Android模拟器,甚至禁止模拟器登录或后续操作。但是对于用户来说很多的模…查看详情
- 来电显示软件苹果 苹果手机来电提醒软件
现在很多的用户都喜欢在手机里装来电显示软件,下面万商云集小编就为大家详细介绍下来电显示软件的相关内容、。Callkit是很多朋友期待已久的一个功能,目前iOS版微信和QQ 都已处于内测阶段,引发大量用户的关注。不过,还有很多人对Call…查看详情
- 版权登记补贴 | 成都、武汉、深圳等各地奖励政策都不相同
登记版权可以保护版权人的权利免受损失,无论是对企业还是个人来说,它都是应该值得重视的问题。如今,各地政府都有版权登记补贴,相当于自己进行版权登记无需任何花费,只是具体的政策各地都有不同。 图片来源于网络 各地版权登记补贴政策如下: ▼ 成…查看详情
猜你喜欢
最新文章
扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121
关注微信公众号
和10万中小企业共同成长
扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有 蜀ICP备12001963号-2 川公网安备 51010402000322号
快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
免费查找信息保护中请放心填写-
-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP
企业首选的数字选用平台