服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

正确的使用数据,“正确”到底是什么意思?

2020-12-28 11:31:33 阅读(172 评论(0)

不知道大家有没有听说过,数据科学现在特别疯狂,到处都是课程、博客、培训机构。每次看到这些东西,我发现很多都集中在几个特定的算法上。当然,理解逻辑回归和深度学习是很酷的,但一旦你开始真正使用实际数据来做一些事情,你会发现还有其他重要的事情,甚至更重要。我不会说这些课程不好。我在大学里教了很多年机器学习。这些课程总是专注于几种特定的算法。您学习了支持向量机,高斯混合模型,k-means聚类,等等,但是在做研究所论文的时候,你学会了如何正确使用数据吗?那么,“正确”到底是什么意思呢?不是用结果来评价吗?不是只要我预测准确率高就完成了吗?当然,这是对的,但关键是要确保你在特征数据方面取得了良好的表现。就像我在别处写的,当你看到训练数据的结果时,你很容易被愚弄,认为你的方法非常有效。因此,这里有几个主要的想法,你在书中很难找到。1、评估是关键数据分析/机器学习/数据科学(或你想叫什么)的主要目的是构建一个能在未来数据中表现良好的系统。由于监督学习和非监督学习的区别,很难理解这意味着什么。但在任何情况下,你都会收集一个基于这个数据集的数据集来设计你的方法。但最终,您需要将您的方法应用到未来的数据中,您希望该方法给出的结果与您使用原始数据集的结果相似。初学者经常犯错误,只看可用数据的表现,假设未来数据也可以work。不幸的是,这只是少数情况。现在,我们只讨论监督学习,任务是基于你的输入来预测一些输出,比如分类垃圾邮件。假如你只考虑训练数据,机器只要记住一切,就能得到完美的预测,这很容易。其实对人来说也比较常见。当你学习外语并记住单词时,你会在测试时打乱所有单词的顺序。否则,你的大脑只记住基于顺序的单词。机器有大量的存储能力,很容易记住大量的数据。这将导致过拟合,缺乏泛化。因此,正确的方法是划分你的数据集,模拟你已经有了未来的数据,在一部分训练,在另一部分预测。通常训练集比较大,这个过程会重复几次,得到几个结果,看看我们的方法是否稳定。这一过程称为交叉验证。图1。模拟未来数据。在分割了数据集之后,仍然会有问题,特别是数据是非静态的,也就是说,数据的潜在分布随时会发生变化,这在实际场景中经常发生,销售数据在1月和6月会有很大的不同。或者,数据点之间会有很大的相关性,这意味着如果你知道一个数据点,你也知道很多其他的数据点。例如,如果你使用股票的价格,你通常在相邻的两天内不会跳得很厉害,所以在随机分割训练集和测试集时,可能会导致训练数据集与测试数据集的高度相关。但当这些发生时,你会得到一个过于优化的数字,你的方法在未来的数据中不会工作得很好。在最糟糕的情况下,你终于说服人们试试你的东西,结果不工作,所以学习如何正确评估是关键!2、学习一种新的特征提取方法是非常令人兴奋的,但事实是,大多数复杂的方法实际上都是相似的,真正的区别在于原始数据是如何转化为特征来学习的。现在的学习方法很强,很容易处理成千上万的特征,成千上万的数据,但最终,这些方法都是愚蠢的。尤其是线性模型(如逻辑回归、线性支持向量机),基本上就像你的计算器。这些方法非常适合处理具有明确信息和使用足够数据的特征,但如果没有足够的信息或输入特征的线性组合,这些方法将无能为力。你可以大大减少数据量,你需要找到正确的特征,假设,如果你删除了所有的特征,就没有什么可学的了,对吧?这就是特征提取有多强大!这意味着两件事:首先,你应该确保你精通类似的方法之一,但你可以一直使用它。所以,你不需要逻辑回归和线性SVMS,你可以选择一个。这也包括了解哪些方法是相似的,这些模型的关键点在哪里。深度学习有点不同,但线性模型大致相同,但训练时间、方案稀疏等可能不同,但对于大多数案例,应该能够得到相同的预测。第二,你需要学习所有的特色工程。不幸的是,这是艺术,书基本上不会说,因为没有理论上的东西。归一化很有用。有时,特征需要对数。有时你可以排除一些自由,也就是说,一种去除数据可以改变的方式,这与预测任务无关,你可以显著减少训练中的数据量。有时很容易发现这些变化。比如你在做手写字符识别,很明显颜色没有鸟用,你已经有了前景和背景。我知道书中描述方法的时候经常会说得很厉害。只要你把数据扔进去,剩下的就给你做。从理论上讲,使用无限数据是可以的,但实际情况是数据和时间是有限的。显然,找到信息量的特征是本质。3、在大数据时代,选择模型需要最多的时间,而不是数据集的大小。没有必要过分强调这些事情。大多数数据集可以完全存储在系统内存中。你的方法不会花太多时间运行数据。但您将花费大量时间进行特征提取、交叉验证、比较不同的特征提取方案和参数。对于模型选择,您经历了许多参数组合,复制相同的数据,同时运行,并评估结果。这个问题是组合的探索。例如,您只有两个参数,训练模型只需1分钟,然后在保留的数据集中评估性能。如果你对每个参数有5个候选值,你可以做50%的折扣交叉验证,这意味着你需要跑125次才能找到哪组参数最好,你需要等1个小时,而不是1分钟。好消息是并行化,因为训练完全不相关,可以同时跑。有一个坏消息主要针对大数据的学生。因为所有这些都意味着对实现可扩展性的复杂需求很少,在大多数情况下,内存中并行运行非分布式算法也很有帮助。最后,大量的数据并不意味着需要这么多的数据,而是背后学习问题的复杂性。如果你能用一个简单的模型来完成它,你就不需要那么多的数据。在这种情况下,可以随机选择数据子集。正如我上面所说,有时,正确的特征表明它可以极大地帮助减少所需的数据数量。综上所述,知道如何正确评估是很有帮助的,可以降低未来无法使用数据的风险。提取正确的特征可能是最有效的。最后,并非所有时候都需要大数据,尽管分布式计算可以帮助我们减少训练时间。

内容来源:AI公园,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

2021管理软件企业排行

管理软件企业是针对大型企业适合100人及以上的公司,例如浪潮、金蝶、用友等制作企业管理软件的巨头,涵盖了财务管理、车间管理、进销存管理(ERP)、资产管理、成本管理、设备管理、质量管理、分销资源计划管理、人力资源管理。下面就2021管理软件…查看详情

十大装修软件推荐

  优质答案(1)  目前满足一般家装设计用酷家乐就可以,这个有免费版,就是渲染效果差一些,可以用酷币渲染高清,酷币可以免费领,不需要有其他软件基础就可以,打光也比较简单,如果是大神用3D效果比较好,不说了,哟作图去了  优质答案(2)  …查看详情

漫画版权登记 更主动的保护自己的著作权

在智能手机迅速发展的今天,手游、动画片等动漫作品传播的速度非常快,漫画版权登记成了保护自己著作权最重要的手段,许多人没有版权意识,往往看到一个好的作品手机一拍就可以迅速传播,往往不经意间就将一些未经版权登记的动漫作品传上了网,是的这些作品“…查看详情

来看看微信支付发布的《2019小商家经营大数据报告》

十一国庆黄金周带动了一波消费热潮,而身边随处可见的小商家成为我们消费的主要战场,也是我们体验智慧消费的主要场景。在10月8日,微信官方发布了数据报告《2019小商家经营数据报告》,通过数据我们来看看移动支付在商家和个体商户中处于一个什么样的…查看详情

公司注册分公司有什么好处(新盘点)

  为什么很多大公司都有自己的分支机构(分公司)呢?因为公司经营好了,就需要扩展自己的商业版图,更多的分公司能让企业赚得更多的钱,同时让企业声名远扬,这是注册分公司的好处。下面小编就给大家来详细介绍一下公司注册分公司有什么好处这一块的内容,…查看详情

面积测量软件有哪些 面积测量软件排行榜

  在很多的场合都会使用到测量软件这个东西,但是很多人都不知道测量面积用什么软件,下面小编就给大家来详细介绍一下面积测量软件有哪些 面积测量软件排行榜这一块的相关内容,希望能帮助到大家。  面积测量软件排行榜  1、《AR测量》  这是…查看详情

商标不让注册?可能是你犯了以下大忌

很多时候,注册人都很容易踩进商标注册的雷区,商标名就是其中之一。各色商标之中,大家却不知道很多名称是商标法明令禁止的,却仍然提交申请注册,那命运当然只有被驳回这一条路可走。为您简单整理一下,有如下几种情况的商标不让注册。图片来源于网络1、商…查看详情

手机办公软件有哪些 2022手机办公软件排行榜

  现在随着疫情的反反复复,居家办公线上办公似乎成为了一种常态化了,手机办公也是经常会使用到的,下面小编就给大家来详细介绍一下手机办公软件有哪些 2022手机办公软件排行榜这一块的相关内容,希望能帮助到大家。  2022手机办公软件排行…查看详情

公司刚成立,选用什么管理软件好?

作为一个公司的核心人员来说,管理是非常重要的,只有把管理这方面的工作做好,整个公司运转的才会更加顺畅,没有管理的公司就好比一滩散沙,随时都有可能会倒闭,那么,企业管理软件排行都是什么? 1、Bitwarden ?是一款免费开…查看详情

棉花糖餐饮管理系统好用吗?看看网友怎么评价

棉花糖餐饮管理系统是一款真正意义上免费的餐饮管理系统,适合各业态规格餐厅,是早期较为知名的餐饮管理系统,关于棉花糖餐饮管理系统好用吗这个问题,我们来看看使用过它的网友是怎么评价的。 棉花糖餐饮管理系统功能涵盖范围比较广,包括开台收银、快餐模…查看详情

2022公司注册资金最低多少?

  由于就业市场竞争激烈,很多应届毕业生会选择自己创业,我国规定注册公司要有注册资本,但是很多的人不知道2022公司注册资金最低多少,下面小编就给大家来详细介绍一下这一块的资讯,希望能帮助到大家。  2022公司注册资金最低多少  2014…查看详情

中小企业谈转型,为何仍不见利润?

人人说传统企业该转型,为何涉足转型,仍不见利润成效? 这或许是绝大多数中小企业目前最大的困惑,投入了人、钱、物乃至时间去与互联网打交道,眼见花费不止,销售业绩一般般,客户也不见增长,传说中的市场红利去哪里了?也因为这些困惑的诞生,让许多中小…查看详情

“门店+社群”?新的零售模式企业如何接招

以微信群为平台搭建的社群社交方式,成为当前环境下熟人、半熟人社交的主要方式。在这种环境下,一些创业公司以及一些传统企业,看到了微信群的这种营销价值,创新了社交零售模式。 虽然目前对这种独立的社群零售模式还有比较大的争议。但当前不论是零售商,…查看详情

创业者必看!网店创业计划书内容的构成部分

无论是开网店创业还是要经销新产品,是开始一项长期的事业来发展,你知道网店创业计划书内容的构成部分是哪些吗?以下这些内容对于有创业需求的朋友一定不能错过。 任何一个网店的初创和运维,都离不开《网店创业计划书》,它能进行有效的进行网店项目评估、…查看详情

专利权中三类的含义是什么

   专利权是由国务院专利行政部门依照法律规定,根据法定程序赋予专利权人的一种专有权利。下面万商云集小编给大家详细解释下专利权中三类的含义的相关内容。  一、专利权中三类的含义是什么  (1)专利权是国家依法授予专利人对其专利产品在一定期限…查看详情

最新文章