服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

督导式机器学习的使用现状分析

2020-12-28 15:39:11 阅读(146 评论(0)

随着我们进入2017年下半年,是时候看看使用数据科学和机器学习的公司面临的共同挑战了。假设你的公司已经大规模收集数据,需要使用分析工具,你已经意识到数据科学可以发挥重要作用(包括改善决策或企业管理、增加收入等),并优先考虑。对收集数据和识别感兴趣的问题并非小事,但假设你在这些方面取得了良好的开端,那么还有哪些挑战呢?数据科学是一个广泛的话题,所以我想解释一下:本文主要讨论了监督机器学习的使用情况。假设你有一个处理数据摄取和集成的团队,以及一个维护数据平台(“真相来源”)的团队,新的数据来源不断出现,领域专家负责找到这些数据来源。此外,由于我们主要讨论监督学习,缺乏培训数据仍然是机器学习项目的主要瓶颈,这并不奇怪。有一些很好的研究项目和工具可以快速创建庞大的训练数据集(或加强现有的训练数据集)。斯坦福大学的研究人员已经证明,弱监督和数据编程可以用于训练模型,而无需使用大量手工标记的训练数据。深度学习研究人员对生成模型的初步研究在计算机视觉等无监督学习领域取得了令人满意的成果。在机器学习的背景下,评估数据的另一种有用方法是“思考特性而不是算法”。友情提示:数据扩展可以改善你现有的模型,在某些情况下,甚至可以帮助缓解冷启动问题。大多数数据科学家可能使用开源数据或通过第三方数据提供商扩展他们的现有数据集,但我发现数据扩展有时会被忽略。人们认为获取外部数据、标准化和使用这些数据进行实验没有开发模型和算法那么有吸引力。许多用例的目标是从原型到产品,使数据科学项目产品化。为使这一过程更加高效,最近出现了一个新的工作角色——机器学习工程师。还有一套新工具可以促进从原型到产品的转变,帮助跟踪和分析与产品相关的背景和元数据。机器学习在产品中的应用还处于早期阶段,最佳实践才刚刚开始。随着先进分析模型的普及,有几点需要考虑,包括:部署环境:您可能需要与现有的日志或A/B测试基础设施集成。除了在服务器上部署稳定、高性能的模型外,部署环境还包括如何以及何将模型部署到边缘(移动设备是一个常见的例子)。在边缘设备上部署模型的新工具和策略已经出现。大小,延迟,新鲜度:训练模型需要多少数据?模型推导的响应时间应该是多少?重新训练模型和更新数据集的频率是多少?后者表明你有可重复的数据管道。偏差:如果你的训练数据不具有代表性,你会得到不理想(甚至不公平)的结果。在某些情况下,您可以使用倾向得分或其他方法来相应地调整数据集。监控模型:我认为人们低估了监控模型的重要性。学过统计学的人在这方面具有竞争优势。可能很难知道模型何时退化,退化了多少。概念漂移可能是一个因素。就分类器而言,一种策略是将模型预测的类别分布与预测类别的观测分布进行比较。您还可以设定不同于机器学习模型评估指标的商业目标。例如,推荐系统的任务可能是帮助发现“隐藏或长尾”的内容。关键应用程序:在关键环境下部署的模型必须比普通消费者应用程序更稳定。此外,这种环境下的机器学习应用程序必须能够“连续”运行几个月(无内存泄漏等故障)。隐私和安全:一般来说,如果你能让用户和企业相信他们的数据是安全的,他们可能更愿意共享数据。如上所述,以额外特征扩展的数据往往会带来更好的结果。对于在欧盟经商的企业来说,一个迫在眉睫的问题是《一般数据保护条例》(GDPR)将于2018年5月生效。对抗性机器学习和安全性机器学习(包括能够处理加密数据)的实践研究开始出现在其他领域。模型开发媒体对模型和算法开发的报道越来越多,但如果你与数据科学家交谈,他们中的大多数人会告诉你,缺乏培训数据和数据科学的产品化是一个更紧迫的问题。一般来说,市场上有足够简单明了的用例来开发你喜欢的算法(基本或先进),并在未来进行调整或替换。由于工具使算法的应用更容易,因此有必要回顾如何评估机器学习模型的结果。尽管如此,不要忽视你的业务指标和目标,因为它们可能与调试最好或性能最好的模型不完全一致。研究人员和企业正在开始检查和解决与公平透明相关的问题。对隐私的担忧,加上设备的激增,催生了不依赖集中数据集的技术。深度学习正逐渐成为数据科学家必须理解的算法。深度学习最初用于计算机视觉和语音识别,但现在它涉及到数据科学家可以想到的各种数据类型和问题。挑战包括选择适当的网络结构(结构工程是一个新的特征工程)、过度参数调整、描述问题和转换数据,以适应深度学习。巧合的是,我今年见过的最有趣的大型数据产品之一不是基于深度学习。)很多时候,用户更喜欢可解释的模型(黑盒模型在某些情况下是不被接受的)。考虑到基本机制易于理解,可解释的模型也更容易改进。随着深度学习的兴起,企业开始使用能够解释模型预测原理的工具和能够解释模型来自哪里的工具(跟踪学习算法和培训数据)。我不想列出一个工具清单,因为有太多的工具可以列出。帮助我们摄取、整合、处理、准备和存储数据以及部署模型的工具是非常重要的。Python和R是机器学习编程最流行的语言。对于那些想要使用深度学习技术的人来说,Keras是最受欢迎的入门级语言。虽然笔记本电脑似乎是一个很好的模型开发工具,但集成开发环境(IDE)在R用户中很受欢迎。有许多通用机器学习和深度学习的数据库,其中一些更擅长促进从原型到产品的转变。促进从单机到集群的扩张是一个重要的考虑因素。ApacheSpark在这方面应用广泛。经过一系列的数据整理,您的数据集通常适合在稳定的单个服务器上部署。供应商开始支持合作和版本控制。最后,您可能需要数据科学工具来无缝整合现有的生态系统和数据平台。如果企业想评估哪些问题,哪些用例适合使用机器学习,现在是一个很好的时机。我总结了一些最近的趋势和尚未解决的瓶颈。你的主要结论应该是:你现在可以用机器学习了。从已经有一部分数据的问题开始,然后建立一个优秀的模型。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

想要自己搭建网站,网站发布流程是什么?

随着现代网络技术的不断进步和持续发展,人们已经告别了书信传递信息的时代。现在人们需要知道什么样的头条和信息,只需要通过计算机网络,就可以实现通信、娱乐、看新闻、交友等。网络使我们之间的距离越来越近,互联网上的网站千千万万,自己轻而易举,下面…查看详情

html5网页如何制作

h5网页制作软件?maka编辑器手机版是一款强大的模板设计软件,让你可以通过这款应用快速打造出自己喜欢HTML5项目,方便你随时随地创作管理,一键生成,媲美专业设计师,让你的营销更有个性,MAKA,做出好设计。是兼顾H5、海报、视频、邀请函…查看详情

简易公司注销怎么办理手续

  公司简易注销和普通注销的区别?  1、适用企业不同  简易注销主要适用于公司注册后未开展经营活动,且无债权债务的有限责任公司、个人独资企业、非公司企业法人、合伙企业和个体工商户这五类企业。普通注销则适用于其他已经开展经营或有债权债务等其…查看详情

2022最建议买的手机 2022年手机像素排名

大家在选购手机的时候,会根据自己的需求去选择,有的人想要购买一款拍照清晰的手机,那么我们就需要根据像素这方面做选择,大家可以先了解一下像素好的手机排行榜有什么? 1、一加11Pro 是一加和哈苏携手共建的第2代手机影像体系哈…查看详情

flash插件是什么意思

flash插件是啥意思?Flash插件是指安装于浏览器的Flash插件,使浏览器得以播放swf文件。 AdobeFlash原称MacromediaFlash,简称Flash。 AdobeFlash是美国Macromedia公司已被Ado…查看详情

自己有项目怎么找投资人

  寻找投资人可能是项目创始人最为头痛的事情之一,因此也需要我们花费较多的时间和精力去思考和实践。以下是一些可能有用的建议和步骤,帮助创业者更好地找到投资人以及提高获得投资机会的成功率。  1、确定融资需求  在寻找投资人之前,我们需要首先…查看详情

选择性价比合适的电脑,可以查看以下的家用电脑排行榜

不管是我们平时的生活还是学习当中,都是必须要用到电脑的,因为电脑可以帮助我们很好的处理工作事项和学习内容,如果是想要选择一款性价比高的电的话,可以查看以下的家用电脑排行榜。 1、戴尔 戴尔品牌电脑很早就开始创立了一个崭新的…查看详情

盘点搜狗输入法有什么特点 搜狗输入法介绍

随着社会的发展,科技的进步,为了更好的提高生活质量,各种各样的输入法层出不穷,但是搜狗输入法却在重重输入法中杀出重围,它有哪些过人之处呢?下面我给大家介绍一下搜狗输入法。 1.搜狗输入法简介 搜狗输入法是一款由北京的搜狗信…查看详情

公司如何做网络推广?这几点很重要!

随着科技进步和互联网的发展,网络推广已成为企业推广销售的一个重大途径。借助网络推广,可以快速打造品牌影响力和建立口碑。并且在投入上相对传统推广要少,效果比较显著是目前很多企业和网店都在用的推广方法。下面小编给大家整理一些相关内容。 首先来说…查看详情

如何网络运营?不谈技巧、不谈方法,谈如何打好运营基础

企业做广告宣传的时候,往往会纠结到底要不要选择互联网,其实这种纠结早就应该舍弃。因为不管什么行业,都应该利用互联网做网络营销。成立专门的网络营销运营团队,负责网络营销工作,这是未来企业营销的趋势,也是最为有效的方法之一。下面就由小万为你介绍…查看详情

商标注册授权 | 三种许可授权方式,使用权限不同

商标注册授权,是商标注册人通过法定程序允许他人使用其注册商标。简单来说,其实就是经注册人同意后借用。而商标注册授权,也有三种不同的许可授权方式,它可使用的权限也有不同。 图片来源于网络 ■ 商标注册授权,三种不同的许可授权:1. 普通使用…查看详情

【广告语能申请知识产权】灵活运用三项法律实施多面防护

广告语在市场营销中有着重要的宣传作用,好的广告语甚至能够凭借简洁明了、新颖易懂特点帮助产品快速占领市场,成为企业品牌的标识。目前,广告语能申请知识产权的范围是著作权和商标权,并且可以适当运用《著作权法》、《商标法》和《反不正当竞争法》对具有…查看详情

windows10过期如何永久激活

  Windows10是微软公司推出的操作系统,它的功能强大、稳定性好且易于使用,因此得到了广泛的应用。不过,Windows 10系统有一个问题,就是它有时间限制,如果时间到了,系统就会过期,无法继续使用。这对很多用户来说是一个很麻烦的问…查看详情

作品著作权登记平台越来越多,哪些值得信任?

国家版权局主管版权登记,中国版权保护中心官网是提供版权服务的作品著作权登记平台,中心属于版权局的直属机构,服务内容保罗国内外著作权登记、数字版权服务、版权鉴定、版权咨询、作品保管、版权法律服务等。图片来源于网络● 作品著作权登记平台1、国家…查看详情

黄仁勋:9岁闯荡美国,现被称为“硅谷最好斗的男人”

在硅谷,他被称为最好斗的男人。在牛人遍地的硅谷,黄仁勋是唯一一个被誉为,可以比肩亚马逊的贝佐斯和特斯拉的马斯克的华人。这位1963年出生的科技大佬,不爱格子衫,也不爱白衬衣黑西裤,一件标志性的皮衣像极了中年摇滚歌手。尽管黄仁勋一向着装另类、…查看详情

最新文章