数据挖掘或机器学习最重要的是什么?
2021-01-06 13:43:33 阅读(158) 评论(0)
我是数据挖掘和机器学习的新手。我从去年7月开始接触Amazon,我以前从未接触过,因为我的工作需要被动接触。我所做的是预测与机器学习相关的需求。后来到了淘宝,主动做了几个月的用户地址相关数据挖掘工作,有了一些浅薄的经验。下面的文章主要是我作为一个新人不到10个月的数据技术经验,可能对你有用,也可能很愚蠢,无论如何,欢迎指导和讨论。另外,注意这篇文章的标题模仿了一部美剧《权力的游戏:冰与火之歌》。在数据的世界里,我们看到了许多强大而有趣的案例。然而,数据就像一个王座,就像征服一种权力和征服,但在路上却同样令人震惊。当Amazon从事机器学习时,我注意到Amazon玩数据的三个角色。DataAnalyzer:数据分析师。这类人主要分析数据,从数据中找到一些规则,为数据模型找到不同场景的TrainingData。此外,这些人也是清洗一些脏数据的人。ResearchScientist:研究科学家。该角色主要根据不同的需要建立数据模型。就像《生命大爆炸》中的Sheldon一样,他们把自己戏称为不接近人间烟火的奇异物种。这些人基本上玩的是数据上的科学Softwaredeveloper:软件开发工程师。主要是实现Scientist建立的数据模型,交给Dataanalyzer玩。这些人通常更了解各种机器学习算法。我相信这三种工作是其他公司从事数据挖掘或机器学习的,或者这三种人。对我来说,最具技术性的是scientist,因为这些人决定了数据建模和提取最有意义的向量,以及选择不同的方法。我觉得这种人在国内是找不到的。最苦最累,但最重要的是Datanalyzer,他们的工作也是这三个角色中最重要的(注:我用了三个最重要的)。因为,不管你的模型和算法有多好,你只能在一堆烂数据上做一堆垃圾。正所谓:GarbageIn,GarbageOut!但这是最脏最累的工作,也是最容易退缩的工作。SoftwareDeveloper是技术含量最低的。现在国内很多玩数据的人都认为算法是最重要的,很多技术人员都在研究机器学习算法。错了,最重要的是上面两个人,一个是Datanalyzer洗数据,另一个是真正懂数据建模的Scientist!而像什么k-means,KNearestNeighbor,或者贝叶斯、回归、决策树、随机森林等其他游戏都非常成熟,而不是人工智能。说白了,这些算法在机器学习和数据挖掘中基本没有技术含量,比如QuickSort。目前流行的BuzzWord-大数据质量是相当误导性的。在我眼里,数据不分大小,只分好坏。在处理数据的过程中,我首先感受到的是数据质量。下面我分几个案例来说明:案例一:数据标准在Amazon,所有商品都有唯一的ID,叫ASIN——AmazonSingleIdentifyNumber,该ID用于识别商品的独特性(来自条形码)。也就是说,无论你把商品描述成什么,只要ASIN是一样的,这就是完全一样的商品。这样,就不像淘宝了。当你搜索iPhone时,你会有一堆各种各样的iPhone,有的叫“超值iPhone”,有的叫“苹果iPhone”,有的叫“智能手机iPhone”,有的叫“iPhone白/黑”...这些同一产品的不同描述是商家为了吸引用户。但有两个问题:1)用户体验差。对于消费者来说,以商品为中心的商业模式明显优于以商家为中心的商业模式。2)只要你不能正确阅读(识别)数据,你背后的算法和模型都是无用的。所以,只要你玩数据,你就会发现如果没有建立数据标准,什么都没用。数据标准是数据质量的第一关。没有这个东西,你什么都不玩。所谓的数据标准,唯一的数据识别只是最基本的一步,数据标准只是这样,更重要的是,数据标准抽象成数学向量,没有数学向量,以后不能挖掘。因此,您可以看到,洗涤数据的大量工作是合并和聚合混乱的数据,即建立数据标准。人肉的工作是绝对不可或缺的。无非是:聪明人在数据生成前定义标准,并在数据生成时进行数据清理。一般人只有在数据产生并大量积累之后才会这样做。此外,让我们谈谈Amazon的ASIN。这件事从十多年前开始。我在Amazon内部网站上看到的信息并没有说为什么我有这样一个ID。我认为这不是因为Amazon需要推荐一个商品ID,因为玩数据,也许是因为Amazon的商业模式被设计成“商品为中心”。如今,ASIN仍然存在许多问题。ASIN不能完全保证商品是一样的。不同的ASIN并不意味着商品是不同的,但超过90%的商品是有保证的。Amazon有专门的团队CategoryTeam,每天都有很多业务人员拼命纠正ASIN的数据。案例二:数据的准确用户地址是我从事过数据分析的另一件事。我还记得看到数亿用户地址数据的兴奋。但后来我就不能兴奋了。因为地址是用户自己填写的,里面有很多坑,不容易做。第一个是假/错地址,因为有些商家作弊或者用户测试。所以地址是错误的,比如直接输入“地址不存在”、“13243234asdfasdi”等等。我的程序可以识别出这样的地址。我的程序也能识别出来。例如:“宇宙路地球社区”等等。但是这种地址是可以识别的。甚至连人都认不出来,比如“北京市东四环路23号南航大厦5楼540室”,这个地址根本不存在。二是真实地址,但由于用户写作不规范,很难处理,如:缩写:“建国门外街”、“建国门外街”、“中国工商银行”、“工行”。。。错别字:“潮阳门”、“通惠河”。。。逆转:“东四环中路朝阳公园”和“朝阳公园(东四环)”。。。别名:有些人写开发商的社区名称“东恒国际”,有的写行政地名“八里庄东里”...这样的例子太多了。如果数据不准确,会增加你处理的难度。可见,如果数据不准确,会增加你处理的难度。有个比喻很好。玩数据就像挖金矿。如果含金量高,挖掘难度小,容易产生效果。如果含金量低,挖掘难度大,效果差。以上,我给出了两个案例,旨在解释-1)数据没有大小,只有含金量大的数据和垃圾量大的数据。2)数据清洗是一项多么重要的工作,也是一项人肉工作量很大的工作。因此,最好在数据生成时一点一点地完成这项工作。有一种观点:如果数据的准确性是60%,你所做的事情肯定会被用户骂!假如数据准确度在80%左右,那么用户会说,还不错!只有当数据准确度达到90%时,用户才会感觉到真正的牛B。但从80%到90%的数据准确性要比60%到80%的成本要大得多。大部分数据挖掘团队都会在70%的地方停下来。因为,以后,这是一项相当累的工作。我不知道有多少数据挖掘团队真正意识到业务场景和数据挖掘之间的重要关系?我们需要知道,数据挖掘和分析模型是不可能满足所有业务的。推荐音乐视频与电子商务中推荐商品的场景完全不同。在电子商务中,只要你买东西不退货,那么,我可以相信你喜欢它,然后,对于音乐和视频,你不能通过用户听歌曲或看视频武断地认为用户喜欢歌曲和视频,所以,我们可以看到不同业务场景下推荐算法的难度完全不同。说到推荐算法,你是不是和我一样,有时候对推荐有一种感觉——推荐是按不同维度排序的算法。就我个人而言,我认为在某些商业场景下,推荐有两种(不是根据用户关系和项目关系),一种是普遍推荐,结果是推荐流行的东西,这可能很好,但这可能是用户已知的,例如,在北京,我想找一家餐馆,你总是推荐烤鸭,我想去一个地方,你总是向我推荐天安门故宫的天坛(因为大多数人来北京吃烤鸭或去天安门广场)。我不知道所有这些。你想推荐吗?此外,水军通常可以刷普通的东西。此外,常见的东西通常可以被水军刷掉。另一种是个性化推荐,需要分析用户的个人喜好。好的总是给我我喜欢的。坏的是,也许我的口味会随着我的年龄和环境而变化。此外,我总是推荐符合用户口味的,这不能帮助用户探索新的点。例如,我喜欢辛辣的食物。你总是向我推荐川菜和湘菜。过了很长一段时间,我会感到无聊。有时候推荐不是民主投票,而是专业用户或者资深玩家的建议;有时候推荐不是流行的,而是新鲜的,我不知道。你可以看到,不同的商业场景和不同的产品形式可能会有完全不同的游戏玩法。此外,即使对于同一个电子商务,书籍、手机和服装的商业形式也完全不同。我之前在Amazon做过DemandForecasting(用户需求预测)——通过历史数据预测用户未来的需求。对于书籍、手机、家用电器等产品,你可以认为它们是“标准产品”(但不一定),预测更准确,甚至可以预测相关产品属性的需求。然而,Amazon已经工作了十多年,无法很好地预测服装等叫做Softline的产品,因为这些东西受到太多的干扰因素,比如用户对颜色和风格的偏好,是否合适,爱人和朋友是否喜欢。。。这种东西太容易改变了。如果你买得太多,你就卖不好,所以你根本无法预测,更不用说Stock/VenderManager提出的“预测某个品牌某种颜色的衣服或鞋子”了。对于需求的预测,我发现长期在这个行业努力工作的人的预测是最准确的,任何机器学习都是浮云。对于需求的预测,我发现长期在这个行业努力工作的人的预测是最准确的,任何机器学习都是浮云。机器学习只有在你必须面对成千上万种不同的商品和类别时才有意义。数据挖掘不是人工智能,而是太远了。不要认为数据挖掘可以做任何事情。找到合适的业务场景和产品形式比什么都重要。数据分析结果我看到很多玩大数据的人,基本上做数据统计,从多个不同维度统计数据的表现。最简单最常见的统计就是网站统计。比如:PV是多少,UV是多少,来源在哪里,浏览器,操作系统,地理,搜索引擎分布等等。唠叨,不要以为你一天有十几个T的日志就是数据,也不要以为你会用Hadop/Mapreduce分析日志。这就是数据挖掘。说得好听点,你在做的只是一份统计工作。那些T的RawData基本没有意义,只能叫日志,连数据都不算。只有你统计的数据才有意义,才能叫数据。当用户面对自己网店的数据时,比如每千人下单5人,65%的访客是男的,30%的18-24岁的访客等等。你甚至给出了这样的数据,你打败了同类型商家的40%。身为商人,面对这些数据,大多数人的表现都是完全不知道自己能做什么?是把网站改成更男性化,还是让年轻人更喜欢?我完全不知道该怎么办。只要你看一看,你会发现很多数据分析的结果看起来不错,但你不知道下一步该怎么办?所以,在我看来,数据分析的结果不仅仅是呈现数据,更重要的是,这些数据背后能做什么?如果你不知道看了数据分析的结果后能做什么,那么数据分析就失败了。综上所述,以下是我认为数据挖掘或机器学习最重要的事情:1)数据质量。分为数据标准和数据准确性。尽量消除数据中的杂音。为了数据的质量,大量的人肉工作是必不可少的。2)数据的业务场景。在所有的场景下,我们都做不到,所以,商业场景和产品形式都很重要,我个人觉得商业场景越窄越好。3)数据分析结果,让人们能够理解,知道下一步该做什么,而不是数据。有很多人从事数据挖掘,但成功的案例并不多(与大量的尝试相比)。目前,我似乎认为当前的数据挖掘技术是一种过渡技术,仍处于探索阶段。此外,许多数据挖掘团队使业务不是业务,技术不是技术,对技术人员感到遗憾。对不起,我只给了一个问题,没有建议,这也表明数据分析有很多机会。最后,我想提到的是“数据中的个人”
推荐阅读
- 青岛财务软件哪家好?这4款精品轻松解决账务烦恼
由于工作的压力和强度,财务管理板块可以说是企业中最复杂和混乱的一块,也是非常难攻破的磐石,财务软件也是企业内部会计必不可少的工具,青岛财务软件哪家好?以下这4款精品软件轻松解决账务烦恼。 1. 用友青岛财务软件 “T+”是一款灵动、智慧…查看详情
- 1tb是多少g内存
1tb等于多少个g?1tb理论上是1024gb 我们买到的标注1tb硬盘或者标注1tb容量的存储设备的实际容量约为931G。 一、存储器中所包含存储单元的数量称为存储容量,其计量基本单位是字节,单位是Byte,简称B,8个二进制…查看详情
- 2021六大客户档案管理系统排行榜单推荐
客户档案管理系统才能出不起,评判一个系统好坏的标准也不一样,有些系统看似操作简单,实际功能扩展性不行,有些软件复杂,但胜在扩展性能好,如果你想为企业挑选一个适合的系统,那么这份2021六大客户档案管理系统排行榜单可收藏。 1. eccrm客…查看详情
- 团队管理软件是什么?团队管理软件核心功能介绍
在现在的市场经济的大环境下,越来越多的人士逐渐认识到用计算机技术进行各类管理,交流的便捷,其中最突出的要算企事业单位的人事工资管理了,为了提高人事工资管理效率,减轻劳动强度,提高信息处理速度和准确性,对团队管理软件是什么?团队管理软件核心功…查看详情
- 多人视频聊天哪个好 什么软件支持多人视频聊天
现在多人视频通话是很多社交软件的主流,下面万商云集小编给大家来盘点下多人视频聊天软甲这方面的内容。希望大家能喜欢。 TikTok抖音国际版 基本信息:TikTok app可以说是抖音短视频国际版,TikTok抖音海外版为海外用户提供…查看详情
- 好用的杀毒软件有哪些 杀毒软件排行榜
现在整个网络环境是非常的糟糕的,很多病毒都入侵别人的电脑,下面万商云集小编给大家来详细介绍一下好用的杀毒软件有哪些 杀毒软件排行榜这一块的内容,今天给大家分享5个杀毒神器,让你的电脑干干净净,建议收藏起来哟! 杀毒软件排行榜 1…查看详情
- 功能全的服装收银系统有哪些?服装门店收银全靠它
对于服装店面经营者来说,店面收银系统却不仅仅是每天卖了多少件衣服,收银系统还需要与会员机制、进货与库存总量、销售额与净盈利核算等内容紧密衔接。那么满足以上需求的功能全的服装收银系统有哪些呢?今天介绍几个好评不断的服装门店收银系统…查看详情
- 任务管理器快捷键是什么
任务管理器是在Windows操作系统中管理计算机中正在运行的进程,服务和应用程序的一种工具。使用任务管理器可以结束不响应的应用程序,检查系统资源使用情况,以及诊断其他计算机的问题。在Windows中,有几种任务管理器可供选择:传统任务管…查看详情
- 好看到爆炸的安卓壁纸软件,用完不后悔
不知道有没有人和小编我一样,换一个手机壁纸,就感觉好像换了一台新手机?如果你也有和我一样的感觉,千万不要错过我这次的文章,这次的文章,小编将给大家推荐几款好看到爆炸的安卓壁纸软件,下面就由我来带大家介绍。 1.4KWallp…查看详情
- windows自动关机怎么设置
Windows自动关机怎么设置? 在Windows系统中,我们可以通过“任务计划程序”来设置自动关机,具体操作如下: 1.打开计算机的“控制面板”,然后点击“管理工具”中的“任务计划程序”进入任务计划程序窗口。 2.在任务计划程序…查看详情
- charger是什么充电器
CHARGER是什么牌子的充电器电瓶车的?charger是SHOI品牌充电器,名字叫概率充电器。 著名的电子产品品牌SHOI刚刚发布了引领世界潮流的下一代电子产品——概率充电器(charger)。 SHOI概率充电器由n-1条导…查看详情
- 国美商城网上店铺怎么开?
在家开网店的详细步骤?开网店的详细步骤包括: 1.选择并注册一个品牌名称。 2.选择要销售的产品类别。 3.准备好产品图片、价格信息和购买须知。 4.搭建一个完整的电子商务网站或者使用市场上的电子商务解决方案。 5.选择支付方式,…查看详情
- 服务器硬件防火墙是什么?
优质答案(1) 不一样,首先要看自己的财力,安装高级别防火墙,需要大资金,一般的容易被攻开,每道防火墙都有自己的定律,没有千篇一样的 优质答案(2) 防火墙是不一样的,不通用。防火墙可以采取多种形式,从专用设备,到运行在通用服务器…查看详情
- 适合女人9个小生意
1、美容美发 美容美发行业一直是女性创业者的重点,小到开个小小的美发店,大到开一条整合了美容美发、SPA等多种服务的综合美容店都是很受追捧的。 2、网络销售 利用互联网开设网店,销售当地特产或一些女性用品比较适合女人创业。 3、…查看详情
- 从crm系统排名看,哪家是最优选择
在现今产品已无太大差异的市场中,企业都已经在靠着谁的服务更好来提升企业核心竞争力,crm系统的出现便正好满足了企业的需求。今天小万就来聊聊市场中都有哪些crm系统品牌,crm系统排名不分先后。图片来自网络crm系统排名顺序随机,没有哪个更好…查看详情
猜你喜欢
最新文章
扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121
关注微信公众号
和10万中小企业共同成长
扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有 蜀ICP备12001963号-2 川公网安备 51010402000322号
快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
免费查找信息保护中请放心填写-
-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP
企业首选的数字选用平台