分析美团点评是如何通过机器学习,来获得有价值的数据推荐。
2020-12-30 14:02:55 阅读(146) 评论(0)
在美团商家数据中心(MDC),POI数据已经校准和审核超过100w(我们通常将业务标记为POI,POI基本信息包括:商店名称、类别、电话、地址、坐标等)。如何使用这些校准的POI数据来挖掘有价值的信息,本文进行了一些尝试:使用机器学习方法自动标记缺失类别的POI数据。例如,商店名称为“好牛肉拉面店”的POI将自动标记“零食”类别。机器学习解决问题的一般过程:本文将按:1)特征表示;2)特征选择;3)基于NaiveBayes分类模型;4)分类预测,四部分顺序。特征表明,我们需要首先将实际问题转换为计算机可识别的形式。对于POI来说,反映POI类别的一个重要特征是POI商店名称,因此问题转换为根据POI商店名称来判断POI类别。POI字段属于文本特征,传统的文本表示方法是基于向量空间模型(VSM模型)[1]:空间向量模型需要一个样本或外部导入的“字典”。上图中的字典是[好,酒店,海底,拉面,冰雪,.......,博物馆]。对于已校准的POI,我们首先使用Lucene的中文分词工具SmartCn[2]对POI名称进行预分词处理,并提取特征词作为原始粗糙字典集合。有了字典,你可以定量地表示一个文本。首先定义与字典长度相同的向量,向量中的每个位置对应字典中相应位置的单词。然后通过文本,在向量中的相应位置填写“一定值”(即特征词的权重,包括BOOL权重、词频权重、TFIDF权重)。考虑到一般的POI名称属于短文本,本文使用BOOL权重。在产生粗糙的字典集合时,我们还统计了校准POI中的每个类别(type_id),以及特征词(term)在品类(type_id)出现次数(文档频率)。分别写入表category_frequency和term_category_frequency,表的部分结果如下:category_frequency表:term_category_frequency表:分别记: A(i,j)=特征词term(i)类别为type_id(j)count出现的次数 T(j)=类别为type_id(j)样本集出现的次数 N=校准POI数据集的数量将在后续计算中发挥作用。现在,我们得到了一个“预输入字典”:包括校准POI名称字段的所有特征词,如“88”、“11”,“3”、“auyi”、“中心”、“中国”、“酒店”、“自助餐”、“拉面”等。直觉,“88”、“11”,“3”、“auyi”、“中国”这个词对判断类别没有多大帮助,但“酒店”、“自助餐”、“拉面”在判断POI类别方面可能起着非常重要的作用。那么问题是,如何选择有利于模型预测的特征呢?这涉及到特征选择。特征选择方法可分为基于领域知识的规则方法和基于统计学习方法。本文采用统计机器学习方法和辅助规则方法的特征选择算法,选择有利于判断POI类别的特征词。基于统计学习的特征选择算法一般可分为两种:1。基于相关性测量(信息理论相关性)2。基于信息增益方法的特征空间表示(典型的PCA)(IG)特征选择方法[3]。特征信息增益是指在已知特征条件下,整个系统信息量的前后变化。如果前后信息量变化越大,特征的作用就越大。那么,如何定义信息量呢?一般来说,熵的概念用于衡量系统的信息量:当我们已知该特征时,从数学的角度来看,我们已知该特征的分布。系统的信息量可以用条件熵来描述:该特征的信息增益定义为:信息增益得分衡量该特征的重要性。假设我们有四个样本,样本的特征词包括“火锅”、“米粉”、“博物馆”,我们利用信息增益来判断不同特征对决策的影响:整个系统的最原始信息熵为:分别计算每个特征的条件熵:利用整个系统的信息熵减去条件熵,获得每个特征的信息增益分数排名(“火锅”(1)>“米粉”(0.31)>“博物馆”(0))根据得分由高到低选择所需的特征词。本文采用IG特征选择方法,选择排名靠前的N个特征词(前30%)。我们选择了前20个特征词:[酒店、酒店、火锅、摄影、眼镜、美容、咖啡,ktv,造型、汽车、餐厅、蛋糕、儿童、美发、商务、旅行社、婚纱、俱乐部、工作室、烧烤]。这些特征词显然与类别属性有很强的相关性,我们称之为类别词。基于领域知识的特征选择方法基于规则的特征选择算法,利用领域知识选择特征。目前,基于规则的特征选择算法很少单独使用,通常结合统计学习的特征选择算法,辅助选择特征。本文需要解决POI名称字段短文本的自动分类问题。POI名称字段一般符合此规则,POI名称=名称核心词 类别词。名称核心词对实际类别预测影响不大,有时“过度学习”起到负面作用。例如,“好利来牛肉拉面店”和“好利来”是它的名称核心词。在使用学习算法时,很可能会学习“蛋糕”类别(“好利来”和“蛋糕”类别之间有很强的相关性,并得出错误的预测结论)。本文利用该规则在选择特征时制定了提示:利用特征选择获得的特征词(大部分是类别词),将POI名称的字段分割成单词,丢弃前一部分(主要是名称核心单词),并保留剩余部分。从目前的评估结果来看,大约5%的精度会提高,缺点是算法覆盖率会降低#分类模型##建模完成特征表示和特征选择后,下一步是培训分类模型。机器学习分类模型可分为两类:1)生成模型;2)识别模型。可以简单地认为,两者之间的区别生成模型直接建模样本的联合概率分布:生成模型的困难在于如何估计类概率密度分布p(x |y)。本文采用了简单的贝叶斯模型"Naive"在简化对类概率密度函数时,假设条件是独立的:根据对p(x|y)不同的建模形式,NaiveBayes模型主要分为:Muti-variateBernoulliModel(多项伯努利模型)和Multinomialeventmodel(多项事件模型)[4]。伯努利事件相当于硬币事件(0,12种可能性),多个事件相当于颜色(1到6种可能性)。伯努利事件相当于硬币事件(0,12种可能性),多个事件相当于颜色(1到6种可能性)。我们结合传统的文本分类来解释这两种模型:在多个伯努利模型已知类别的情况下,多个伯努利对应于样本生X的过程:字典中的每个单词(t1和t2...判断这个词是否出现在样本中。每次遍历都是伯努利实验,|V|次遍历:其中1(condition)作为条件函数,该函数表示当条件成立时等于1,不成立时等于0;|V|代表字典的长度。在多个事件模型已知类别的情况下,多个事件模型假设样本的生成过程:从字典中选择文本中第k位置的单词,每个位置k生成的单词对应于多个事件。样本X=(w1,w2...ws)类概率密度:当样本用向量空间模型表示时,上部转换为:N(ti,X)在样本X中表示特征词i的次数。##经过大量无聊公式的折磨,我们终于看到了胜利的曙光:模型参数的估计。一般的方法包括最大的似然估计、最大的后验概率估计等。本文采用多个伯努利模型,我们直接给出了多个伯努利模型参数的估计结论:记住特征表示一节中统计的term_category_frequency和category_frequency两张表?这时,就要发挥它的作用了!我们只需要查询这两张表,就可以完成参数的估计。很开心吗?虽然过程有点曲折,但结果是美丽的~具体参数的意义可以参考特征来表示一个部分。下一个coding可能需要注意的两点:计算类概率密度p(X|Cj)如果类Cj下没有特征ti,p(ti|Cj)=0.类概率密度的连续乘以也将等于0。数量,如果在某种情况下没有出现样本的特征,则认为其产生的可能性等于零。这个结论太武断了,解决办法是加1平滑:其中,|C|表示样本的类别数据。在计算类概率密度时,小数溢出具有超过计算机可以表示的最小数的可能性。为了避免小数溢出的问题,类概率密度的计算通常被转换为对数累和的形式。另外,如果计算p(ti|Cj)时间太小,取对数后会得到负无限值,需要对p(ti|Cj)截断处理:当小于某个阈值(如1E-6)时,用该阈值代替。另外,如果计算p(ti|Cj)时间太小,取对数后会得到负无限值,需要对p(ti|Cj)截断处理:当小于一个阈值(如1E-6)时,用该阈值代替。算法预测本节将结合前三节给出算法的具体计算预测过程。为了简化这个问题,我们假设字典是:[拉面,七天,牛肉,博物馆],只有火锅和快餐,两种样品的数量都是8个。以“好利来牛肉拉面馆”为例:对测试样本进行中文分词,判断“牛肉”属于类别词,丢弃类别词“牛肉”前部,提取样本特征词集:[牛肉拉面店]根据字典建立向量空间模型:x=使用NaiveBayes模型分类预测[1,0,1,1]我们给火锅和快餐两种样本的term_category_frequency统计:样本属于快餐的概率是火锅的概率的4倍,预测样本属于快餐的可信度明显高于火锅的概率。该算法随机抽取2000个未校准的POI数据进行评估,该算法有两个评估指标:覆盖率和准确性。算法随机抽取2000个未校准的POI数据进行评估。算法有两个评估指标:覆盖率和准确性。覆盖率是指算法中可预测样本数量在整个测试样本集中的比例。由于采用特征选择后,一些POI名称无法预测,因为它们不包含特征词集,算法评估的覆盖率为84%。算法的准确性是指在整个测试样本集中预测正确样本的比例,算法评估的准确性为91%。#总结机器学习解决问题最关键的一步是找出问题:这个问题能用机器学习算法解决吗?还有其他更简单的方法吗?简单如字符串匹配,使用正则可以简单解决,只是机器学习方法非常麻烦,收益大于损失。如果能学习机器算法,如何表达这个机器学习问题,如何提取特征?也有可能对机器模式(分类、聚类、回归)进行分类)找出问题后,先尝试一些开源机器学习工具,验证算法的有效性。如有必要,自己实现一些机器算法,也可以借鉴一些开源机器学习算法。
推荐阅读
- 淘宝开鞋店的流程是什么?
优质答案(1) 操作如下 1.公司名义入驻:就是安装师傅自己当老板,根据淘宝平台的要求填写资料,以及提交公司的资质、材料等等 2.网点授权入驻:安装师傅和产品售后网点合作,授权也好、承包也好,提交资质、材料、费用等即可 3.打工…查看详情
- 2022免费自助建站空间有哪些?
对于初学者来说,想要搭建一个网站的话并不容易,不过也不用担心,因为现在有很多免费的自助建站空间,可以帮助到大家不仅在使用的时候,完全不用投入金钱,创建平台也是比较简单的,那么免费自助建站空间有哪些呢?一起来了解吧。1、OpenShift这个…查看详情
- 3款合同管理系统免费app整理
众所周知,当前计算机已经广泛的应用于各个领域,作为与世界交流广泛、信息密集、事务繁多的企业必须有效、科学的管理公司业务,经过筛选,本文盘点了3款合同系统免费的app,大家可按需收藏。 1.TurboCIS合同信息系统免费app TurboC…查看详情
- 网络订货系统:3大功能、4大好处,尽早使用
在网络发展如此迅速的现在,很多事物都离不开网络了,现实和网络相结合使我们的生活中增添了非常多的便利,在买卖东西、采购等方面,再常见不过了,网络订货系统已经用于非常多的行业领域,下面就和大家介绍下网络订货系统的好处吧。图片来源于网络 网络订货…查看详情
- 易特仓库管理软件免费版之类的软件到底有哪些?
仓库管理的工序和水平随着互联网发展的不断加快而加快,大数据和云储存的应用让仓库数据可以被智能保存。使用易特仓库管理软件免费版能够提高对仓库的管理水平。无论是从管理人员雇佣还是消耗时间上都有了很大的提升,还能让仓库数据整理更加便捷清晰。那么好…查看详情
- 免费仓库管理系统软件大盘点!
这个时代是互联网的时代,在一些库存的应用场景里,如果还采用以往的人工库存的方式,那会使工作流程会变得非常麻烦,这时管理仓库如果再用以前的方式就会事倍功半,这里给大家盘点几款免费仓库管理系统软件! 1.里诺仓库管理软件 这是一款通用性极强的仓…查看详情
- wmiprvse.exe是什么程序
wmiprvse占用过高解决方法?按Ctrl+Shift+Esc键,调出Windows任务管理器,点击进程标签,找到WmiPrvSE.exe这个进程,鼠标点击右键,选择“设置相关性(A)”--->处理器相关性中:允许哪些处理器运行“WmiP…查看详情
- ip地址怎么改 ip地址修改方法
很多朋友使用电脑时,会遇到提示“IP地址错误,网络无法接通”的提示,如果从网络上找教程,很多教程都是教大家如何通过路由器查询正确的IP地址,然后重新填写,或者将电脑的IP地址获取方式设置成“DHCP”,虽然这种方法的确管用,但操作步骤比…查看详情
- 前端工程师需要掌握哪些知识
前端工程师需要学会英语吗?答案为需要。 因为前端工程师也需要看文档查资料并且查看的一手资料都是外文的,查看二手资料都是经过他人翻译过来的,对原文的理解并不是很透彻,所以最好还是学会英文自己去查第一手资料比较好一点。 另外在编程的时候变量…查看详情
- 盘点近年热门的管理系统软件定制版
21世纪是个信息化,数字化时代。各个企业为了能给顾客带来更好的体验,满足顾客的个性化需求,他们研究出了各式各样的软件。今天小万为大家讲解一些比较热门的管理系统软件定制版。 1企业管理软件 企业管理软件是面向企业的,能够帮助企业管理者优化工作…查看详情
- 商标争议是什么,商标争议有哪些类型
商标是指生产者或者经营者为了将其生产的产品或者提供的服务与其他产品或者服务相区别而采用的标识。但现实生活中会发生商标争议的案例,那么,商标争议是什么,商标争议有哪些类型?万商云集小编给大家详细的介绍一下相关内容,。 商标争议是什么 …查看详情
- 国内主流WiFi共享软件,一秒让你免费获取WiFi密码
WiFi称作无线网,有了无线网的存在,就可以无线上网,不需要出任何费用,尽情的打游戏,看电视聊天等等,比流量好用的多,那么,如果出差就需要蹭别人家的无线网,WiFi软件有哪些? 1、WIFI伴侣 WIFI伴侣是迅速有效的联网…查看详情
- 4款可以随时在线观看电影的软件推荐
如今人们的娱乐生活也丰富了,很多人会在下班后或者节假日去选择看一个电影来放松自己,但是有些电影票可能就比较贵,所以有些人就会选择在线电影软件,很多人不知道,下面是我给大家的介绍。 1.葫芦视频 是当贝与华视网聚合作开发的一款…查看详情
- 作业辅导软件有哪些呢?这几款解决你的难题
现在的父母工作都比较忙,通常是老人负责接送孩子,而辅导作业方面就变得力不从心了,其实不妨将这个难题交给一些作业辅导的软件,现在的软件功能不仅强大,使用起来也非常的简单方便,可以帮助大家解决更多的难题,那么作业辅导软件有哪些呢?这…查看详情
- php是什么文件类型
迅雷下载为什么都是down.php文件?是因为要下载的资源所在的网站屏蔽了迅雷等下载工具的使用,所以下下来就是php为后缀的文件,可以右键点击你想要下载的文件,在弹出的选项中选择目标另存为,用最原始的下载方法进行下载。git可以管理什么格式…查看详情
猜你喜欢
最新文章
扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121
关注微信公众号
和10万中小企业共同成长
扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有 蜀ICP备12001963号-2 川公网安备 51010402000322号
快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
免费查找信息保护中请放心填写-
-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP
企业首选的数字选用平台