服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

分析美团点评是如何通过机器学习,来获得有价值的数据推荐。

2020-12-30 14:02:55 阅读(148 评论(0)

在美团商家数据中心(MDC),POI数据已经校准和审核超过100w(我们通常将业务标记为POI,POI基本信息包括:商店名称、类别、电话、地址、坐标等)。如何使用这些校准的POI数据来挖掘有价值的信息,本文进行了一些尝试:使用机器学习方法自动标记缺失类别的POI数据。例如,商店名称为“好牛肉拉面店”的POI将自动标记“零食”类别。机器学习解决问题的一般过程:本文将按:1)特征表示;2)特征选择;3)基于NaiveBayes分类模型;4)分类预测,四部分顺序。特征表明,我们需要首先将实际问题转换为计算机可识别的形式。对于POI来说,反映POI类别的一个重要特征是POI商店名称,因此问题转换为根据POI商店名称来判断POI类别。POI字段属于文本特征,传统的文本表示方法是基于向量空间模型(VSM模型)[1]:空间向量模型需要一个样本或外部导入的“字典”。上图中的字典是[好,酒店,海底,拉面,冰雪,.......,博物馆]。对于已校准的POI,我们首先使用Lucene的中文分词工具SmartCn[2]对POI名称进行预分词处理,并提取特征词作为原始粗糙字典集合。有了字典,你可以定量地表示一个文本。首先定义与字典长度相同的向量,向量中的每个位置对应字典中相应位置的单词。然后通过文本,在向量中的相应位置填写“一定值”(即特征词的权重,包括BOOL权重、词频权重、TFIDF权重)。考虑到一般的POI名称属于短文本,本文使用BOOL权重。在产生粗糙的字典集合时,我们还统计了校准POI中的每个类别(type_id),以及特征词(term)在品类(type_id)出现次数(文档频率)。分别写入表category_frequency和term_category_frequency,表的部分结果如下:category_frequency表:term_category_frequency表:分别记:   A(i,j)=特征词term(i)类别为type_id(j)count出现的次数   T(j)=类别为type_id(j)样本集出现的次数      N=校准POI数据集的数量将在后续计算中发挥作用。现在,我们得到了一个“预输入字典”:包括校准POI名称字段的所有特征词,如“88”、“11”,“3”、“auyi”、“中心”、“中国”、“酒店”、“自助餐”、“拉面”等。直觉,“88”、“11”,“3”、“auyi”、“中国”这个词对判断类别没有多大帮助,但“酒店”、“自助餐”、“拉面”在判断POI类别方面可能起着非常重要的作用。那么问题是,如何选择有利于模型预测的特征呢?这涉及到特征选择。特征选择方法可分为基于领域知识的规则方法和基于统计学习方法。本文采用统计机器学习方法和辅助规则方法的特征选择算法,选择有利于判断POI类别的特征词。基于统计学习的特征选择算法一般可分为两种:1。基于相关性测量(信息理论相关性)2。基于信息增益方法的特征空间表示(典型的PCA)(IG)特征选择方法[3]。特征信息增益是指在已知特征条件下,整个系统信息量的前后变化。如果前后信息量变化越大,特征的作用就越大。那么,如何定义信息量呢?一般来说,熵的概念用于衡量系统的信息量:当我们已知该特征时,从数学的角度来看,我们已知该特征的分布。系统的信息量可以用条件熵来描述:该特征的信息增益定义为:信息增益得分衡量该特征的重要性。假设我们有四个样本,样本的特征词包括“火锅”、“米粉”、“博物馆”,我们利用信息增益来判断不同特征对决策的影响:整个系统的最原始信息熵为:分别计算每个特征的条件熵:利用整个系统的信息熵减去条件熵,获得每个特征的信息增益分数排名(“火锅”(1)>“米粉”(0.31)>“博物馆”(0))根据得分由高到低选择所需的特征词。本文采用IG特征选择方法,选择排名靠前的N个特征词(前30%)。我们选择了前20个特征词:[酒店、酒店、火锅、摄影、眼镜、美容、咖啡,ktv,造型、汽车、餐厅、蛋糕、儿童、美发、商务、旅行社、婚纱、俱乐部、工作室、烧烤]。这些特征词显然与类别属性有很强的相关性,我们称之为类别词。基于领域知识的特征选择方法基于规则的特征选择算法,利用领域知识选择特征。目前,基于规则的特征选择算法很少单独使用,通常结合统计学习的特征选择算法,辅助选择特征。本文需要解决POI名称字段短文本的自动分类问题。POI名称字段一般符合此规则,POI名称=名称核心词 类别词。名称核心词对实际类别预测影响不大,有时“过度学习”起到负面作用。例如,“好利来牛肉拉面店”和“好利来”是它的名称核心词。在使用学习算法时,很可能会学习“蛋糕”类别(“好利来”和“蛋糕”类别之间有很强的相关性,并得出错误的预测结论)。本文利用该规则在选择特征时制定了提示:利用特征选择获得的特征词(大部分是类别词),将POI名称的字段分割成单词,丢弃前一部分(主要是名称核心单词),并保留剩余部分。从目前的评估结果来看,大约5%的精度会提高,缺点是算法覆盖率会降低#分类模型##建模完成特征表示和特征选择后,下一步是培训分类模型。机器学习分类模型可分为两类:1)生成模型;2)识别模型。可以简单地认为,两者之间的区别生成模型直接建模样本的联合概率分布:生成模型的困难在于如何估计类概率密度分布p(x |y)。本文采用了简单的贝叶斯模型"Naive"在简化对类概率密度函数时,假设条件是独立的:根据对p(x|y)不同的建模形式,NaiveBayes模型主要分为:Muti-variateBernoulliModel(多项伯努利模型)和Multinomialeventmodel(多项事件模型)[4]。伯努利事件相当于硬币事件(0,12种可能性),多个事件相当于颜色(1到6种可能性)。伯努利事件相当于硬币事件(0,12种可能性),多个事件相当于颜色(1到6种可能性)。我们结合传统的文本分类来解释这两种模型:在多个伯努利模型已知类别的情况下,多个伯努利对应于样本生X的过程:字典中的每个单词(t1和t2...判断这个词是否出现在样本中。每次遍历都是伯努利实验,|V|次遍历:其中1(condition)作为条件函数,该函数表示当条件成立时等于1,不成立时等于0;|V|代表字典的长度。在多个事件模型已知类别的情况下,多个事件模型假设样本的生成过程:从字典中选择文本中第k位置的单词,每个位置k生成的单词对应于多个事件。样本X=(w1,w2...ws)类概率密度:当样本用向量空间模型表示时,上部转换为:N(ti,X)在样本X中表示特征词i的次数。##经过大量无聊公式的折磨,我们终于看到了胜利的曙光:模型参数的估计。一般的方法包括最大的似然估计、最大的后验概率估计等。本文采用多个伯努利模型,我们直接给出了多个伯努利模型参数的估计结论:记住特征表示一节中统计的term_category_frequency和category_frequency两张表?这时,就要发挥它的作用了!我们只需要查询这两张表,就可以完成参数的估计。很开心吗?虽然过程有点曲折,但结果是美丽的~具体参数的意义可以参考特征来表示一个部分。下一个coding可能需要注意的两点:计算类概率密度p(X|Cj)如果类Cj下没有特征ti,p(ti|Cj)=0.类概率密度的连续乘以也将等于0。数量,如果在某种情况下没有出现样本的特征,则认为其产生的可能性等于零。这个结论太武断了,解决办法是加1平滑:其中,|C|表示样本的类别数据。在计算类概率密度时,小数溢出具有超过计算机可以表示的最小数的可能性。为了避免小数溢出的问题,类概率密度的计算通常被转换为对数累和的形式。另外,如果计算p(ti|Cj)时间太小,取对数后会得到负无限值,需要对p(ti|Cj)截断处理:当小于某个阈值(如1E-6)时,用该阈值代替。另外,如果计算p(ti|Cj)时间太小,取对数后会得到负无限值,需要对p(ti|Cj)截断处理:当小于一个阈值(如1E-6)时,用该阈值代替。算法预测本节将结合前三节给出算法的具体计算预测过程。为了简化这个问题,我们假设字典是:[拉面,七天,牛肉,博物馆],只有火锅和快餐,两种样品的数量都是8个。以“好利来牛肉拉面馆”为例:对测试样本进行中文分词,判断“牛肉”属于类别词,丢弃类别词“牛肉”前部,提取样本特征词集:[牛肉拉面店]根据字典建立向量空间模型:x=使用NaiveBayes模型分类预测[1,0,1,1]我们给火锅和快餐两种样本的term_category_frequency统计:样本属于快餐的概率是火锅的概率的4倍,预测样本属于快餐的可信度明显高于火锅的概率。该算法随机抽取2000个未校准的POI数据进行评估,该算法有两个评估指标:覆盖率和准确性。算法随机抽取2000个未校准的POI数据进行评估。算法有两个评估指标:覆盖率和准确性。覆盖率是指算法中可预测样本数量在整个测试样本集中的比例。由于采用特征选择后,一些POI名称无法预测,因为它们不包含特征词集,算法评估的覆盖率为84%。算法的准确性是指在整个测试样本集中预测正确样本的比例,算法评估的准确性为91%。#总结机器学习解决问题最关键的一步是找出问题:这个问题能用机器学习算法解决吗?还有其他更简单的方法吗?简单如字符串匹配,使用正则可以简单解决,只是机器学习方法非常麻烦,收益大于损失。如果能学习机器算法,如何表达这个机器学习问题,如何提取特征?也有可能对机器模式(分类、聚类、回归)进行分类)找出问题后,先尝试一些开源机器学习工具,验证算法的有效性。如有必要,自己实现一些机器算法,也可以借鉴一些开源机器学习算法。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

手机加密软件有哪些 手机加密软件排行榜

  现在大家的手机里面或多或少都有一点隐私,现在很多的密码都是不安全的,下面小编就给大家来详细介绍一下手机加密软件有哪些 手机加密软件排行榜这一块的相关内容,希望能帮助到大家。  手机加密软件排行榜  1、《加密锁》  它是一款能够帮助…查看详情

录制视频软件都有哪些?好用的录制视频软件介绍

生活当中有不少的人特别喜欢录制小视频,录制完视频之后也需要对视频进行更好的操作与剪辑,这样就能够形成大片的感觉,但是在生活当中录制视频的时候,也应该有挑选到比较好用的软件,这样录制完视频之后还可以直接使用来进行操作。那么录制视频…查看详情

crm的作用有哪些?可以给企业创造什么优势

crm是指客户关系管理系统,是企业用crm技术来管理与客户之间的关系的功能性软件。运用该软件可以提高客户满意度、降低客户流失率,增加销售成功率。那么,crm的作用有哪些?具体可以给企业创造什么优势是现下企业最关心的问题,本文就该问题做了如下…查看详情

什么情况下属于侵犯版权?

  相信现在很多人都会遇到版权侵权的情况,但是很多人对版权侵权都不是很清楚,主要是不知道什么情况下被认定为版权侵权的情况,下面万商云集小编给大家来详细介绍一下版权侵权的相关事宜,希望能帮助到大家。  什么情况下属于侵犯版权  (1)未经著作…查看详情

三国鼎立,生鲜行业做电商如何选

大浪淘沙沉者为金,风卷残云胜者为王。在生鲜电商浪潮中,众多玩家有倒下的、站立的,也有不断新涌入的。目前,生鲜行业电商呈现前置仓、门店到家、社区拼团“三国鼎立”的模式局面。前置仓每个前置仓都是一个小型的仓储配送中心,用户下单后商品会通过大数据…查看详情

上网课用什么软件?下面这几款软件提供在线授课端口

随着在线教育、在线网络授课的需求量增加,学校、职业培训机构对于在线网课软件和平台的选择要求也越来越高。使用者希望能够找到上网课不卡顿、上网课更便捷的平台与软件,那么,当前人们上网课用什么软件呢? 1、开课吧 这款网课软件主要…查看详情

好用的签字软件有哪些 好用的签字软件排行榜

  现在有很多的常见都是需要使用到电子签名的,而且现在市面上也有很多好用的电子签名的软件,下面小编就给大家来详细介绍一下好用的签字软件有哪些 好用的签字软件排行榜这一块的内容,希望能帮助到大家!  好用的签字软件有哪些  1、《明星艺术…查看详情

电商网站建设基本流程有哪些?

电商网站是电商对外营销的重要渠道,尤其是电子商务快速发展的今天,一个高质量的电商网站能让商家获益匪浅。很多企业都想拥有属于自己的电商网站,但是对电商网站建设基本流程不了解,不知道如何才能避免乱花冤枉钱。今天就跟随小万一起来看下电商网站建设有…查看详情

2023年专利转让费一般是多少钱?

  专利转让是有一笔费用的,但是这得根据专利的含金量来看的,而且专利的种类不同转让的费用肯定也是不同的。所以还是要根据实际要求为主,接下来小编就给大家来详细介绍一下2023年专利转让费一般是多少钱这一块的内容,希望能帮助到大家。  2023…查看详情

推小宝订单数据随时查,卖货发货两不误!

由于疫情影响、地域限制等多种因素大量水果上市许多种植企业一度面临困境部分企业则利用线上销售走出困境创造了不少销货的新机遇那么问题也来了,水果上市正忙人手不够怎么办?怠慢了客户怎么办?……Q商家卖货发货忙,怎么提高效率?A:客户在我的活动界面…查看详情

js数组添加元素方法

html可以添加数组元素的是?htmljs中数组对象中可以添加元素的方法是push方法(数组尾部添加)和pop(数组头部添加)。jsconcat数组是什么?concat()可以基于当前数组中的所有项创建一个新数组。即这个方法会先创建当前数组…查看详情

SCRM是什么意思?

SCRM全称:socialcrm,即社会化客户关系管理,是当下最受欢迎的企业SaaS软件之一。对于没有接触过SCRM软件的人来说,就会有疑问SCRM是什么意思?我们为什么要选择它?从而无从下手,导致盲选,给企业带来负担。现在为了避免这种情况…查看详情

SCRM公司存在的价值是帮助企业更好服务客户

随着国内中小企业的增加,近几年SCRM公司如雨后春笋般在国内迅速崛起,成为未来营销新的引导者。SCRM公司除了能够帮助企业更好的服务每一个客户外,还在于培养现有客户的分享意识,也就是口碑传递,通过每一个客户的二次传播吸引更多潜在客户的关注,…查看详情

没有防沉迷系统的游戏有哪些 不用实名认证登录又好玩的游戏

最近王者荣耀、和平精英、QQ飞车等腾讯游戏团队自主研发推出的大型团队合作游戏都加强了青少年防沉迷系统,下面是我总结的6款没有青少年防沉迷系统的游戏,想玩游戏的小伙伴可以看一看。 1.原始传奇 它是一款主打原汁原味传奇味道的…查看详情

怼人输入法软件-王者怼人专用输入法

随时网络时代的发展,越来越多的人在网络上有不好的生活作风,动不动就骂人的素质张口就来,就是我们经常会见到的键盘侠,之所以称之为键盘侠,是因为在网络上也找不到他的人,同样只能用文字来表述的人,那么今天我们就来看一下如果你被这样的人遇到了,如何…查看详情

最新文章