服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

怎样用机器学习方式对网站进行数据挖掘?

2020-12-30 13:38:26 阅读(158 评论(0)

随着大数据时代的到来,机器学习已经成为解决问题的重要而关键的工具。机器学习是工业界和学术界的热门方向,但学术界和工业界专注于机器学习的研究,学术界专注于机器学习理论的研究,工业界专注于如何利用机器学习来解决实际问题。结合美团在机器学习方面的实践,我们进行了实战(InAction)系列介绍(带有“机器学习Inaction系列”标签的文章),介绍解决工业问题所需的基本技术、经验和技能。本文主要介绍了机器学习解决实际问题的整个过程,包括问题建模、准备培训数据、提取特征、培训模型和优化模型;其他文章将更深入地介绍这些关键环节。以下分为1)机器学习概述,2)问题建模,3)准备培训数据,4)选择特征,5)培训模型,6)优化模型,7)总结7章。机器学习概述:###机器学习是什么?随着机器学习在实际工业领域的不断应用,这个词已经被赋予了各种不同的含义。本文中“机器学习”的含义更符合wikipedia上的解释,如下:Machinelearningisascientificdisciplinethatdealswiththeconstructionandstudyofalgorithmsthatcanlearnfromdata.机器学习可分为无监督学习(unsupervisedlearning)监督学习(supervisedlearning),在工业界,监督学习是一种更常见、更有价值的方式,主要以这种方式介绍。如下图所示,在解决实际问题时,有两个过程需要监督机器学习。一个是离线培训过程(蓝色箭头),包括数据筛选和清洁、特征提取、模型培训和模型优化;另一个过程是应用过程(绿色箭头),用于估计需要估计的数据,提取特征,并使用离线培训获得的模型进行估计,以便在实际产品中获得估计值。在这两个过程中,离线培训是最具技术挑战性的工作(在线估计过程中的许多工作可以重用离线培训过程),因此下面主要介绍离线培训过程。在这两个过程中,离线培训是最具技术挑战性的工作(许多在线估计过程可以重复使用离线培训过程),因此以下主要介绍离线培训过程。###什么是模型?(model)?模型是机器学习中的一个重要概念。简单地说,它是指从特征空间到输出空间的映射;它通常由模型的假设函数和参数w组成(以下公式是Logisticregression模型的表达,并在训练模型的章节中详细解释);假设空间的模型(hypothesisspace),指所有可能w对应的输出空间组成的给定模型的集合。Logisticregresion(简称LR)是工业界常用的模型、GradientBoostingDecisionTree(GBDT)、SupportVectorMachine(SVM)、DeepNeuralNetwork(简称DNN)等。模型训练是基于训练数据获得一组参数w,使特定目标最优化,即获得从特征空间到输出空间的最优映射。如何实现,请参见训练模型章节。模型训练是基于训练数据获得一组参数w,使特定目标最优化,即获得从特征空间到输出空间的最优映射。如何实现,请参见培训模型章节。###为什么要用机器学习来解决这个问题?目前,在大数据时代,到处都有T到P数据,简单的规则处理难以发挥这些数据的价值;廉价的高性能计算降低了基于大规模数据的学习时间和成本;廉价的大规模存储可以更快、更低的成本处理大规模数据;有很多高价值的问题,可以花很多精力用机器学习来解决问题。###什么问题应该用于机器学习?目标问题需要巨大的价值,因为解决机器学习问题有一定的成本;目标问题有大量的数据可用,大量的数据可以使机器学习更好地解决问题(相对于简单的规则或劳动力);目标问题由多种因素(特征)决定,机器学习解决问题的优势可以体现出来(相对于简单的规则或人工);由于机器学习可以基于数据自学和迭代,因此需要不断优化目标问题,继续发挥价值。本文以DEAL(团购订单)交易量估算为例(即估计一个给定的DEAL在一段时间内卖了多少钱),介绍如何用机器学习解决问题。本文以DEAL(团购订单)交易量估算为例(即估计给定DEAL在一段时间内销售多少),介绍如何使用机器学习解决问题。首先,我们需要:收集问题信息,理解问题,成为这个问题的专家;解决问题,简化问题,将问题转化为机器可预测的问题。在对DEAL交易量进行深入理解和分析后,可以将其分解为以下几个问题:###单模型?多个模型?如何选择?根据上图拆解后,预测DEAL交易量有两种可能模式,一种是直接预测交易量;另一种是预测用户数量模型和访问率模型(访问DEAL用户将购买的列表数量),然后根据这些子问题的估计值计算交易量。不同的方法有不同的优缺点,具体如下:选择哪种模式?1)如果问题难以预测,则考虑使用多模型;2)如果问题本身的重要性非常重要,则考虑使用多模型;3)如果多模型之间的关系是否清晰,则可以使用多模型。若采用多模型,如何融合?线性融合可以根据问题的特点和要求进行,也可以进行复杂的融合。以本文为例,至少有两种问题:###模型选择DEAL交易量。我们认为直接估计是非常困难的。我们希望估计分裂成子问题,即多模型模型。由于机器学习解决问题的方法相似,因此有必要建立用户数模型和访购率模型。以下仅以访购率模型为例。为了解决采购率问题,我们必须首先选择模型。我们有以下考虑因素:主要考虑因素1)选择与业务目标一致的模型;2)选择与培训数据和特征一致的模型。训练数据少,Highlevel特征多,使用“复杂”非线性模型(流行GBDT)、Randomforest等。;训练数据很多,LowLevel有很多特点,所以使用“简单”的线性模型(流行的LR、Linear-SVM等。).补充考虑1)当前模型是否被工业界广泛使用;2)当前模型是否有成熟的开源工具包(公司内外);3)当前工具包能否满足处理数据量的要求;4)您是否了解当前的模型理论,以及您是否以前使用过该模型来解决问题。为实际问题选择模型,需要转换的业务目标为模型评价目标,转换模型评价目标为模型优化目标;根据不同的业务目标选择合适的模型。具体关系如下:一般来说,真实值(回报)的估计、大小顺序(排序)、根据应用程序的需要,尽可能选择难度较小的目标,目标所在的正确区间(分类)难度从大到小。对于估计访购率的应用目标,我们至少需要知道大小顺序或真实值,所以我们可以选择AreaunderCurve(AUC)或者MeanAbsoluterrororrorle(MAE)以Maximumlikelihood为模型损失函数(即优化目标)作为评估目标。综上所述,我们选择GBDT或LR的spark版本,主要基于以下考虑:1)可以解决排序或回归问题;2)我们实现了算法,经常使用,效果很好;3)支持大量数据;4)广泛应用于工业行业。准备培训数据,深入了解问题。选择相应的问题模型后,需要准备数据;数据是机器学习解决问题的基础。如果数据选择错误,问题就无法解决。因此,在准备培训数据时需要特别小心和注意:###注意事项:待解决问题的数据本身的分布应尽可能一致;培训集/测试集的分布应尽可能与在线预测环境的数据分布一致,这里的分布是指(x,y)分布不仅仅是y的分布;y的数据噪声尽可能小,尽量消除y的噪声数据;不需要采样。采样往往会改变实际数据分布,但如果数据太大,无法训练或正负比例严重失衡(如超过100:1)需要采样解决。###需要解决的常见问题和解决方案的数据分布不一致:1)DEAL数据在采购率问题上可能存在很大差异,如食品DEAL和酒店DEAL的影响因素或性能非常不一致,需要特殊处理;要么提前整合数据,要么以分布不一致因素为特征,要么单独培训各类DEAL模型。数据分布发生了变化:1)用半年前的数据培训模型来预测当前的数据,因为数据分布可能随时间而变化,效果可能很差。数据分布发生了变化:1)使用半年前的数据培训模型来预测当前的数据,因为数据分布可能会随着时间的推移而变化,效果可能会很差。试着使用最近的数据培训来预测当前的数据,历史数据可以减少模型的权利,也可以减少模型。y数据有噪音:1)建立CTR模型时,以用户看不到的Item为负例。这些Item没有点击,因为用户看不到。不一定是用户不喜欢,也不一定是点击,所以这些Item有噪音。一些简单的规则可以用来消除这些噪音负例,比如使用skip-above思想,即用户点击的Item以上,未点击的Item作为负例(假设用户从上到下浏览Item)。采样方法有偏见,不覆盖整个集合:1)在采购率问题上,如果只有一家门店的DEAL进行估计,则无法很好地估计多家门店的DEAL。我们应该确保一个商店和多个商店都有DEAL数据;2)如果没有客观数据的第二类问题,则使用规则获得正/负示例,并且规则对正/负示例的覆盖范围不全面。抽样数据应随机进行人工标记,以确保抽样数据与实际数据分布一致。###DEAL数据收集N个月的培训数据(x)以及相应的采购率(y);收集最近N个月,消除节假日等非常规时间(保持一致的分布);在线时间只收集>并访问用户数量>U的DEAL(降低y的噪音);考虑DEAL销售生命周期(保持一致分布);考虑不同城市、商业区和类别的差异(保持一致的分布)。完成数据筛选和清洗后,需要对数据进行抽取,即将输入空间转换为特征空间(见下图)。在完成数据筛选和清理后,需要提取数据特征,即完成输入空间到特征空间的转换(见下图)。对于线性模型或非线性模型,需要提取不同的特征。线性模型需要更多的特征提取工作和技能,而非线性模型需要相对较低的特征提取要求。一般情况下,特征可分为Highlevel和Lowlevel,Highlevel是指含义较广的特征,Lowlevel是指含义较具体的特征,例如:   DEALA1属于POIA,人均50以下,访购率高;   属于POIA的DEALA2,人均50以上,访购率高;   POIB属于DEALB1,人均50以下,访购率高;   DEALB2属于POIB,人均50以上,访购率底部;基于上述数据,可抽取两个特征,POI(店)或人均消费;POI特征是LowLevel特征,人均消费是Highlevel的特征;假设该模型通过学习获得以下估计:如果DEALx属于POIA(LowLevelfeature),如果DEALx人均50以下,购买率高;(HighLevelfeature),访购率高。因此,总的来说,LowLevel更有针对性,单个特征覆盖面小(含此特征的数据不多),特征数量(维度)大。因此,总的来说,Lowlevel更有针对性,单个特征覆盖范围小(包含此特征的数据不多),特征数量(维度)大。Highlevel泛化,单个特征覆盖范围大(包含此特征的数据多),特征数量(维度)小。Highlevel特征主要影响长尾样本的预测值。LowLevel特征主要影响高频样本的预测值。对于采购率问题,Highlevel或Lowlevel有大量的特征,其中一些显示在下图中:非线性模型的特征1)Highlevel特征可以主要使用,因为计算复杂,因此特征维度不应过高;2)Highlevel非线性映射可以更好地拟合目标。线性模型的特征1)特征系统应尽可能全面,HighLevel和LowLevel都应具备;2)HighLevel可以转换为LowLevel,以提高模型的拟合能力。###抽取特征归一化特征后,如果不同特征的取值范围相差很大,最好将特征归一化,以取得更好的效果,常用的归一化方法如下:Rescaling:以类似的方式将其归一化为[0,1]或[-1,1]:Standardization:设为x分布的平均值,x分布标准差;Scalingtounitlength:归一化到单位长度向量####特征选择特征选择和归一化后,如果发现特征太多,模型无法训练,或者模型容易过度拟合,则需要选择特征并选择有价值的特征。Filter:假设特征子集对模型估计的影响是独立的,选择特征子集来分析子集与数据Label之间的关系。如果有正相关性,则认为特征子集是有效的。Filter:假设特征子集对模型估计的影响是独立的,选择一个特征子集来分析子集和数据Label之间的关系。如果存在正相关关系,则认为该特征子集是有效的。有许多算法来衡量特征子集和数据Label之间的关系,例如Chi-square,InformationGain。Wrapper:选择特征子集加入原特征集,用模型训练,比较子集加入前后的效果。如果效果更好,则认为特征子集有效,否则认为无效。Embedded:将特征选择与模型训练相结合,如在损失函数中添加L1Norm、L2Norm。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

对零售数字化的8点见解

零售对于我们来说并不陌生,它是一个非常专业的领域,近几年出现了数字化的概念,数字化是一项专业的技能,将零售与数字化结合就是一个新的概念,做零售数字化需要有专业的思想,需要有专业人才做后盾,要走专业化发展之路,零售数字化不是提一个概念制定一个…查看详情

企业电商系统开发有两种方式,但都需要重视4点

企业电商系统开发时,需先对产品、市场和用户做定位,不仅需要从自身情况和实际需求出发,还需要考虑用户需求和痛点,再由以上结论确定一个最佳的开发方案,最终再去考虑开发模式及重视开发电商系统几大要点。 图片来源于网络 ● 根据开发方案,企业电商…查看详情

2022国内好用的免费建站系统有哪些?

现在做网站市面上有很多的免费建站系统,这些建站系统能满足基本的建站需求,下面万商云集小编给大家来介绍下2022国内好用的免费建站系统有哪些。  1、论坛社区程序:Discuz!  Discuz是一款非常强大的社区建站系统。目前大部分的论坛或…查看详情

抖音IP属地怎么关闭?

  随着目前很多平台都要显示ip属地了,对于一些问题大家都还不明白,今天就和大家来聊一聊。很多人对于这一块不是很熟悉,下面小编就给大家来详细介绍一下抖音IP属地怎么关闭这一块的内容,希望能帮助到大家。  抖音IP属地怎么关闭  这一次的显示…查看详情

打造直播电商之都,广州代运营市场需求或将上升?

代运营主要是为传统企业升级线上渠道提供运营推广服务,运营范围涉及到构建、营销、推广、物流、客服、客户等全套供应链。专业的代运营企业具备营销、产品、客服等全方位的知识体系,能够帮助企业有效提升运营销售业绩。在杭州提出打造“直播电商第一城”之后…查看详情

影响网站开发的收费因素有哪些?

网站开发多少钱?影响网站开发的费用的因素有很多,如果自己公司有技术做,那这网站比较便宜,如果找网站建设公司来说,那这费用要会贵一些,加上现在市面上网站建设公司太多,各家报价又不一样,那到底网站开发是怎么收费呢?这主要是根据企业的需求而来,不…查看详情

微信群发软件哪个好 十大微信群发软件推荐

微信现在作为一款社交工具,其实在微信的生态下也是一款营销工具,下面万商云集小编就给大家来介绍一下微信群发软件哪个好 十大微信群发软件推荐,希望能帮助到大家解决相关问题。  1.微信消息群发助手  微信消息群发助手,一般又称微信消息群发。微信…查看详情

2021最新7款适合餐饮收银系统排名

中国的餐饮行业规模巨大,而专门针对餐饮行业研发的餐饮收银系统更是数不胜数。餐饮行业规模,模式的不同也导致不同的餐饮企业需要选择不同的餐饮收银系统。接下来就为大家介绍一下2021最新7款适合餐饮收银系统排名。 1、甩手掌柜餐饮收银系统 甩手掌…查看详情

分享一个成功的crm客户管理系统案例

越来越多企业使用crm客户管理系统,也取得了显著的成效,今天小万就来分享一个crm客户管理系统案例,一起来了解下crm系统对企业的帮助。 图片来自网络因为李宁业务十分庞大,所以对于使用crm系统其功能也需要同样庞大。根据其业务需求进行了针对…查看详情

2022年引流推广效果好的app

  随着社交电商的不断发展壮大,行业竞争是异常激烈的,各企业会多方面寻求宣传的方式来扩展自己的营销领域,今天万商云集小编就给大家详细介绍下2022年引流推广效果好的app,希望下面的内容能帮助到你解决运营推广问题。  1、小红书  首先,第…查看详情

让移动办公成为现实的视频会议软件合集

视频会议系统是网络视频会议必备工具,视频会议软件让商务人士一直热切期盼的移动办公成为现实,真正实现随时随地参加会议。小编为大家整理了视频会议软件合集,这些视频会议软件免费版高质量的语音和视频,同步参与在线文案讨论,双向视频功能让用户更好的参…查看详情

自己如何建设网站 最详搭建流程交给你

目前市面上有不少开源的CMS系统,可以快速搭建一个网站,但是延展性、安全性、功能适配性肯定没有按需求开发的性能好。所以下面主要介绍不使用开源CMS系统搭建网站的过程。自己如何建设网站?在做网站之前首先要找好网站的定位,确定好网站要服务哪一部…查看详情

【工作知识产权】劳动关系期间,相关作品的权利归属

工作中涉及到的知识产权,这里暂且称为“工作知识产权”。在工作知识产权中有三个相近的概念,分别是一般职务作品、特殊职务作品和职务发明创造,这三者都是在企业与员工的劳动关系期间产生的作品。本文就三者的权利归属问题进行简单罗列。 图片来源于网络一…查看详情

国外8款真正免费erp系统良心推荐

对于各企业而言,寻找一款好用的erp系统并非一件容易事,找到一款免费好用的erp系统更不简单,今天搜集了8款免费erp系统推荐给大家,来看看国外这些erp系统是否适合你。1.ApacheOFBiz免费erp系统 是一款成熟的开源ERP系统,…查看详情

运营方法丨网络运营的方法及网络运营学习平台

很多互联网行业的人会说,互联网(网络)不只是一种工具,但对大多数的人而言,尤其是企业而言,互联网就是一种工具。一种让企业经营模式发生改变,将销售和服务从线下拓展到线上,将产品销售路径从线下发展到线上的工具。不论是工具还是当成工具使用,网络运…查看详情

最新文章