服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

怎样用机器学习方式对网站进行数据挖掘?

2020-12-30 13:38:26 阅读(161 评论(0)

随着大数据时代的到来,机器学习已经成为解决问题的重要而关键的工具。机器学习是工业界和学术界的热门方向,但学术界和工业界专注于机器学习的研究,学术界专注于机器学习理论的研究,工业界专注于如何利用机器学习来解决实际问题。结合美团在机器学习方面的实践,我们进行了实战(InAction)系列介绍(带有“机器学习Inaction系列”标签的文章),介绍解决工业问题所需的基本技术、经验和技能。本文主要介绍了机器学习解决实际问题的整个过程,包括问题建模、准备培训数据、提取特征、培训模型和优化模型;其他文章将更深入地介绍这些关键环节。以下分为1)机器学习概述,2)问题建模,3)准备培训数据,4)选择特征,5)培训模型,6)优化模型,7)总结7章。机器学习概述:###机器学习是什么?随着机器学习在实际工业领域的不断应用,这个词已经被赋予了各种不同的含义。本文中“机器学习”的含义更符合wikipedia上的解释,如下:Machinelearningisascientificdisciplinethatdealswiththeconstructionandstudyofalgorithmsthatcanlearnfromdata.机器学习可分为无监督学习(unsupervisedlearning)监督学习(supervisedlearning),在工业界,监督学习是一种更常见、更有价值的方式,主要以这种方式介绍。如下图所示,在解决实际问题时,有两个过程需要监督机器学习。一个是离线培训过程(蓝色箭头),包括数据筛选和清洁、特征提取、模型培训和模型优化;另一个过程是应用过程(绿色箭头),用于估计需要估计的数据,提取特征,并使用离线培训获得的模型进行估计,以便在实际产品中获得估计值。在这两个过程中,离线培训是最具技术挑战性的工作(在线估计过程中的许多工作可以重用离线培训过程),因此下面主要介绍离线培训过程。在这两个过程中,离线培训是最具技术挑战性的工作(许多在线估计过程可以重复使用离线培训过程),因此以下主要介绍离线培训过程。###什么是模型?(model)?模型是机器学习中的一个重要概念。简单地说,它是指从特征空间到输出空间的映射;它通常由模型的假设函数和参数w组成(以下公式是Logisticregression模型的表达,并在训练模型的章节中详细解释);假设空间的模型(hypothesisspace),指所有可能w对应的输出空间组成的给定模型的集合。Logisticregresion(简称LR)是工业界常用的模型、GradientBoostingDecisionTree(GBDT)、SupportVectorMachine(SVM)、DeepNeuralNetwork(简称DNN)等。模型训练是基于训练数据获得一组参数w,使特定目标最优化,即获得从特征空间到输出空间的最优映射。如何实现,请参见训练模型章节。模型训练是基于训练数据获得一组参数w,使特定目标最优化,即获得从特征空间到输出空间的最优映射。如何实现,请参见培训模型章节。###为什么要用机器学习来解决这个问题?目前,在大数据时代,到处都有T到P数据,简单的规则处理难以发挥这些数据的价值;廉价的高性能计算降低了基于大规模数据的学习时间和成本;廉价的大规模存储可以更快、更低的成本处理大规模数据;有很多高价值的问题,可以花很多精力用机器学习来解决问题。###什么问题应该用于机器学习?目标问题需要巨大的价值,因为解决机器学习问题有一定的成本;目标问题有大量的数据可用,大量的数据可以使机器学习更好地解决问题(相对于简单的规则或劳动力);目标问题由多种因素(特征)决定,机器学习解决问题的优势可以体现出来(相对于简单的规则或人工);由于机器学习可以基于数据自学和迭代,因此需要不断优化目标问题,继续发挥价值。本文以DEAL(团购订单)交易量估算为例(即估计一个给定的DEAL在一段时间内卖了多少钱),介绍如何用机器学习解决问题。本文以DEAL(团购订单)交易量估算为例(即估计给定DEAL在一段时间内销售多少),介绍如何使用机器学习解决问题。首先,我们需要:收集问题信息,理解问题,成为这个问题的专家;解决问题,简化问题,将问题转化为机器可预测的问题。在对DEAL交易量进行深入理解和分析后,可以将其分解为以下几个问题:###单模型?多个模型?如何选择?根据上图拆解后,预测DEAL交易量有两种可能模式,一种是直接预测交易量;另一种是预测用户数量模型和访问率模型(访问DEAL用户将购买的列表数量),然后根据这些子问题的估计值计算交易量。不同的方法有不同的优缺点,具体如下:选择哪种模式?1)如果问题难以预测,则考虑使用多模型;2)如果问题本身的重要性非常重要,则考虑使用多模型;3)如果多模型之间的关系是否清晰,则可以使用多模型。若采用多模型,如何融合?线性融合可以根据问题的特点和要求进行,也可以进行复杂的融合。以本文为例,至少有两种问题:###模型选择DEAL交易量。我们认为直接估计是非常困难的。我们希望估计分裂成子问题,即多模型模型。由于机器学习解决问题的方法相似,因此有必要建立用户数模型和访购率模型。以下仅以访购率模型为例。为了解决采购率问题,我们必须首先选择模型。我们有以下考虑因素:主要考虑因素1)选择与业务目标一致的模型;2)选择与培训数据和特征一致的模型。训练数据少,Highlevel特征多,使用“复杂”非线性模型(流行GBDT)、Randomforest等。;训练数据很多,LowLevel有很多特点,所以使用“简单”的线性模型(流行的LR、Linear-SVM等。).补充考虑1)当前模型是否被工业界广泛使用;2)当前模型是否有成熟的开源工具包(公司内外);3)当前工具包能否满足处理数据量的要求;4)您是否了解当前的模型理论,以及您是否以前使用过该模型来解决问题。为实际问题选择模型,需要转换的业务目标为模型评价目标,转换模型评价目标为模型优化目标;根据不同的业务目标选择合适的模型。具体关系如下:一般来说,真实值(回报)的估计、大小顺序(排序)、根据应用程序的需要,尽可能选择难度较小的目标,目标所在的正确区间(分类)难度从大到小。对于估计访购率的应用目标,我们至少需要知道大小顺序或真实值,所以我们可以选择AreaunderCurve(AUC)或者MeanAbsoluterrororrorle(MAE)以Maximumlikelihood为模型损失函数(即优化目标)作为评估目标。综上所述,我们选择GBDT或LR的spark版本,主要基于以下考虑:1)可以解决排序或回归问题;2)我们实现了算法,经常使用,效果很好;3)支持大量数据;4)广泛应用于工业行业。准备培训数据,深入了解问题。选择相应的问题模型后,需要准备数据;数据是机器学习解决问题的基础。如果数据选择错误,问题就无法解决。因此,在准备培训数据时需要特别小心和注意:###注意事项:待解决问题的数据本身的分布应尽可能一致;培训集/测试集的分布应尽可能与在线预测环境的数据分布一致,这里的分布是指(x,y)分布不仅仅是y的分布;y的数据噪声尽可能小,尽量消除y的噪声数据;不需要采样。采样往往会改变实际数据分布,但如果数据太大,无法训练或正负比例严重失衡(如超过100:1)需要采样解决。###需要解决的常见问题和解决方案的数据分布不一致:1)DEAL数据在采购率问题上可能存在很大差异,如食品DEAL和酒店DEAL的影响因素或性能非常不一致,需要特殊处理;要么提前整合数据,要么以分布不一致因素为特征,要么单独培训各类DEAL模型。数据分布发生了变化:1)用半年前的数据培训模型来预测当前的数据,因为数据分布可能随时间而变化,效果可能很差。数据分布发生了变化:1)使用半年前的数据培训模型来预测当前的数据,因为数据分布可能会随着时间的推移而变化,效果可能会很差。试着使用最近的数据培训来预测当前的数据,历史数据可以减少模型的权利,也可以减少模型。y数据有噪音:1)建立CTR模型时,以用户看不到的Item为负例。这些Item没有点击,因为用户看不到。不一定是用户不喜欢,也不一定是点击,所以这些Item有噪音。一些简单的规则可以用来消除这些噪音负例,比如使用skip-above思想,即用户点击的Item以上,未点击的Item作为负例(假设用户从上到下浏览Item)。采样方法有偏见,不覆盖整个集合:1)在采购率问题上,如果只有一家门店的DEAL进行估计,则无法很好地估计多家门店的DEAL。我们应该确保一个商店和多个商店都有DEAL数据;2)如果没有客观数据的第二类问题,则使用规则获得正/负示例,并且规则对正/负示例的覆盖范围不全面。抽样数据应随机进行人工标记,以确保抽样数据与实际数据分布一致。###DEAL数据收集N个月的培训数据(x)以及相应的采购率(y);收集最近N个月,消除节假日等非常规时间(保持一致的分布);在线时间只收集>并访问用户数量>U的DEAL(降低y的噪音);考虑DEAL销售生命周期(保持一致分布);考虑不同城市、商业区和类别的差异(保持一致的分布)。完成数据筛选和清洗后,需要对数据进行抽取,即将输入空间转换为特征空间(见下图)。在完成数据筛选和清理后,需要提取数据特征,即完成输入空间到特征空间的转换(见下图)。对于线性模型或非线性模型,需要提取不同的特征。线性模型需要更多的特征提取工作和技能,而非线性模型需要相对较低的特征提取要求。一般情况下,特征可分为Highlevel和Lowlevel,Highlevel是指含义较广的特征,Lowlevel是指含义较具体的特征,例如:   DEALA1属于POIA,人均50以下,访购率高;   属于POIA的DEALA2,人均50以上,访购率高;   POIB属于DEALB1,人均50以下,访购率高;   DEALB2属于POIB,人均50以上,访购率底部;基于上述数据,可抽取两个特征,POI(店)或人均消费;POI特征是LowLevel特征,人均消费是Highlevel的特征;假设该模型通过学习获得以下估计:如果DEALx属于POIA(LowLevelfeature),如果DEALx人均50以下,购买率高;(HighLevelfeature),访购率高。因此,总的来说,LowLevel更有针对性,单个特征覆盖面小(含此特征的数据不多),特征数量(维度)大。因此,总的来说,Lowlevel更有针对性,单个特征覆盖范围小(包含此特征的数据不多),特征数量(维度)大。Highlevel泛化,单个特征覆盖范围大(包含此特征的数据多),特征数量(维度)小。Highlevel特征主要影响长尾样本的预测值。LowLevel特征主要影响高频样本的预测值。对于采购率问题,Highlevel或Lowlevel有大量的特征,其中一些显示在下图中:非线性模型的特征1)Highlevel特征可以主要使用,因为计算复杂,因此特征维度不应过高;2)Highlevel非线性映射可以更好地拟合目标。线性模型的特征1)特征系统应尽可能全面,HighLevel和LowLevel都应具备;2)HighLevel可以转换为LowLevel,以提高模型的拟合能力。###抽取特征归一化特征后,如果不同特征的取值范围相差很大,最好将特征归一化,以取得更好的效果,常用的归一化方法如下:Rescaling:以类似的方式将其归一化为[0,1]或[-1,1]:Standardization:设为x分布的平均值,x分布标准差;Scalingtounitlength:归一化到单位长度向量####特征选择特征选择和归一化后,如果发现特征太多,模型无法训练,或者模型容易过度拟合,则需要选择特征并选择有价值的特征。Filter:假设特征子集对模型估计的影响是独立的,选择特征子集来分析子集与数据Label之间的关系。如果有正相关性,则认为特征子集是有效的。Filter:假设特征子集对模型估计的影响是独立的,选择一个特征子集来分析子集和数据Label之间的关系。如果存在正相关关系,则认为该特征子集是有效的。有许多算法来衡量特征子集和数据Label之间的关系,例如Chi-square,InformationGain。Wrapper:选择特征子集加入原特征集,用模型训练,比较子集加入前后的效果。如果效果更好,则认为特征子集有效,否则认为无效。Embedded:将特征选择与模型训练相结合,如在损失函数中添加L1Norm、L2Norm。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

顾客管理系统是什么?有什么功能及优势

企业面临的是一个个需求巨大而供给不足的卖方市场,提高产品产量很自然成为管理的中心,企业管理基本是产值的管理,逐渐产品很变得丰富,导致市场上产品销售的激烈竞争,顾客的地位被提高到了前所未有的高度,所以市场上出现了顾客管理系统,今天我们就来了解…查看详情

云视通网络监控系统怎么连接网络

云视通网络监控系统是一种基于云计算和网络技术的视频监控解决方案。下面简要介绍如何将云视通网络监控系统连接到网络。 1.网络设备准备: 在连接云视通网络监控系统之前,需要准备以下网络设备: -云视通网络摄像机:这是实现视频监控的关键设…查看详情

天猫购物券怎么使用?

  优质答案(1)  1、我们领取天猫超市优惠券简单快捷的方式,就是到氧惠领券中心领取了。  2、氧惠领券中心为大家搜集和整理天猫超市的各种优惠券领取入口,大家根据自己的需求,选择领取即可。  3、氧惠领券中心天猫超市优惠券领取地址  4、…查看详情

crm系统软件具有哪些用途?这些功能不可忽视

在应用crm系统软件的时候,首先对于这款软件具体的功能,一定要了解清楚合理的应用,并且将这些功能都利用起来,才能够发挥最大的价值,那么crm系统软件具有哪些用途呢?这些功能不可忽视,下面就一起来通过文章的介绍看看吧。 1、…查看详情

有哪些聊天工具的用户群体比较大

现在是网络的时代,我们可以通过各种渠道去交友,扩大自己的朋友圈,让自己的朋友越来越多,那么,我们可以先了解一下聊天工具排名有哪些,根据用户量比较多的软件去下载使用。 1、VIber 它是一款免费的一起跨平台的聊天软件,主要用…查看详情

开通小程序要钱吗

  微信小程序申请需要费用吗?  分情况,如果小程序对应的公众服务号,已经认证,直接绑定就可以,不要收费。  如果只有一个小程序,并且要认证,也需要收费300  我的建议,就是先申请公众服务号,认证后再申请小程序绑定。因为小程序的推送机制比…查看详情

怎样使用代理服务器 代理服务器使用方法

  curl是一个命令行下的web客户端,可以在命令行下执行常见的web访问、自动web请求等操作,下面小编就给大家来详细介绍一下怎样使用代理服务器 代理服务器使用方法这一块的相关内容,希望能帮助到大家。怎样使用代理服务器  curl(cU…查看详情

css如何设置透明度

css怎么给背景图片覆盖一个透明度?css中rgba可以用来设置页面元素的颜色和透明度,rgba颜色值是RGB颜色值的扩展,带有一个alpha通道,通过它即可实现设置元素的不透明度。 在CSS3中,增加了一个opacity属性,使用此属性…查看详情

看书软件哪个好 哪个软件可以看书免费

  之前看到过很多关于为什么要读书的回答,其中一个回答令我印象深刻!  读书,你可以体验1000种人生。而不读书,你只能活一次!  我们没有办法无限延续生命的长度,但却可以增加生命的宽度和厚度,读书便是最好的方法。  随着互联网的不断发展,…查看详情

毕业生求职网站有哪些 毕业生求职网站排行榜

  现在的大学生找工作再也不像前几年那样,得通过现实中的人才招聘市场去找,更多的是通过网上的招聘网站去找工作,因此,大学生就必须知道有哪些招聘网站,下面就给大家介绍一下毕业生求职网站有哪些 毕业生求职网站排行榜这一块的相关内容,  毕业…查看详情

2021最火的5款财务系统软件排名

随着经济的快速发展,近些年各中大企业的财务管理也开始信息化、智能化,如何选择一个能够满足自己企业对信息化、智能化以及专业化的全面管理诉求的财务系统软件也已然成为企业领头者们最关心的问题,好用的财务系统软件有很多,我们该如何选型集成化的财务系…查看详情

美团出品的屏芯收银系统软件真实测评

时代不断发展的背景下,收银系统发展至今,架构形式、市场应用都发生了很大的变化,智能化SaaS收银系统更是深受市场的追捧和喜爱,正如美团出品的屏芯收银系统,那么它究竟好不好用,就软件各方面本文进行了真实详细测评。 在国内较知名的收银系统品牌如…查看详情

私有云储存有什么功能?

  私有云储存是指一种基于互联网的数据存储方式,允许用户将数据存储在自己的服务器上,实现远程存储和访问。随着数据存储需求的不断增长,私有云储存逐渐成为企业、政府机构和个人用户的首选,其主要功能如下:  一、数据备份和恢复功能  私有云储存可…查看详情

免费录音软件都有哪些?

想要制作一条好的视频,首先必须要有好的录音,尤其是解说游戏这一方面,如果录音不够吸引人,会让别人听着很乏味,因此,我们需要了解免费录音软件都有哪几款,然后运用这几款去录音。 1、简刻录音 有很多的免费录音的基本功能给你们的,…查看详情

dvi是什么接口

DVI是什么接口?数字视频接口。是一种视频接口标准,设计的目的是用来传输未经压缩的数字化视频。广泛应用于LCD、数字投影机等显示设备上。 此标准由显示业界数家领导厂商所组成的论坛:“数字显示工作小组”(DigitalDisplayWork…查看详情

最新文章