服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

广告中的机器学习应用场景

2020-12-28 11:51:17 阅读(155 评论(0)

01之前写的最后一篇文章《数据与广告系列9:有趣的本地化广告》是7月30日,刚好隔了一个月。哈哈,这不是断断续续,正常的更新节奏(微信官方账号:数据虫巢)。不知不觉中,《数据与广告系列》已经到了第十篇文章,以平均5000字数来看,也有5万多字。在过去的一年里,我突然发现散文写得相对较少。不知不觉中,我习惯于从更全面的角度组织知识结构,然后形成部分系统的知识结构。除了目前的九个数据和广告系列,还有六个推荐系统,四个非典型的跳槽指南,三个数据和业务系列,四个阅读清单系列。从目前的角度来看,目前的数据和广告系列还有继续下去的空间。这种情况也可能是对相关知识结构的更系统的思考,应该算是好事。以前写“短篇小说”,现在终于开始写“中长篇小说”了。在之前的计划中,该系列应该从广告的起源到技术架构,再到推荐系统的交叉比较,再到不同类型的广告业务场景,这样的结构逻辑。因此,本系列的下一个内容很可能涉及到游戏广告的垂直领域,并计划进行深入探索。然而,从写完《推荐系统系列》到写完《数据与广告系列》第九篇文章,我总觉得整个知识结构体系缺少了什么。直到最近才突然想起来,是的,是算法维度的东西。以数据为核心,再到业务应用场景,没有问题,但总是缺少最重要的环节,那就是算法。虽然在推荐系统系列中,也涉及到一些传统的推荐算法逻辑,甚至代码级别,但总是太介绍,而不是正统的算法和机器学习陈述逻辑和知识结构,直率地说,逻辑或初步构建推荐系统的整体结构,而不是最终的形式。换句话说,那永远是低level的东西,我们总是要有更高的追求。因此,在接下来的内容中,会有大量的算法,或者更严格的意义上是机器学习,当然,不是纯粹的理论(太理论我不擅长),仍然会结合整个机器学习应用场景的广告,很多事情我不会,边走边看。但我能保证的是,只有我彻底理解的东西才会抛给大家,尽量结合广告的实际场景,然后拿更实用的数据(kagle上的相关数据集),然后边聊广告边撕机器学习代码,顺便聊聊生活。03广告机器学习应用场景由于这是广告算法相关的延伸,当然,看算法,但不是这个,一开始总是不能撕裂代码,让我们看看机器学习在整个广告过程中,可以做什么,然后知道我们的计划逻辑需要进一步学习什么,了解什么。回忆第七篇《推荐与广告技术架构》中广告技术的架构图,其中一个非常重要的环节就是广告的排名。因此,说到算法在广告中的应用,首先要想到的是通过机器学习来实现广告的最佳排名。回忆一下广告排名逻辑中涉及的几个因素:出价、上下文匹配、CTR估算。这本身就是多元素组合排名最好的问题,CTR预测是广告领域需要解决的核心问题。因为在许多广告系统中,上下文可能无法理解,出价逻辑可能有点粗糙,但CTR估计是首要任务,首先需要解决的问题。CTR预测本质上是对候选人曝光用户和每个广告候选人池点击概率的估计。因此,这是一个非常典型的偏回归问题。上下文理解延续上述主题,上下文理解或上下文匹配。简单地说,计算环境因素与广告因素的匹配程度,或计算相关程度。当然,匹配只是解决上下文理解的一种方法,或者这种机器学习模型可以解决这个问题。事实上,还有其他方法可以解决。例如,当您积累足够的样本时,您不仅可以计算内容的相关性,还可以从推荐系统的想法中思考,即大量的广告环境和广告曝光关系数据,以及用户在此组合下的ctr数据。这不是一个非常典型的相关分析场景吗!通过历史信息,对上下文环境和广告进行相关分析,而不是基于内容相关性。从目的的角度来看,用户最终会点击广告,所以相关分析和相关分析都是一种方式。lookalike人群扩张是广告领域典型的需求场景。更直白地说,当我想要的人没有那么多时,我该怎么办?给我一个预测,扩展一下。因此,lookalike基本上获得了核心用户(所谓的核心用户是已经验证的高转换人群),然后计算类似的用户(不是严格意义上的相似内容,而是相似的最终转换目标),从而达到扩展的目的。通常扩展的原始用户是用户圈选择定向的群体,但显然定向圈定的群体与实际需求曝光水平存在差距。还有一个更常见的扩展场景,即广告商引导自己积累的高转型核心人群,这是最准确的方向,然后平台负责帮助我找到同样的人。回到机器学习,你可以认为这是一个类似于用户计算的场景,二值判断,概率计算,最简单的,你可以用LR来满足你的需求。但不仅仅是这么简单,因为很多时候你会发现你的训练样本可能是数百万,甚至数千万的数据集,然后如果维度意外达到数十万维度,数百万维度,甚至数千万级,那么你需要解决更多的问题。我们知道,定向是广告系统中的人群召回阶段,从基本的男女性别到更高纬度的商业兴趣,比如你是否想减肥,你是否想贷款,这些最具体的形式是用户标签。每个成熟的广告平台都有一个完整而相对准确的标签系统,每个系统中的人或多或少都可以贴上几个标签。所以,总有一个合适的广告场景,平台可以卖你,卖个好价钱。回想一下以前的文章,广告的本质就是卖流量,卖人。虽然有点残酷,但这是终极的本质。标签人就是把人分类,就像超市里的超市阿姨把不同的商品放在不同类别的货架上一样,方便顾客“选择”(我太佩服自己了,甚至写得那么有哲理/捂脸)。而且标签的制作简单,说起来难。举个简单的例子,如果有场景,最基本的性别标签可以收集身份证号码,这自然很简单,但如果没有,你可以猜吗?因此,这里是典型的二值分类场景(也有三个分类,比如微博,除了男女,还有很多机构属性的账号)。此外,还有数百个其他标签,包括各个层次和细分领域。简单地说,你可以通过行为规则来标记一些标签。只要规则合理,准确性就可以通过行为规则来判断。然而,一方面,显性行为的数量不能满足你对大规模曝光的需求,另一方面,召回能力太差,机器学习的专业术语被称为泛化能力太差。因此,从机器学习的角度来看,这是一个典型的模型场景,也是一个超多分类的场景。当然,你也可以转化为二值分类,对于每个标签,都是YESORNO的答案。当然,在实际处理中,大多数可能只计算一个概率值,然后进行进一步的计算和判断。基于用户行为,肯定会遇到很多文本,自然语言处理的东西是必不可少的。异常分析所谓的异常分析应属于偏反作弊的范畴。比如大规模机器点击广告,造成假货怎么办?即使不是机器,也总有一些人闲着没事干,点着广告玩。更重要的是,在连接发布和收集信息的广告场景或二级电子商务中。填空号是正常的。打电话说自己不正常是正常的。在二级电商中,地址到了门牌号,名字上写着“周杰伦”。你应该犹豫要不要发货吗?如果你拒绝来回邮费,那就没用了。广告商非常担心桑树,每次点击都要扣除钱,每个被拒绝的名单不仅浪费送货能源,更重要的是来回邮费成本,是一个小企业,无法忍受扔。因此,二级电子商务必须控制主脏订单率(所谓脏订单是找不到地址,各种拒绝订单),CPC层,大量恶意无效点击是不可行的,这些压力最终将不可避免地落实到平台上,平台必须解决这类人。抓住那些有恶意广告行为的人(处理历史污点),但那些有这种潜力的人也必须找出来,以防止未来的麻烦!从机器学习和算法的角度来看,这是一个典型的分类场景,但它真的不是一个典型的分类场景。你知道,坏人总是少数,如果你的平台是坏人,你的平台就不用玩了。这是“大海捞针”的活计!也就是说,你必须从数千万甚至数亿用户中获得数十万或数百万“可能的坏人”。这是一个典型的正负样本极度不平衡的场景,这是分类场景中的禁忌。这是一场灾难,是一个非常困难的场景。04你想手撕代码吗?以上是我暂时能想到的机器学习在广告平台上的应用场景。基于我浅薄的知识,机器学习必须解决更多的其他场景。最好说这么多,最后一个代码,对吧?别担心,既然开了机器学习这个头,总会有代码。在接下来的一章中,我们将逐一了解上述场景,基于真实的广告需求,结合机器学习知识,使用kagle中的真实数据来解决这些问题。基于我不可靠的机器学习理论,下一个内容将是两个广告场景,三个机器学习理论,五个分手撕裂代码,这样的结构,也是一个相对合理的结构,更容易理解和吸收。

内容来源:数据虫巢,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

java开发是做什么的

JAVA主要是用来干什么的?百战程序员IT问题专业解答 java是一种面向对象的编程语言 现在我们日常使用的很多软件都是java语言开发的。 比如安卓上的各种app,界面都是使用java语言写的。 当然java最强大的地方还不是写a…查看详情

用什么软件去做市场?市场管理软件排名

对于市场管理软件来说,是一个十分庞大的数据,所做的行业不同所需要的数据就不一样,比如说销售,在销售中,产品的库存销各种数据,还有每日经营数据对比,及时发现商品数据波动等等,那我们今天就盘点一下市场管理软件都有哪些把。1、企管宝CRM企管宝C…查看详情

拼车软件哪个好用又便宜 哪个拼车平台比较靠谱

 现在人们的出行方式都越来越多样化了,拼车算是人们常用的一种出行方式,市面上的拼车软件也是有很多的,下面万商云集小编给大家来详细介绍一下拼车软件哪个好用又便宜 哪个拼车平台比较靠谱方面的内容,希望能帮助到大家解决出行问题。  1.滴滴出行 …查看详情

营销|没客户电话也能短信联系,这是什么黑科技?

每到618、双十一和双十二你的手机是不是也会经常收到促销短信呢? 短信群发较于传统的推广方式而言算是一种成本低、速度快、阅读量大而且比较“接地气”的宣传方式之一但许多中小企业却…从未接触过活动的内容编辑重要吗?短信的内容决定用户是否会点击活…查看详情

杀毒软件排名,这些可以放心用

现在的工作和生活中都会使用电脑,其中的信息也是比较多的,除了公司内部的信息之外,还有个人的一些隐私,如果不小心受到病毒的感染,那么危害不可小视,甚至还会导致信息泄露影响严重,所以杀毒软件的选择很重要,下面就针对于杀毒软件的排名进…查看详情

质量管理软件如何选择?这几款值得尝试

产品的质量是一个企业的生存命脉与基础,本所以说企业对于产品的质量,往往是要求比较严格的,而通过使用质量管理软件,则可以很好的进行质量方面的管理和规范的实施,能够让操作变得更为规范,也是针对于产品的设计人员,还有制造的人员等等,所…查看详情

已失效的专利可不可以转让?

    依据我国相关法律的规定,向专利管理部门申请专利后,经专利管理部门批准,申请人获得专利权,而专利权是可以依法转让的,那么已失效的专利可不可以转让?下面万商云集小编就给大家来介绍一下这方面的详细内容,希望能帮助到大家解决这一块的问题。 …查看详情

msf是什么文件

1、什么是MSF文件?2、什么是NLB文件?3、什么是LST文件?MSF是流媒体功能的内容格式为.msf,兼容avi等格式是通过专用工具制作内容分为头文件和动画文件用专门的软件打开如新版的暴风影音NLB是Oracle7数据文件LST是列表文…查看详情

新媒体运营怎么自学 怎么学好新媒体运营

  现在新媒体一运营算是比较热门的一个职业,很多人都转行做新媒体,下面万商云集小编给大家来详细介绍下新媒体运营怎么自学 怎么学好新媒体运营这方面的内容。  01内容的价值性  不管是做文章还是做视频,内容最重要的一点就是带有价值含量,说得简…查看详情

盘点好用的微信分销系统,适合创业新手

目前做微信分销系统的很多,商家到底应该如何选择一款适合自己的微分销系统呢?市面上主流的分销系统特别多,主流的微信分销系统哪个好大致包括HiShop销客多等等,企业或者创业新手往往不知道如何挑选。 1、微巴人人店分销系统 人人…查看详情

微信小程序定制开发都需要经过哪些流程

微信庞大的流量资源对于做线上营销的人有着巨大的吸引力,各类小程序层出不穷只为能获得一部分资源。想要在数量众多的微信小程序中占据有利的竞争优势,那进行微信小程序定制开发就是很好的选择。如果你对这一领域还不太清楚,不妨跟小万一起来看看都有哪些流…查看详情

客户端是什么意思啊

  客户端是计算机网络中的一个术语,通常指的是连接到网络的设备或软件,用于与服务器进行通信和交互。客户端一般用于请求服务器上的资源或服务,例如发送电子邮件、下载文件或访问网站等。在互联网上,客户端是与浏览器或移动应用程序等一起使用的。  在…查看详情

如何强制删除文件夹

  在计算机使用过程中,经常会遇到一些无法删除的文件夹,这些文件夹可能由于权限问题、病毒感染、损坏等原因导致不能删除。本文将详细介绍如何强制删除文件夹。  一、使用命令行删除文件夹  命令行是Windows操作系统中一个十分强大的工具,可以…查看详情

网站怎样做流量分析

流量对于网站来说非常重要,网站运营的首要目的就是获得流量,但是流量不同价值也不同,我们需要对流量进行分析,通过流量的分析更好的运营我们的网站,流量的分析主要是流量的来源以及流量在网站上的流向两个方面的分析。通常流量的来源主要有三个途径:搜索…查看详情

飞鱼CRM是什么东西?高效低成本的客户管理系统

让用户接触到广告不难,但想要留住客户,产生最大的投放收益却一直是一项难题,飞鱼CRM系统作为一款优秀的客户管理系统,究竟有哪些作用?下面小万就来详细为大家介绍一下究竟飞鱼CRM是什么东西。 飞鱼CRM是什么东西? 飞鱼CRM系统是巨量引擎推…查看详情

最新文章