服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

广告中的机器学习应用场景

2020-12-28 11:51:17 阅读(158 评论(0)

01之前写的最后一篇文章《数据与广告系列9:有趣的本地化广告》是7月30日,刚好隔了一个月。哈哈,这不是断断续续,正常的更新节奏(微信官方账号:数据虫巢)。不知不觉中,《数据与广告系列》已经到了第十篇文章,以平均5000字数来看,也有5万多字。在过去的一年里,我突然发现散文写得相对较少。不知不觉中,我习惯于从更全面的角度组织知识结构,然后形成部分系统的知识结构。除了目前的九个数据和广告系列,还有六个推荐系统,四个非典型的跳槽指南,三个数据和业务系列,四个阅读清单系列。从目前的角度来看,目前的数据和广告系列还有继续下去的空间。这种情况也可能是对相关知识结构的更系统的思考,应该算是好事。以前写“短篇小说”,现在终于开始写“中长篇小说”了。在之前的计划中,该系列应该从广告的起源到技术架构,再到推荐系统的交叉比较,再到不同类型的广告业务场景,这样的结构逻辑。因此,本系列的下一个内容很可能涉及到游戏广告的垂直领域,并计划进行深入探索。然而,从写完《推荐系统系列》到写完《数据与广告系列》第九篇文章,我总觉得整个知识结构体系缺少了什么。直到最近才突然想起来,是的,是算法维度的东西。以数据为核心,再到业务应用场景,没有问题,但总是缺少最重要的环节,那就是算法。虽然在推荐系统系列中,也涉及到一些传统的推荐算法逻辑,甚至代码级别,但总是太介绍,而不是正统的算法和机器学习陈述逻辑和知识结构,直率地说,逻辑或初步构建推荐系统的整体结构,而不是最终的形式。换句话说,那永远是低level的东西,我们总是要有更高的追求。因此,在接下来的内容中,会有大量的算法,或者更严格的意义上是机器学习,当然,不是纯粹的理论(太理论我不擅长),仍然会结合整个机器学习应用场景的广告,很多事情我不会,边走边看。但我能保证的是,只有我彻底理解的东西才会抛给大家,尽量结合广告的实际场景,然后拿更实用的数据(kagle上的相关数据集),然后边聊广告边撕机器学习代码,顺便聊聊生活。03广告机器学习应用场景由于这是广告算法相关的延伸,当然,看算法,但不是这个,一开始总是不能撕裂代码,让我们看看机器学习在整个广告过程中,可以做什么,然后知道我们的计划逻辑需要进一步学习什么,了解什么。回忆第七篇《推荐与广告技术架构》中广告技术的架构图,其中一个非常重要的环节就是广告的排名。因此,说到算法在广告中的应用,首先要想到的是通过机器学习来实现广告的最佳排名。回忆一下广告排名逻辑中涉及的几个因素:出价、上下文匹配、CTR估算。这本身就是多元素组合排名最好的问题,CTR预测是广告领域需要解决的核心问题。因为在许多广告系统中,上下文可能无法理解,出价逻辑可能有点粗糙,但CTR估计是首要任务,首先需要解决的问题。CTR预测本质上是对候选人曝光用户和每个广告候选人池点击概率的估计。因此,这是一个非常典型的偏回归问题。上下文理解延续上述主题,上下文理解或上下文匹配。简单地说,计算环境因素与广告因素的匹配程度,或计算相关程度。当然,匹配只是解决上下文理解的一种方法,或者这种机器学习模型可以解决这个问题。事实上,还有其他方法可以解决。例如,当您积累足够的样本时,您不仅可以计算内容的相关性,还可以从推荐系统的想法中思考,即大量的广告环境和广告曝光关系数据,以及用户在此组合下的ctr数据。这不是一个非常典型的相关分析场景吗!通过历史信息,对上下文环境和广告进行相关分析,而不是基于内容相关性。从目的的角度来看,用户最终会点击广告,所以相关分析和相关分析都是一种方式。lookalike人群扩张是广告领域典型的需求场景。更直白地说,当我想要的人没有那么多时,我该怎么办?给我一个预测,扩展一下。因此,lookalike基本上获得了核心用户(所谓的核心用户是已经验证的高转换人群),然后计算类似的用户(不是严格意义上的相似内容,而是相似的最终转换目标),从而达到扩展的目的。通常扩展的原始用户是用户圈选择定向的群体,但显然定向圈定的群体与实际需求曝光水平存在差距。还有一个更常见的扩展场景,即广告商引导自己积累的高转型核心人群,这是最准确的方向,然后平台负责帮助我找到同样的人。回到机器学习,你可以认为这是一个类似于用户计算的场景,二值判断,概率计算,最简单的,你可以用LR来满足你的需求。但不仅仅是这么简单,因为很多时候你会发现你的训练样本可能是数百万,甚至数千万的数据集,然后如果维度意外达到数十万维度,数百万维度,甚至数千万级,那么你需要解决更多的问题。我们知道,定向是广告系统中的人群召回阶段,从基本的男女性别到更高纬度的商业兴趣,比如你是否想减肥,你是否想贷款,这些最具体的形式是用户标签。每个成熟的广告平台都有一个完整而相对准确的标签系统,每个系统中的人或多或少都可以贴上几个标签。所以,总有一个合适的广告场景,平台可以卖你,卖个好价钱。回想一下以前的文章,广告的本质就是卖流量,卖人。虽然有点残酷,但这是终极的本质。标签人就是把人分类,就像超市里的超市阿姨把不同的商品放在不同类别的货架上一样,方便顾客“选择”(我太佩服自己了,甚至写得那么有哲理/捂脸)。而且标签的制作简单,说起来难。举个简单的例子,如果有场景,最基本的性别标签可以收集身份证号码,这自然很简单,但如果没有,你可以猜吗?因此,这里是典型的二值分类场景(也有三个分类,比如微博,除了男女,还有很多机构属性的账号)。此外,还有数百个其他标签,包括各个层次和细分领域。简单地说,你可以通过行为规则来标记一些标签。只要规则合理,准确性就可以通过行为规则来判断。然而,一方面,显性行为的数量不能满足你对大规模曝光的需求,另一方面,召回能力太差,机器学习的专业术语被称为泛化能力太差。因此,从机器学习的角度来看,这是一个典型的模型场景,也是一个超多分类的场景。当然,你也可以转化为二值分类,对于每个标签,都是YESORNO的答案。当然,在实际处理中,大多数可能只计算一个概率值,然后进行进一步的计算和判断。基于用户行为,肯定会遇到很多文本,自然语言处理的东西是必不可少的。异常分析所谓的异常分析应属于偏反作弊的范畴。比如大规模机器点击广告,造成假货怎么办?即使不是机器,也总有一些人闲着没事干,点着广告玩。更重要的是,在连接发布和收集信息的广告场景或二级电子商务中。填空号是正常的。打电话说自己不正常是正常的。在二级电商中,地址到了门牌号,名字上写着“周杰伦”。你应该犹豫要不要发货吗?如果你拒绝来回邮费,那就没用了。广告商非常担心桑树,每次点击都要扣除钱,每个被拒绝的名单不仅浪费送货能源,更重要的是来回邮费成本,是一个小企业,无法忍受扔。因此,二级电子商务必须控制主脏订单率(所谓脏订单是找不到地址,各种拒绝订单),CPC层,大量恶意无效点击是不可行的,这些压力最终将不可避免地落实到平台上,平台必须解决这类人。抓住那些有恶意广告行为的人(处理历史污点),但那些有这种潜力的人也必须找出来,以防止未来的麻烦!从机器学习和算法的角度来看,这是一个典型的分类场景,但它真的不是一个典型的分类场景。你知道,坏人总是少数,如果你的平台是坏人,你的平台就不用玩了。这是“大海捞针”的活计!也就是说,你必须从数千万甚至数亿用户中获得数十万或数百万“可能的坏人”。这是一个典型的正负样本极度不平衡的场景,这是分类场景中的禁忌。这是一场灾难,是一个非常困难的场景。04你想手撕代码吗?以上是我暂时能想到的机器学习在广告平台上的应用场景。基于我浅薄的知识,机器学习必须解决更多的其他场景。最好说这么多,最后一个代码,对吧?别担心,既然开了机器学习这个头,总会有代码。在接下来的一章中,我们将逐一了解上述场景,基于真实的广告需求,结合机器学习知识,使用kagle中的真实数据来解决这些问题。基于我不可靠的机器学习理论,下一个内容将是两个广告场景,三个机器学习理论,五个分手撕裂代码,这样的结构,也是一个相对合理的结构,更容易理解和吸收。

内容来源:数据虫巢,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

马云正式卸任,他的创业神话能否被复制?

2019年9月10日,也就是昨天,阿里巴巴成立20周年,55岁的马云正式卸任阿里巴巴集团董事局主席,将接力棒交给现任CEO张勇。图片来源:@乡村教师代言人-马云微博 卸任之后,马云还会继续担任阿里巴巴集团董事会成员,直至2020年阿里巴巴年…查看详情

2021国内oa办公系统排行榜

随着oa系统行业近些年发展越来越迅猛,越来越多的企业也意识到一款适合自身的oa办公系统的重要性。那么协同办公市场那么大,我们该如何找到真正一款真正适合自己企业的呢?今天我为大家整理出了近年国内oa办公系统排行榜,供众参考。 一、泛微oa办…查看详情

免费的微信小程序开发靠谱吗?这些套路请你务必了解

最近这几年,商城微信小程序特别火,很多企业、商家都会开发一个收费或免费的微信小程序。为什么小程序开发如此受欢迎,主要有以下两点原因。 图片来源于网络1、没有佣金任何类型的微信小程序,都是0佣金,也就是不抽取一分钱佣金。但诸如:某宝、某东等传…查看详情

智能手环排行榜前十名,这几个品牌值得选

现在能够提升生活质量的智能设备是越来越多了,除了平板和电脑还有手机之外,智能手环也成为了大家不能够缺少的智能设备之一,使用这样的手环,能够将生活中的锻炼,还有睡眠和饮食进行实时的记录,还可以跟手机同步使用,能够指导大家健康的生活…查看详情

oracle目前最新版本

oracle19c和12c区别?1.19c其实也属于12c的一个小版本,只是Oracle改变了版本策略,现在都叫18c\19c\20c,一年一个版本。 2.Oracle19c相当于12.2.0.3版本,是Oracle12c的最终版,所以这…查看详情

韩国十大口碑电影排行榜

  优质答案(1)  1.嫌疑人x的献身  嫌疑人x的献身,这部影片受改编自日本小说家东野圭吾的同名小说,主要讲述了数学天才,帮助自己的邻居设局,从而摆脱杀害自己前夫罪名的故事,警察在这个谜局之中无法找真相。  2.杀人者的记忆法  《杀人…查看详情

eclipse怎么导入项目

别人发给你的代码怎样导入eclipse中运行?别人发给你的代码导入eclipse中运行方法: 1.打开eclipse,点击项目的空白处,选择import; 2.选择ExistingProjectintoWorkspace,点击next,…查看详情

版权登记完后需要发布吗?不需要,版权获得与发表出版无关

版权登记完后需要发布吗?通常会问这个问题的人,都是担心作品不发表会影响著作权。实际上,版权获得与发表出版无关。所以,版权登记完成后不需要发布。 图片来源于网络 ■ 版权登记完后需要发布吗? 我国著作权法采用自动保护原则。作品一经产生,不论…查看详情

搜狗输入法皮肤音效怎么关闭

搜狗输入法是一款常用的输入法工具,它提供了各种皮肤和音效,以增强用户的输入体验。如果你希望关闭搜狗输入法的皮肤和音效,可以按照以下步骤进行操作。1. 打开搜狗输入法设置:在电脑上,找到搜狗输入法的图标,单击该图标,然后选择"设置"选项,这将…查看详情

发票识别系统工作原理解析,让财务更智能

发票作为财务系统流程中不可忽略的重要部分,也是让财务人员非常头疼的问题,一套稳定便捷的发票识别系统对于企业来说更是无可估量的一项潜在财富。 一、发票识别系统的工作原理 至于什么是发票识别系统?发票识别系统是一款针对增值税发票以及常见的表单、…查看详情

免费的电子签名软件有哪些?

现在很多的适合都会用到电子签名,不管是非正式工作场合还是工作场景中,下面万商云集小编就给大家来详细介绍一下免费的电子签名软件有哪些?希望能帮助到大家解决电子签名的相关问题;。  1.一笔签名  一笔签名设计免费版是小编为大家寻找的一款签名设…查看详情

pct专利修改期限是多久?

  在平时很多的小伙伴都不知道pct专利修改期限的基本情况,而且对pct专利修改期限都不是很熟悉,下面万商云集小编就为大家整理了pct专利修改期限这方面的相关内容,希望下面的内容能帮助到各位。  一、pct专利修改期限  根据PCT第19条…查看详情

怎么申请一个网站怎么搭建一个网站

企业有了网站之后能够在网页上展现自己的企业信息,而且还能够将产品更好的展示出来,所以说网站对一个企业来讲是非常重要的,在申请网站的时候也应该要了解相关的步骤和方法。那么怎么申请一个网站怎么搭建一个网站?接下来就给大家详细的介绍一下申请一个网…查看详情

发明权与专利权的区别 发明权与专利权有什么区别

    在平时很多的小伙伴都不知道发明权与专利权区别的基本情况,而且对发明权与专利权区别都不是很熟悉,下面万商云集小编就为大家整理了发明权与专利权区别这方面的相关内容,希望下面的内容能帮助到各位。    一、发明权与专利权有什么区别  众所…查看详情

进出口贸易有限公司是做什么的?

进出口贸易有限公司经营范围怎填?进出口贸易有限公司在填写经营范围时,应当按照《中华人民共和国进出口贸易管理条例》的要求,按自身经营情况,填写详细的商品名称和类别。什么是贸易公司?贸易公司是一个以进出口贸易为主的商业实体,其主要业务是通过进出…查看详情

最新文章