数据分析的三种思路:分类 聚类 降维
2021-01-04 09:02:51 阅读(229) 评论(0)
哪三个模型?决策树、K-means聚类,因子分析。为什么是这三个模型?因为这三种模型代表了三种数据分析思路:分类、聚类、降维。为什么不回来?我打算写一篇特别的文章,所以这篇文章暂时不涉及。为什么只说应用场景?因为有很多专业书籍说得更好,我个人认为模型是固定的,场景是多变的。知道什么时候使用什么模型比使用这个模型更重要。然后,正文就开始了。1、决策树分院帽采用了一种非常典型的决策树模型(什么鬼)。在上面的《分院帽之歌(摘录)》中,我标准粗糙的每个部分都可以被视为一个特征。帽子扣在学生的头上,阅读学生的显著特征,然后分为某一类别。所以你看,哈利波特最初的特点是格兰芬多的特点,但他毕竟是一个灵魂工具,分支帽阅读数据发现这个人有两个显著的特点,所以犹豫,最后波特本人提出了要求,这证明了应用模型人工干预是必不可少的(雾)。言归正传,决策树基本上应用于实际工作中的人群分类。最好的应用场景是将人群分为两类,相互排斥,找出两类人群的不同特征。当然,分为多个互斥类别也可以。一个非常典型的场景是流失模型。对于电信行业来说,运营的重要组成部分是通过用户的行为提前找出谁有流失风险,并通过特殊折扣等手段保留。在我转移到互联网行业之前,我的第一选择是游戏公司(不幸的是,我愿意支付合理的工资……),所以我研究了游戏用户流失模型的内容,发现它与电信行业有相似之处。例如,对于终端游戏,定义超过一周不登录用户损失,所以任务、设备、副本、充值金额等,可以作为预测特征,比较损失和非损失用户,找到两者的区别,添加一些关键损失节点的操作策略来减少损失。二、K-means聚类K-means聚类的优点是样本量大的时候可以快速分组,但是分组后要注意每个群体的可解释性。换句话说,给你一万人,分成四组,你需要能够解释每个群体的突出特征,如果两个群体的特征非常相似,那么重新分组;或者一群人的特征不明显,那么就会增加分组。聚类不同于分类。分类的目的是获得可重复使用的规则,使训练集以外的个人可以直接分为已知的类别;聚类属于后验研究,是对现有个体的区别。当然,聚类可以在一定条件下转化为分类。例如,如果K-means知道每个类别的中心,新个体可以根据与每个类别中心的距离来判断其类别。但通常,聚类方法本身仍然更多地用于研究。K-means常用的场景是在不知道用户有多少类别的情况下,尝试对用户进行分类,并根据每类用户的不同特点决定下一步行动。CRM管理中的数据库营销是一个典型的应用场景。例如,超市/电子商务网站/综合零售商可根据用户的购买行为将其分为“年轻白领”、“一家三口”、“家有一老”、“新生儿”等类型,然后通过电子邮件、短信、推送通知等发起不同的优惠活动。这个案例也是一个与“啤酒和尿布”相似的案例。在这种情况下,高中生女孩显然被聚集在孕妇身上,因为她的行为模式与孕妇非常相似。(决策树也可以这样做,但它需要首先定义特征,所以在探索未知的特征领域时,聚类可能会更好地使用)顺便说一句,我在国有企业做的就是这件事,发送渠道是最本地的。。。平信。。。术语称为数据库供应商信。。。也称为直接营销(不是直销或传销!)。3、在因素分析之前,我们谈到因素分析是一种降低维度的方式,归根结底,降低维度是一句话:当变量过多时,需要将变量重构成具有更多信息的新变量。新变量与原始变量之间存在相关性,以减少变量而不损失太多原始信息。一个典型的因素分析应用场景是满意度调查。当通过市场调研获得消费者满意度时,通常会有两位数的问题来了解消费者对哪些方面和哪些方面的满意度。此时,因素分析非常重要。消费者的问题可以归因于几个相对较小的大问题。同时,我们也可以看到哪些问题更重要,需要优先解决。
推荐阅读
猜你喜欢
最新文章
扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121
关注微信公众号
和10万中小企业共同成长
扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有 蜀ICP备12001963号-2 川公网安备 51010402000322号
快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
免费查找信息保护中请放心填写-
-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP
企业首选的数字选用平台