作为亿级用户的微博的运营经验,我们来借鉴一下。
2020-12-31 15:35:24 阅读(172) 评论(0)
用户管理微博是一个很多人都在使用的社交应用。每天刷微博的人每天都会做这样的操作:原创、转发、回复、阅读、关注、@等。其中,前四个是短博客,最后的关注和@是用户之间的关系,关注一个人意味着你成为他的粉丝,他成为你的朋友;@意味着你希望他看到你的微博信息。微博被认为是“自媒体”,即普通大众分享与自身相关的“新闻”方式。近来,一些人利用自己在自媒体上的影响力而获利的报道屡见不鲜。如何计算微博上的个人影响力?微博上还有哪些算法作为看不见的手在管理着我们?我们的每一种行为都会如何影响算法?直观地说,微博实际上是人类社会的一个简单缩影。微博网络的一些特点可能会激励我们在真实的社交网络中获得规律。由于社交网络的爆炸性发展,“社会计算”,尤其是社交网络分析,已经成为数据挖掘的新宠儿。下面我们简单介绍一下微博网络分析的一些算法,有些算法也可能适用于其他社交应用。1.微博用户数量庞大,不同的人有不同的兴趣。挖掘每个用户的兴趣有助于更准确的广告和内容推荐。为了获得每个用户的兴趣,可以给用户贴上标签,每个标签代表用户的兴趣,用户可以有一个或多个标签。为了获得最终的用户标签,首先做出第一个假设:大多数与每个用户的朋友(或粉丝)都有相同兴趣的人。这就导致了本文介绍的第一个算法,即标签传播算法。在这个算法中,每个用户的标签都是朋友或粉丝中标签最多的一个或多个。当然,可以考虑朋友和粉丝的标签,整合时可以考虑给朋友的标签和粉丝的标签的不同权重。标签通信算法的过程如下:1)给部分用户一个初始标签;2)对于每个用户,统计其朋友和粉丝的标签数量,并给用户最常见的一个或多个标签。3)循环第二步,直到用户标签不再发生重大变化。2.用户相似度计算标签通信算法相对简单,缺点是假设不符合事实,如社会礼貌,我们通常关注亲友,这些人不一定和我们有相同的标签;算法的结果会变得非常糟糕。解决办法是通过计算用户之间的相似性来衡量朋友或粉丝标签对用户标签的贡献率。因此,第二个假设:朋友或粉丝与用户越相似,他们的标签就越有可能是用户的标签。那么,如何衡量用户之间的相似性呢?这就需要考虑用户发布的微博信息,包括转发和原创。在这里,我们应该考虑用户之间的相似性,而不是用户微博之间的相似性。因此,在实际计算中,我们应该收集用户的所有微博信息进行计算。一种可选的方法是使用词袋法将微博信息表示为词向量,然后直接使用余弦法等来计算其相似性。但是这种方法过于简单,不容易取得好的效果,下面介绍一种基于LDA(隐含狄利克雷分布)的相似度计算方法。LDA仍然使用词袋法来表示文本,但中间增加了一个主题层,形成了“文档-主题-单词”三层概率模型,即每个文档被视为主题的概率分布,主题被视为单词的概率分布。在LDA模型下,文档可以看作是以下方式生成的:1)每个文档:2)从主题分布中提取一个主题;3)从主题的单词分布中提取一个单词;4)重复第2步和第3步,直到文档中的所有单词都生成。本文不讨论LDA模型参数的估计算法。这里只需要知道,每个用户的微博信息的主题分布可以通过LDA获得。然后使用余弦法、KL距离等计算相似度的方法来获得用户之间主题分布的相似度,作为用户之间的相似度。然后利用这种相似性对标签传播进行加权。3.上述算法的时间因素和网络因素有哪些缺点?随着时间的变化,用户的兴趣也会发生变化。在计算用户相似性时,每次聚集所有微博信息是不合理的。在这方面,可以选择N条与当前时间相近的微博。例如,对于每个用户来说,选择最接近当前时间的50条微博聚集在一起进行LDA训练。这里的N既不能太大也不能太小。太大不容易反映用户兴趣的时间变化,太小容易引起兴趣漂移,因为用户发布微博的随机性。为了达到最佳效果,可以不拘泥于一个固定的N,比如可以考虑根据每个用户发布微博的时间顺序对N值进行自适应。到目前为止,微博关系中由回复、转发、@等组成的网络信息还没有考虑在算法中。以转发为例,如果一个朋友的微博经常在用户的微博上转发,用户和这个朋友的相似度应该比其他朋友高。这里可以看作是假设三:用户转发某个朋友微博的频率越高,用户与该朋友的兴趣就越相似。类似的,可以假设4:用户微博中@用户的频率越高,用户和朋友的兴趣就越相似。计算相似度的其他因素也是如此。有许多方法可以将新的因素添加到原始的相似度计算方法中。例如,您可以考虑将转发频率量化为值,并将其添加到相似度的测量中作为权重。4.社区发现微博社区是指由微博中关系密切的人组成的群体。社区内的人与社区之间的关系密切,而社区之间的关系相对稀疏。这里的关系有两层含义。一是社区内人的兴趣相似性大;二是社区内人之间的关系比较亲密。比如社区内的两个用户不能超过二次关系,二次关系就是朋友的朋友。上面已经描述了兴趣相似性,需要用用户之间的关注来计算关系相似性。以用户关注的关系为单向链,所有微博用户之间的关系都可以表示为一个巨大的有向图。可以简单地考虑用户之间的关系相似性,比如用户之间最短路径的倒数。然而,这种方法的测量并不准确。我们知道,在现实世界中,有六度理论,在微博和其他社交网络中,关系往往更密切。因此,这种简单的关系相似性最多只能有六个离散值,显然不够准确。为达到更好的效果,这里不仅要考虑最短路径作为显式量度,还要考虑一些隐式量度。这里有两个假设,即假设五和假设六:两个用户的共同朋友越多,两个朋友之间的关系就越相似。两个用户的共同粉丝越多,两个朋友的关系就越相似。这里可以借鉴Jaccard相似度的计算方法,将这两个假设的量化函数表示为交集大小和并集大小之商。以假设5为例,其量化指标也称为共定向相似性。在量化过程中,两个用户共同朋友的数量除以两个用户所有朋友的数量。假设六个量化指标被称为共被指向相似性,计算方法类似于共被指向相似性。从意义上说,这两种相似性不仅是关系的衡量,也在一定程度上衡量了用户之间的兴趣相似性。直观地说,两个用户关注的朋友越多,他们的兴趣就越相似。这两种相似性也有一个专业名称,它是基于结构场景的相似性计算的。在获得了最短的路径相似度、共指向相似度和共指向相似度后,可以使用加权函数来整合它们,以获得最终的相似度。之后,可以使用K等一些聚类算法-Means、进行DBSCAN等聚类操作,获得最终的社区簇。也可以采用相似度加权的标签传播算法,将标签相同的人视为社区。5.在社区发现中使用微博中的关系网络可以提高相似度计算的准确性。但是关系网络能做的事情还是很多的,影响力计算是比较重要的应用。说到影响力的计算,我们从网页排名中的算法中学习。Pagerank是网页排名中广为人知的算法,由谷歌创始人拉里·佩奇和谢尔盖·布林发明,随着谷歌在商业上的成功而闻名。该算法根据网页之间的链接来确定网页的排名,其核心是假设高质量的网页必须指向高质量的网页。根据Pagerank的想法,微博上可以得到影响力的假设,称为假设7:影响力高的用户必须关注用户的影响力。将用户视为Pagerank中的网页,将关注关系视为网页中的链接关系。因此,微博关注网络上的影响计算算法可以根据Pagerank的算法流程获得:1)赋予所有用户相同的影响权重;2)根据关注的人数等量分配每个用户的影响权重;3)对于每个用户,其影响等于粉丝分配给他的权重之和;4)第2步和第3步迭代,直到权重不再大变化。在网页排名中,基于网络关系的算法是HITS、Hilltop算法等,这些算法也可以借鉴影响计算。上述算法的缺点是什么?假如只是基于关系网络,那么很容易造成,粉丝数量多的人必然会有很高的影响力。这样,一些用户就可以通过购买一些僵尸粉来获得很高的影响力。这样的算法显然无法应对实际情况,因为还有太多的信息没有使用。除了他的微博关系,用户的影响力也与他的个人属性有很大关系,如用户活动、微文质量等。用户的活动可以通过发布微博的频率来衡量,微文的质量可以通过转发和回复的数量来衡量。通过测量这些值,再加上上述算法的结果,可以获得更准确的影响结果。当然,我们也可以考虑用户之间的回复关系、转发关系和@关系可以构成网络。它们也有相应的假设,即假设8、假设9、假设10:用户回复的微博影响力越高,微博主人的影响力越高。用户转发的微博影响力越高,微博原创作者的影响力就越高。影响力越高的用户倾向于在微博上@影响力越高的用户。通过这种方式,转发网络、回复网络、@网络三种网络,借鉴Pagerank算法,可以得到另外三种影响结果。将它们与关系网络的影响结果结合起来,最终的影响结果就可以了。这里的融合可以简单地考虑结果的加权和复杂的融合方法不在本文的范围内。6.主题因素和领域因素在计算方法受到影响后能做些什么?我们可以分析当前热点话题的影响力,得到谁在微博上成为当前热点话题的意见领袖。具体做法是找到与当前热点话题相关的微文,从而找到参与当前热点话题的用户。如何找到与当前热点话题相关的微文?不用说,对于没有话题标签的微文,可以使用上面介绍的LDA算法,可以在用户的所有微文中找到用户的主题分布,也可以找到微文的主题分布。一般来说,由于微文字数限制在140以内,相对较短,微文中包含的主题数量不会太多,可以以微文主题分布中概率最高的主题为主题。在找到主题对应的微文和用户后,运行影响计算算法,就可以得到主题中影响较大的用户。这也是舆论监测和社会热点监测的一个方面。对于标签传播算法获得的结果,对同一标签下的用户运行影响力计算法可以获得该标签下的影响力排名,即该领域的影响力排名。例如,李开复在各个领域的影响力可能不是最高的,但在IT领域,其影响力绝对是最好的。7.在影响力计算中,垃圾用户识别提到应避免僵尸用户对影响力计算的干扰。在算法中,如果能识别出这样的用户,在计算影响时排出,不仅能提高效果,还能减少计算量。类似于影响计算,垃圾用户的识别应同时考虑用户属性和链接关系。对于垃圾用户来说,有一些不同于正常用户的统计特征。例如,以下几点:垃圾用户通常发送微文具有一定的时间规律性,可以使用熵来衡量,熵是一种衡量随机性的测量,随机性越大,熵越小。具体做法是统计一定粒度的时间切片,在每个时间片中获得博文概率,然后根据概率计算熵值。熵越大,用户发送微文的时间越有规律,垃圾用户的可能性就越大。一些垃圾用户倾向于在微文中恶意@他人,因此一些垃圾用户在微文中使用的比例高于普通用户。为了推广广告,一些垃圾用户在微文中添加了大量URL。微文中的URL比例可以用来衡量。也有一些用户为了欺骗URL点击,微文内容和URL对应界面内容不一致,然后需要判断微文和URL内容的一致性,简单的方法可以使用袋法将微文和URL对应界面表示为单词向量,查看URL对应网页中微文单词的频率。对于那些做广告的用户,他们也可以对他们的微文进行文本分类,以确定他们的微文是否是广告。如果相当一部分用户的微文是广告,用户可能是垃圾用户。垃圾用户通常会随意关注用户,因此粉丝数量与朋友数量的比例会与正常用户不同。此外,正常用户通常通过朋友关系添加朋友,这将形成关注三角形。例如,如果A看到他的朋友B关注C,如果A也关注C,A就会关注B、C,注意C的三角形。一般来说,由于垃圾用户关注的随机性,三角形的比例不同于正常用户。当然,垃圾用户和正常用户的区别不止这些,本文不再一一列举。垃圾用户的识别本质上是一个二分类问题。在获得这些属性后,您可以使用这些属性
推荐阅读
- 电脑壁纸软件哪个好用?5款电脑壁纸软件不能错过
电脑在生活当中可以说有着很高的使用频率,当然每一个人对自己的电脑保护也是比较好的,尤其是在平时的时候会为自己选择一个比较好的电脑壁纸,这样看起来心情也会比较愉快。想要选择好的电脑壁纸,就应该要选择不错的软件来使用,那么电脑壁纸软…查看详情
- 租用CRM和买断CRM有什么区别?
为了企业管理转型,很多企业会选择实施CRM企业关系管理系统软件来帮助企业快速转型,提升企业管理效率。市面上CRM系统的销售类型分为两种:一种是租用型,另一种是买断型。 图片来源于网络� 那么这两种销售模式对企业来说的区别是什么呢?所谓租用…查看详情
- ap是什么意思
Ap是什么东西?Ap是WirelessAccessPoint简称,翻译过来就是无线访问接入点 无线AP(AccessPoint):即无线接入点,它用于无线网络的无线交换机,也是无线网络的核心。无线AP是移动计算机用户进入有线网络的接入点,…查看详情
- 产品运营的核心内容解析
在互联网界,有一句话是这样说的:任何一个产品都是一个好的产品,但决定其能否让用户觉得其是一个好产品,则取决于产品运营。可见,运营对于一个产品来说是多么的重要。那么对于一个企业来说,要如何来做好产品运营呢?图片来源于网络网站的运营工作可以划分…查看详情
- 2020年如何做电商推广,才能更好地收获效果
在互联网蓬勃发展的2020年,电子商务也逐渐改变着我们的各个方面,如市场竞争机制、企业的经营模式和管理理念等。如今,网店数量越来越多、运营也越来越难,在2020要如何做电商推广,才能收获好的效果呢?图片来源于网络 如何做电商推广,企业需要从…查看详情
- 什么是新零售软件系统?好用的系统都有哪些特点?
随着移动支付的普及,很多人出门基本不带现金,内需拉动经济增长,集中体现着消费需求对生产的决定作用,从而有了新零售软件系统,那么作为企业,你知道什么是新零售软件系统?好用的系统都有哪些特点吗? 一:什么是新零售软件系统 新零售软件系统,打通企…查看详情
- 地址查询软件有哪些 地址查询软件排行榜
现在很多的时候大家都会查询一些地址,其实现在导航app软件都是能查到的了,下面小编就给大家来详细介绍一下地址查询软件有哪些 地址查询软件排行榜这一块的相关内容,希望能帮助到大家。 地址查询软件排行榜 1、《北斗导航地图》 通过…查看详情
- 远程桌面管理软件哪个好用
远程桌面管理软件是一种方便的工具,可以让用户通过网络连接到远程计算机,并在本地控制和管理远程计算机。下面是几个被广泛认为好用的远程桌面管理软件。 1.TeamViewer:TeamViewer是一款功能强大且易于使用的远程桌面管理软件。它支…查看详情
- 关于网站建设确定域名后缀、空间大小、网站类型等新手知识
互联网时代,企业融入互联网能拥有更多可能性,所以企业都在纷纷制作小程序、开发软件,而建设网站更是首当其冲。当然,要建站就要先了解关于网站建设的知识,如此才能更快地建设一个更好的网站。 图片来源于网络 网站建设的知识:确定5个问题。1. 域名…查看详情
- 用户产品运营:怎么样让用户购买我们的产品?
每一次成功的转化其实就是满足客户需求的一个过程,客户需求得到了满足,自然就会产生购买行为。这些需求都是由解决一个个问题而产生的,今天我们就来看看怎么做好用户产品运营,让用户心甘情愿的购买我们的产品。 图片来自网络1.让自己成为“产品专家”时…查看详情
- 2021年微信考勤同样好用的考勤系统排名
在日常工作中,考勤系统已经与我们密不可分。无论是对于我们个人,还是对于企业来说,一个方便快捷的考勤系统都是大家想要有的。微信考勤系统就是一个非常好的选择。今天为大家介绍2021年微信考勤同样好用的系统排名,供寻找考勤系统的公司参考。 一、道…查看详情
- 下载了喜欢的图片和视频如何去水印?几款好用的去水印软件来帮你
许多人在网上冲浪时,看到喜欢的图片或是视频会想要将它保存起来,但下载下来的大多数图片或视频都带有水印,不仅影响观看效果,还影响二次创作。那么,要如何去水印呢?下面给大家介绍几款好用的去水印软件,来看看吧! 1、Biu去水印…查看详情
- 2022打车软件哪个便宜 便宜的打车软件排行榜
现在打车软件算是人们必备的一款软件,而且现在很多的打车软件还非常的内卷,很多便宜的打车软件非常多,下面小编就给大家来详细介绍一下2022打车软件哪个便宜 便宜的打车软件排行榜这一块的相关内容,希望能帮助到大家。 便宜的打车软件排行…查看详情
- 2021成都外呼系统品牌有哪些?
在进行外呼系统选型的时候,我们建议企业尽量选择一款本地部署的外呼系统,因为它不仅能增加系统的访问速度,还能更加直接的参与到数据建设,那么对于成都本地企业来讲,成都外呼系统品牌有哪些? 1. Enjoytalk成都外呼系统 Enjoytalk…查看详情
- 商标哪里注册好 | 不耗时不耗力,提高商标注册成功率
当我们有注册商标需求时,通常办理途径只有两个,一是申请人自行办理,二是委托第三方代理公司委托办理。现今由于大多人对商标注册信息不够了解,最终都会选择委托代理公司进行办理。那么就涉及到一个问题:商标哪里注册好? 图片来源于网络 商标哪里注册好…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP

企业首选的数字选用平台






