服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

分享关于知乎数据方面的一些工作

2020-12-03 14:35:30 阅读(131 评论(0)

【指南】知乎已经四年了。在互联网世界里,知乎已经成为一个无可争议的高质量社区。然而,经过快速发展,如何管理、筛选和呈现这些大量信息(数据)已经成为一个难题。事实上,数据管理本身对任何社区都是一个巨大的挑战。以下是知乎联合创始人在七牛大会上关于知乎数据的演讲,稍作删减。大家好,我是知乎的李申申。第一,我想对主办方说:谢谢!感谢大家搭建这样一个专业的平台,让大家有机会聚在一起认真讨论数据这个话题。说实话,当我收到会议的邀请时,我第一次想到了这句话。正如Danariely所说,知乎也像许多面对大数据的人一样无知「年轻人」其中一个;虽然我们也在做一些与大数据相关的事情,但实际上相对肤浅。我听说今天在座的很多用户都是知乎用户,对知乎感兴趣,所以我会借此机会和大家分享一些关于知乎数据的工作。简单进入正题,先来看看知乎的基本数据。截至2015年7月,知乎社区注册用户2900万,月UV1.1亿,月累计页面浏览量3亿。现在知乎全站已经产生了大约620万个问题和近2000万个答案。用户总回答4、129、244、445字数,是大不列颠百科全书的近100倍,鹿鼎记的2580倍。除上述基本数据外,其他一些数字也在以让我们更快乐的速度发展。自知乎开放注册以来,我们截取了两个数据:1000多个同意的答案和1000多个单词的答案,看看它们的增长情况。可以看出,这两个数据都保持了相对稳定的增长趋势。再来看看这些用户日均获赞的数量。首先,必须注意的是,我们并不完全把这两个指标作为有价值的回答判断标准,但当用户愿意冷静下来,花时间写长文回答时,至少他的态度是认真的,符合知乎倡导的讨论理念。另一方面,知乎上的千赞代表了1000名知乎用户对此答案的认可和接受。除了2月份等过年期间的数据会稍微低一些,其他时候,这个数据的增长率基本保持在10%左右。基于话题的维度,我们随机抽取几个话题,看看最近的用户讨论趋势。这是心理学、互联网、经济和天津爆炸的话题。值得注意的是,当天津爆炸事件席卷了几乎所有的社交和舆论平台,引起爆炸性关注时,知乎站其他专业话题的讨论仍在继续。同时,由于天津事件后续讨论中涉及心理学的问题很多,知乎站内心理学话题的热度也略有上升。总的来说,知乎更像是一个广场,各种热门时事讨论似乎都是广场中央的喷泉,吸引了游客和公众的关注。与此同时,广场周围还有各种各样的酒吧、咖啡馆和茶馆,城市居民聚集在一起与知己交谈。知乎大V和知乎小白有很多知乎用户有疑问,只有早期用户同意知乎的社区概念,还是只有老用户容易获得认可和关注?事实并非如此。让我们来看看下面的数据截图。横轴是时间变化。我们截取了2010年12月20日知乎内测以来2015年6月30日批准前1万的用户,并根据他们的注册时间和批准数量绘制图纸,以及日均批准数量的增长。你可以看到这些点的分布相对分散,这表明增长相对均匀。可见,即使是2015年刚加入知乎的人,也有很大的机会得到关注和认可。这也表明,这些新用户也渴望仔细讨论和获得有价值的信息交换,这些用户也同意知乎的社区概念。一般的秘诀是,只要你继续参与讨论,并在你擅长的领域输出信息,你就能得到更多人的认可。如何生产知乎信息,如何流动?在前几张图中,我们已经了解了知乎百花齐放的话题和不断贡献的优质用户。让我们来看看知乎的信息生产模式。为了更加关注这个问题,我们选择了最近的天津爆炸事件作为例子。从发展模式来看,热点话题与其他话题没有什么不同。但由于其新闻性,这类话题的发展更具爆发性,用户的行为更加集中。因此,我们做这样的展示也更方便。首先,一群用户关注和回答问题,产生基本的高质量内容。然后,其他用户的自发邀请、关注、收集、感谢、投票、评论等社会行为,使这些内容得到更广泛的传播和关注,覆盖范围不断扩大。在知乎,社会行为催生了高质量内容的生产和传播,高质量内容引发了下一轮新的社会行为。用户兴趣识别如何使用大数据?用户在知乎的行为是多维的;它不仅包括相对较轻的浏览和阅读,还包括更重的认可和反对,以及更重的问答(这里的重量和轻量是根据用户的运营成本来定义的)。我们可以根据这些行为分析用户的特点,这也是每个互联网服务都会做的日常工作。只有根据不同的服务特点,我们才能分析不同的特点、算法和效果。除了大量的用户行为数据外,知乎还有大量的文本信息。基于行为和文本,我们可以更准确地识别用户的兴趣和擅长。在现实社会中,我们对某些领域的知识有着深刻的掌握,但其他领域可能不是。个人精力有限,没有人能全知成为各个领域的专家,这种情况可以映射到知乎上。不同的用户在不同的话题领域有不同的专业精神。我们需要掌握这种差异,为每个人计算每个话题下的权重。计算分数的主要依据是你在知乎上的回答。当然,我们也会添加一些其他的考虑因素,包括其他专业人士的认可、你的专业背景等。这是知乎非常基础的数据设施,但这个数值计算的量级并不小(百万回答用户10万个话题,是1000亿级别的数量计算)。知乎每周都会全量计算权重判断,一直在调整优化中。答案排序:如何更好地呈现?优化答案排序算法的目的是让好的答案更高。随着用户数量的不断增加,早期最简单的答案排名规则出现了问题:一些答案得到了更多的友好认可,使得专业性不足的答案被推到了最高的位置。我们想到了加权赞同票的方法,根据主题下每个人的专业权重来计算,排名优化,可以让大多数高质量的答案排在前面。虽然权重计算的优化仍在继续,但我们在算法上仍然遇到了一些瓶颈。当问题下有多个早期答案获得高票时,即使新答案的质量很高,也很难在问题页面上获得足够的曝光,很难积累更多的同意票,一些误导性、煽动性的高票内容,即使有很多反对票,仍然在严肃、严格但相对较少的高质量答案之前。在专业领域,这些问题对参与讨论的用户造成了特别明显的伤害。这绝不是我们想看到的。因此,我们设计了新的排序算法。新排序算法的想法是,如果向许多人展示一个答案并让他们投票,不同内容质量的答案将得到不同比例的批准和反对,最终得到反映内容质量的分数。当投票人较少时,答案的质量分数可以根据获得的票数进行估计。投票人越多,估计结果就越接近真正的分数。如果新答案得到1票认可0票反对,也就是说100%参与投票的用户选择认可,但是因为数量太少,分数不会太高。如果这个答案在一段时间内得到20次批准和1次反对,那么基于新算法,我们有信心把它放在另一个50次批准和20次反对的答案之前。原因是我们预测,当这个答案也得到50次同意时,反对数应该小于20次。威尔逊得分算法最好的特点是,即使我们错了前一步,现在新答案在前面,得到更多的显示,在得到更多的投票后,算法将修改自己,更准确地计算得分基于更多的投票数据,这样排名最终可以真正反映内容的质量。我们的新算法在年初发布后,得到了知乎站用户的热烈反馈,这也是制作知乎产品的好处。出现了许多专业的讨论,为我们的下一个优化提供了良好的想法。主页自我修养:内容个性化推荐主页内容将主要考虑这些方面:知乎主页有一套特殊的数据收集和处理机制,可以记录用户在主页上的所有重要行动,例如,如果用户浏览器窗口或手机屏幕上的内容,将记录一次。还有...知乎还有一些其他的数据优化,我举几个简单介绍的例子。1.邀请稍熟悉知乎的用户知道“谢谢”这个词。该产品的功能是为每个问题找到合适的答案并向用户推荐。我们采用算法模型来预测用户回答问题的可能性和质量。90%的邀请是通过这个推荐结果发出的,剩下的10%%每周由用户主动搜索生成的知乎精选邮件(eDM)通过不断的算法优化,我们对每个用户进行了个性化的计算,实现了30%的开启率和14%的点击率。2.众所周知,问题聚类想要聚类问题的文本。首先想到的是通过文本语义匹配和复杂的词袋模型(如传统的plsa)。LDA,新word2vec等)对问题文本进行向量化,使相关问题通过语义进行聚类。知乎站拥有庞大的用户浏览数据。如果通过简单的算法(如协同过滤)建立这些浏览数据,也可以取得很好的效果。知乎每天的问答浏览量可以达到1000万级,这意味着输入算法的useritem边数每天可以达到1000万以上,近三个月的浏览数据可以达到10亿边。在知乎的数据平台上建立模型需要近一个小时。从聚类结果可以看出,即使不使用任何与文本相关的分析,也可以通过用户浏览的行为分析很好地聚类问题。这也证实了基于大数据的简单算法比基于小数据的复杂算法更有效。 

内容来源:虎嗅网,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

win10怎么调节

  在Windows10 中,调节屏幕亮度可以让您的显示器更加适合看,也可以为您的眼睛带来更多的舒适感觉。如果您想调节屏幕亮度,可以通过以下几种方式进行。  1.使用显示设置调节屏幕亮度  让我们来看一下如何使用Windows10中的显示…查看详情

mybatis是什么

什么是mybatis为什么要使用mybatis?它是一个半自动映射的框架。这里所谓的“半自动”是相对于Hibernate全表映射而言的,MyBatis需要手动匹配提供POJO、SQL和映射关系,而Hibernate只需提供POJO和映射关系…查看详情

2023年闯红灯扣几分罚多少钱

  交通规则约束着每一位交通参与者,特别是开车的人,一旦出现违章,轻则扣2分,严重的直接被扣12分,吊销驾照,还要面临拘留处罚。有车的人开车时都不希望出现违章,自己的驾照一个周期就12分,扣分多了自己开车也受限制。如果不小心出现违章,很多人…查看详情

剧本杀是什么游戏 剧本杀是什么意思

  剧本杀是一种推理解谜游戏,也称为密室逃脱游戏。游戏中,玩家扮演着不同的角色,通过调查、探寻线索和推理来破解谜题,最终揭示真相。游戏的场景通常设定在一些封闭的地点,例如:酒店、别墅、学校、医院等,参与者需要在规定的时间内完成任务,达到游戏…查看详情

儿童教育软件哪个好 儿童教育软件排行榜前十名

儿童的起步教育是非常重要的,很多的家长在选择儿童学习教育软件的时候都十分的谨慎,下面万商云集小编给大家来介绍下儿童教育软件哪个好 儿童教育软件排行榜前十名这方面的详细内容。  1.儿童学习乐园  儿童学习乐园是一款针对学前儿童亲子早教益智…查看详情

2021最新适合企业的销售管理软件排行

企业销售管理软件又名crm管理系统,涵盖整个销售业务流程,对于销售者、管理者都很有帮助的,这也是为什么越来越多的中小型企业开始使用crm销售管理软件的原因,针对此类现象,本文整理了一份2021最新适合企业的销售管理软件排行。 一. Team…查看详情

专利权的转让协议能不能免税?

 与技术转让、技术开发相关的技术咨询、技术服务,是指转让方(或者受托方)根据技术转让或者开发合同的规定,下面万商云集小编给大家详细介绍下这块内容。 一、专利权的转让协议能不能免税  根据《中华人民共和国税法》等相关法律的规定,专利权的转让经…查看详情

极力推荐的北斗导航系统手机软件,旅游再也不怕找不到好玩的了

现在是科学技术的社会,许多北斗系统对各位来讲都尤为重要,例如我们的日常生活也离不了北斗导航系统,它带各位带来了许多快捷,接下去让笔者给各位介绍这几种北斗导航手机软件1.北斗导航是一种便捷实用的导航仪,这款北斗导航手机版适用骑车,徒步,驾车导…查看详情

2021最好用的营销软件大全盘点

在现代生活中处处充满了营销,一个人的吃穿住行,似乎都是通过营销来获取的。在之前,似乎有很多人对营销都产生心理,而现如今,人们已经接受了营销的生活方式。直接的让你购买这样东西你可能不会去买,但是如果加上一些营销的策略和方式,你就会心甘情愿的买…查看详情

模拟炒股软件哪个好?这几种比较好用

虽然说炒股是在虚拟平台做交易,但是了解其中的一些交易规则之后,想要赚钱也变得容易,一而对于一些没有相关经验的人们来说,不要轻易的踏进股市,不妨通过模拟炒股软件来了解具体的规则,那么模拟炒股软件哪个好呢?这几种比较实用,大家可以了…查看详情

代运营网店靠谱吗?靠谱的代运营网店什么样?

“开网店什么都不用管,交给代运营网店打理还能月入数万”,这话你会信吗?近段时间就有不少朋友因为误信代运营网店宣传,结果上当受骗。但是如果不靠代运营网店,那些新手也会因为缺乏经验或者没有精力去打理网店而导致网店关闭,甚至现象比比皆是。接下来为…查看详情

app软件怎样制作?app软件制作的步骤有哪些?

现在有很多的软件都是需要进行开发的,其实每一款软件在进行制作的时候,也都应该要有相关的步骤,有一些软件制作起来相对来说还是非常简单的,操作起来也比较简单,但是能够带来更加轻松,使用的效果也会更加流畅,所以说在进行软件制作的时候,…查看详情

为你分享五个网站建设步骤

互联网时代下,无论你是创业者、博主还是企业人员,都有很多唾手可得的网络营销平台可以供你使用。然而博客/账号被封禁、服务商倒闭等等情况并不少见。为了防止多年的努力在这种情况下付之东流,小万建议大家建立一个自己的网站,从而吸引更多客户,达到销售…查看详情

上线了小程序怎么收费

  顺丰小程序如何查看已寄快件费用?  微信公众号搜顺丰速运,点右下角我,输入寄件时所用的手机号注册  下拉找到发票申请栏,跳转进入申请发票页面,就能看到寄件所有费用(只显示近一年的顺丰运单)  顺丰小程序如何查看已寄快件费用?  顺丰小程…查看详情

电影版权如何登记?可体现作者价值、保障作者权益

对电影作品进行版权登记保护是对电影人知识产权的尊重,是促进电影业良性发展的保障。同时它也是作者的无形财产,可代表作者价值,并可通过版权获取经济收益。下文将带你了解电影版权如何登记、保护期限等相关问题。 图片来源于网络 电影版权如何登记?1.…查看详情

最新文章