TencentAnalytics腾讯网站分析系统的架构在Redis数据存储等方面的技术运用可圈可点
2020-12-31 13:50:33 阅读(132) 评论(0)
TA(TencentAnalytics,腾讯分析)是第三方站长的免费网站分析系统,在数据稳定性和及时性方面受到站长的广泛好评,其第二次实时数据更新频率也得到了业界的认可。本文将从实时数据处理、数据存储等方面带您深入探索TA的系统架构和实现原理。网站分析(WebAnalytics)主要是指根据网站的用户浏览行为,分析网站的点击流数据和运营数据,监控网站的运营状况,为网站的优化提供决策依据。网站分析系统已成为网站管理员日常运营中不可缺少的工具。业内流行的网站分析系统主要包括谷歌Analytics、CNZZ、百度统计等产品。TA作为网站分析产品的新星,在社区分析、用户肖像、网站工具等方面形成了自己的特点,其第二次实时数据更新频率是行业领导者。TA在数据稳定性、准确性和及时性方面也享有良好的声誉。随着接入业务量的不断发展,TA每天需要处理和计算的数据量达到TB级。要实现如此庞大的数据量,并确保系统的高可用性并不容易。TA的实时计算框架借鉴了业内流行的一些流式计算系统的思路。虽然在系统建设中遇到了一些问题,但由于大量数据的实时处理和实时存储具有一定的典型性和通用性,我分享了TA的解决方案,希望能给你一些启示。TA的基本原理和系统架构的基本原理是通过嵌入站长网站的JavaScript脚本收集用户访问行为数据,并发送TA收集群。收集群收到数据后,将其过滤、编码和格式化,然后继续向后分发。数据处理集群负责按照业务逻辑计算数据,并将计算结果“写入”到数据存储集群,最后向站长显示结果数据。TA的基本原理如图所示。TA背景是一个完整的数据流处理系统:JavaScript收集的用户行为数据像河流一样流入TA背景,清洗计算后流出TA存储集群,供用户浏览和查询。TA的具体结构和核心部件如图所示。TA的背景分为离线和实时两部分:实时部分负责系统的主要功能计算,数据更新频率为秒;离线部分负责复杂的关联分析和跨天计算,数据更新频率为天。HttpAccess:主要负责HTTP协议的分析、数据的清理和格式化。ESC:EventStreamingCoder,它主要负责将系统中不可枚举的数据类型编码成整形,并将相应的关系持久化。ESP:EventStreamingProcessor,主要负责根据站点和UID重新组织数据并计算PV、UV、网站分析指标,如停留时间和跳失率。ESA:EventStreamingAggregator,根据网站总结ESP计算的数据,并将其写入Redis。Center:负责系统配置、数据路由管理、容灾切换功能的系统中心节点。Logserver:负责将Access收集到的数据以字符串的形式写入文件,并上传到TDCP。TDCP:腾讯分布式计算平台负责离线数据的计算,结果数据由脚本写入MySQL。在实时解决方案之前,TA每天需要处理数十万个网站的TB级数据。处理后的URL数量仍然是数亿,系统存储的Key数量超过10亿。TA实时系统面临的主要挑战是如何高效、低延迟地处理如此多的业务数据。TA解决方案的主要思路可以概括为数据全二进制化、全内存计算和NoSQL存储。以下是实时计算和实时存储两个子系统的深入讨论。对于计算子系统,我们参考了Hadoopp、S4和Storm等开源项目试图设计为一个更通用、更可扩展的全内存实时Event处理系统(或流行术语称为流实时Event处理系统)。对此类系统,我们设计支持的典型输入输出过程大致如图所示。实时计算系统的设计要点是数据组织、协议和增量计算模型。数据组织。考虑到内存和计算过程的性能要求,我们将所有非int数据类型转换为int。可列举的数据类型将其配置映射成唯一的int;不可枚举的数据类型,使用MD5算法近似得到唯一的int。例如,如果页面URL属于无数类型,则通过MD5算法近似预处理获得唯一的int;UserAgent中的浏览器类型字符串属于可枚举数据,则预先将映射配置为int。该方法节省了更多的内存,提高了整个系统的计算性能。协议。在协议层面,我们首先设计实现了一种可扩展的Event结构,支持半自动序列化/反序列化机制(参考msgpack设计)和紧凑的二进制编码(基于Zigzag编码,参考Protobuf的实现)。这种Event结构在流式高性能I/O(网络传输和持久化)表现相当好。实时计算子系统设计为Event实现,可以扩展任何支持。增量计算模型。增量计算模型是指定义为以下三个部分的基本计算过程(如图所示)Processor:负责计算和处理具体的业务逻辑。DataHolder:负责保存增量结果数据和计算所依赖的中间状态数据。Emitter:负责定期输出清空增量计算结果。在流程方面,分为以下三个步骤(如图所示)。接收Event,计算处理—Processor。保存计算结果,计算依赖于中间数据—DataHolder。定期触发输出时间片中的计算结果,清空计算结果—Emitter。增量计算模型削弱了分布式系统中单台机器的交易状态,简化了分布式计算系统的实现,提高了整个系统的性能。实时存储在TA系统中,实时存储的数据是需要通过Web显示层读取的统计数据。这类数据有两个典型特征。频繁更新写作。更新频率取决于系统的实时性,每个统计结果的更新频率最快可达1秒。少量读取。与上述更新相比,“少量”。统计数据可根据业务逻辑分为两类。固定数据:主要是URL、搜索关键词等数据。理论上,这部分数据不断增加,不会修改旧数据。动态数据:主要是经常更新的结果统计数据。这部分数据需要不断更新。例如,www.qq.PV和UV在com域名下的统计结果。考虑到TA实时统计数据的特点,我们选择NoSQL实现我们的存储系统;同时,LevelDB和Redis分别用于存储两种不同的数据类型。实时存储Redista的主要部件。考虑到TA系统本身是一个相对完善的分布式集群系统,我们需要的存储部件是“notclustering,butsharding”。也就是说,像HBase和MongoDB这样的“重武器”并不适合TA,NoSQL数据库中的“瑞士军刀”Redis以其出色的性能进入了我们的视野。同时,TA的结果数据类型也比较丰富,就像站点PV一样、UV、VV、IP等Hash类型的数据也有用户访问轨迹等set类型的“动态数据”,而Redis丰富的数据结构很好地完成了这项任务。选择Redis的另一个原因是它足够简单,容易扩展。扩展Redis命令可以解决我们在实际应用中发现的所有问题。例如,TA中有一个应用程序场景:存储在Redis中的数据通常不是最终结果数据,而是需要进一步计算的中间数据,以消除ESA模块的状态。bouncerate这个指标(bouncerate=bouncesession数/totalsession数),需要前台查询两次,再做一次操作,最后显示给用户。在高并发的情况下,无疑会影响系统的响应速度。本着“移动计算而不是移动数据”的原则,我们对Redissort、hmget命令扩展,使其支持四个操作,并成功地将原来的两个查询优化为一个。扩展四个计算的另一个目的是“通过计算交换存储”。例如,需要将两种类型添加到组件总和的类型数据中,只能存储两种类型,并添加“通过计算交换”的总数据。除数据读取外,数据写入还可以优化类似的合并数据。例如,TA在写入URL的PV中、UV、VV、IP、当停留时间和bouncerate这六个指标时,需要调用6个Redis命令。事实上,这六个指标存储在同一个Hash中。通过扩展hmincrby命令,支持一次更改Hash的所有field,可以将调用次数优化到一次。上线后也取得了不错的效果,CPU在峰值时的利用率几乎下降了一半,同时上层模块ESA的吞吐量也大大提高。LevelDB是Redis的有效补充。考虑到Redis是一个内存数据库,使用内存的成本高于硬盘,因此选择引入基于磁盘存储的LevelDB作为补充。我们选择LevelDB存储“固定数据”,因为LevelDB的写作性能足够好,阅读性能远远超过了目前“在线少量阅读”的需求。在数据存储的架构设计中,由于实时数据服务和在线系统的可靠性要求较高,我们主要采用双写复制 Sharding的设计方法。双写复制。为了提高在线系统服务的可用性,所有数据存储将至少同步写两份。数据分片(Sharding)。基于域名:所有数据以域名为单位组织分片;任何域名都可以调整到任何分片;原则上,单个域名数据存储在一个分片中。动态调整(如图所示):只调整分片策略,不移动数据;根据数据量计算分片负载。另外,对于分片集群数据的查询,我们主要做了三项工作(如图所示)。Redisprotocolstack是一个相对完整的Redis协议栈,是上层应用的基础。直接使用Redis协议作为外部查询的通用协议,使外部用户可以通过当前的RedisClient直接查询访问数据。QueryRulengine是一个灵活的查询引擎。能够根据规则智能地在多个Redis中工作、查询LevelDB数据源,执行类join操作;还简单扩展其他异构数据源,如MySQL、HBase等。QueryComputeengine是一种实时查询计算引擎,可根据基本查询结果实时计算。本部分的主要目的是减少Redis数据空间的占用。展望未来,虽然TA已经在后台更新了数据秒,但显示模式仍然是传统的静态模式。后续TA会尝试更多的数据动态刷新,让站长第一时间了解网站的营销效果,时刻感受网站的心跳。
推荐阅读
- 对零售数字化的8点见解
零售对于我们来说并不陌生,它是一个非常专业的领域,近几年出现了数字化的概念,数字化是一项专业的技能,将零售与数字化结合就是一个新的概念,做零售数字化需要有专业的思想,需要有专业人才做后盾,要走专业化发展之路,零售数字化不是提一个概念制定一个…查看详情
- 企业电商系统开发有两种方式,但都需要重视4点
企业电商系统开发时,需先对产品、市场和用户做定位,不仅需要从自身情况和实际需求出发,还需要考虑用户需求和痛点,再由以上结论确定一个最佳的开发方案,最终再去考虑开发模式及重视开发电商系统几大要点。 图片来源于网络 ● 根据开发方案,企业电商…查看详情
- 2022国内好用的免费建站系统有哪些?
现在做网站市面上有很多的免费建站系统,这些建站系统能满足基本的建站需求,下面万商云集小编给大家来介绍下2022国内好用的免费建站系统有哪些。 1、论坛社区程序:Discuz! Discuz是一款非常强大的社区建站系统。目前大部分的论坛或…查看详情
- 抖音IP属地怎么关闭?
随着目前很多平台都要显示ip属地了,对于一些问题大家都还不明白,今天就和大家来聊一聊。很多人对于这一块不是很熟悉,下面小编就给大家来详细介绍一下抖音IP属地怎么关闭这一块的内容,希望能帮助到大家。 抖音IP属地怎么关闭 这一次的显示…查看详情
- 打造直播电商之都,广州代运营市场需求或将上升?
代运营主要是为传统企业升级线上渠道提供运营推广服务,运营范围涉及到构建、营销、推广、物流、客服、客户等全套供应链。专业的代运营企业具备营销、产品、客服等全方位的知识体系,能够帮助企业有效提升运营销售业绩。在杭州提出打造“直播电商第一城”之后…查看详情
- 影响网站开发的收费因素有哪些?
网站开发多少钱?影响网站开发的费用的因素有很多,如果自己公司有技术做,那这网站比较便宜,如果找网站建设公司来说,那这费用要会贵一些,加上现在市面上网站建设公司太多,各家报价又不一样,那到底网站开发是怎么收费呢?这主要是根据企业的需求而来,不…查看详情
- 微信群发软件哪个好 十大微信群发软件推荐
微信现在作为一款社交工具,其实在微信的生态下也是一款营销工具,下面万商云集小编就给大家来介绍一下微信群发软件哪个好 十大微信群发软件推荐,希望能帮助到大家解决相关问题。 1.微信消息群发助手 微信消息群发助手,一般又称微信消息群发。微信…查看详情
- 2021最新7款适合餐饮收银系统排名
中国的餐饮行业规模巨大,而专门针对餐饮行业研发的餐饮收银系统更是数不胜数。餐饮行业规模,模式的不同也导致不同的餐饮企业需要选择不同的餐饮收银系统。接下来就为大家介绍一下2021最新7款适合餐饮收银系统排名。 1、甩手掌柜餐饮收银系统 甩手掌…查看详情
- 分享一个成功的crm客户管理系统案例
越来越多企业使用crm客户管理系统,也取得了显著的成效,今天小万就来分享一个crm客户管理系统案例,一起来了解下crm系统对企业的帮助。 图片来自网络因为李宁业务十分庞大,所以对于使用crm系统其功能也需要同样庞大。根据其业务需求进行了针对…查看详情
- 2022年引流推广效果好的app
随着社交电商的不断发展壮大,行业竞争是异常激烈的,各企业会多方面寻求宣传的方式来扩展自己的营销领域,今天万商云集小编就给大家详细介绍下2022年引流推广效果好的app,希望下面的内容能帮助到你解决运营推广问题。 1、小红书 首先,第…查看详情
- 让移动办公成为现实的视频会议软件合集
视频会议系统是网络视频会议必备工具,视频会议软件让商务人士一直热切期盼的移动办公成为现实,真正实现随时随地参加会议。小编为大家整理了视频会议软件合集,这些视频会议软件免费版高质量的语音和视频,同步参与在线文案讨论,双向视频功能让用户更好的参…查看详情
- 自己如何建设网站 最详搭建流程交给你
目前市面上有不少开源的CMS系统,可以快速搭建一个网站,但是延展性、安全性、功能适配性肯定没有按需求开发的性能好。所以下面主要介绍不使用开源CMS系统搭建网站的过程。自己如何建设网站?在做网站之前首先要找好网站的定位,确定好网站要服务哪一部…查看详情
- 【工作知识产权】劳动关系期间,相关作品的权利归属
工作中涉及到的知识产权,这里暂且称为“工作知识产权”。在工作知识产权中有三个相近的概念,分别是一般职务作品、特殊职务作品和职务发明创造,这三者都是在企业与员工的劳动关系期间产生的作品。本文就三者的权利归属问题进行简单罗列。 图片来源于网络一…查看详情
- 国外8款真正免费erp系统良心推荐
对于各企业而言,寻找一款好用的erp系统并非一件容易事,找到一款免费好用的erp系统更不简单,今天搜集了8款免费erp系统推荐给大家,来看看国外这些erp系统是否适合你。1.ApacheOFBiz免费erp系统 是一款成熟的开源ERP系统,…查看详情
- 运营方法丨网络运营的方法及网络运营学习平台
很多互联网行业的人会说,互联网(网络)不只是一种工具,但对大多数的人而言,尤其是企业而言,互联网就是一种工具。一种让企业经营模式发生改变,将销售和服务从线下拓展到线上,将产品销售路径从线下发展到线上的工具。不论是工具还是当成工具使用,网络运…查看详情
猜你喜欢
最新文章
扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121
关注微信公众号
和10万中小企业共同成长
扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有 蜀ICP备12001963号-2 川公网安备 51010402000322号
快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
免费查找信息保护中请放心填写-
-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP
企业首选的数字选用平台