服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

案例分享:集群技术在七牛云存储中的应用

2021-01-04 10:11:00 阅读(164 评论(0)

分享人介绍:七牛数据平台工程师王团结,主要负责数据平台的设计和研发。关注大数据处理、高性能系统服务、Hadoop、Flume、Kafka、Spark等离线分布式计算技术。以下是对大多数公司实录数据平台的讨论,如果做得不好,马上就会被吐槽,这与运维部门非常相似。因此,在技术选择上优先考虑现成的工具,快速取得成果,无需担心技术负担。在早期,我们走过弯路,认为工作量不大,收集、存储和计算都是自己开发的,发现是吃力不讨好。从去年上半年开始,我们全面拥抱开源工具,搭建自己的数据平台。数据平台设计架构公司的主要数据来源是分散在各业务服务器上的半结构化日志(系统日志、程序日志、访问日志、审计日志等)。你有没有想过为什么需要日志?日志是最原始的数据记录,如果不是日志,信息肯定会丢失。举个简单的例子,需求是统计nginx上每个域名的流量,这可以通过一个简单的nginx模块来完成,但当我们需要统计不同来源的流量时。因此,需要原始完整的日志。有一种方法是通过网络直接通过业务程序发送日志,这是不可取的,因为网络和接收端不完全可靠,会影响业务或丢失日志。最小、最自然的方法就是把日志放在本地硬盘上。Agent设计要求每台机器上都有一个agent来同步这些日志,这是一个典型的队列模型,业务流程不断push,agent不断pop。agent需要记忆功能来保存同步位置(offset),只有这样,数据的准确性才能尽可能得到保证,但不可能完全准确。由于发送数据和保存offset是两个动作,没有事务性,数据不一致是不可避免的,通常在发送成功后保存offset,因此在agent异常退出或机器断电时可能会导致多余的数据。agent需要足够轻,这主要体现在运维和逻辑上。agent将部署在每台机器上,需要考虑运维成本和接入成本。Agent不应该有分析日志、过滤、统计等动作,这些逻辑应该给数据消费者。假如agent有更多的逻辑,那么它是不可避免的,不可避免地会有升级变化。agent是由go自己开发的,信息中间件kafka,数据传输工具flume是数据收集流程数据收集的技术选择。说到数据收集,人们经常将flume与kafka进行比较。在我看来,两者的定位是不同的。flume更倾向于数据传输本身。kakfa是解耦生产者和消费者的典型消息中间件。在具体架构上,agent没有直接将数据发送到kafka,kafka前面有一层由flume组成的forward。这样做有两个原因1.kafka的api对非jvm系的语言支持非常不友好,forward提供更通用的http接口2.forward层可以做路由、kafkatopic、kafkapartitionkey等逻辑,进一步减少agent端的逻辑forward层不含状态,完全可以实现水平扩展,别担心成为瓶颈。由于高可用性,forward通常有不止一个例子,这将导致日志顺序问题,agent遵循一定的规则(round-robin、failover等。)选择forward实例,即使kafkapartitionkey是一样的,由于forward层的存在,最终落入kafka的数据顺序可能与agent发送的顺序不同。我们容忍乱序,因为生成日志的业务基本上是分布式的,保证单台机器的日志顺序意义不大。我们容忍乱序,因为生成日志的业务基本上是分布式的,保证单台机器的日志顺序意义不大。如果业务对顺序有要求,则必须直接将数据发送到kafka,并选择partitionkey。kafka只能保证partition级别的顺序。通过上述流程,将数据汇集到当地机房kafka集群,然后汇集到核心机房kafka,最终供消费者使用。由于kafka的miror对网络不友好,我们选择了更简单的flume来完成跨机房的数据传输。flume在不同的数据源中传输数据是灵活的,但有几点需要注意1.memory-Channel效率很高,但是可能会有丢失数据的风险,file-安全性高但性能低的chanel。我们用memory-channel,然而,将capacity设置得足够小,使内存中的数据尽可能少,在意外重启和断电时丢失的数据也很少。个人排斥file-channel,一方面,效率,另一方面,对flume的期望是数据传输。当引入file-chanel时,其角色将转换为存储,这在整个过程中是不合适的。通常flume的sink端是kafka和hdfs,可用性和扩展性都很好,不用担心数据拥堵。2.默认情况下,httpsouce没有设置线程池,存在性能问题。如果有用,需要自己修改代码。3.单sink速度跟不上时,需要多个sink。例如,如果跨机房数据传输网络延迟高单rpcsink吞吐和hdfssink效率低下,我们将在一个channel后匹配十多个sink。kafka使用的关键点kafka在性能和可扩展性方面都很好,以下几点需要注意以下1点.topic的划分,大topic对生产者有利,维护成本低,小topic对消费者友好。若是完全不相关的相关数据源,且topic数不发散,则优先考虑topic。2.kafka的并行单位是partition,partition的数量与整体吞吐量直接相关,但partition的数量并不是越大越高,三个partition可以吃一个普通的硬盘io。因此,partition数是由数据规模决定的,最终还是需要硬盘来抵抗。3.选择不当的partitionkey可能会导致数据倾斜。partititionkey只有在对数据有顺序要求时才能使用。kafka的producersdk在没有指定partitionkey的情况下,只会在一定时间内将数据写入一个partition。在这种情况下,当producer的数量少于partition时,也会导致数据倾斜,可以增加producer的数量来解决这个问题。数据到kafka后,数据同步到hdfs进行离线统计。另一种方法用于实时计算。由于今天的时间有限,我们只能与您分享一些实时计算的经验,以实时计算我们选择的sparkstreaming。目前我们只有统计需求,没有迭代计算需求,所以sparkstreaming使用保守,从kakfa读数据统计落入mongo,中间状态数据很少。好处是系统吞吐量大,但很少遇到与内存相关的问题。sparkstreaming对存储计算结果的dbtps要求很高。例如,有10w域名需要统计流量,batchinterval为10s,每个域名有4个相关统计项目,平均为4wtps。考虑到峰值可能更高,固态硬盘上的mongo只能抵抗1wtps,我们将考虑使用redis来抵抗如此高的tps具有外部状态的task逻辑不能重新访问。当speculation参数打开时,计算结果可能不准确。举个简单的例子,这是一个将计算结果存储在mongo中的task任务。如果重做,落入mongo的结果会比实际结果多。举个简单的例子,这是一个将计算结果存储在mongo中的task任务。如果重做,落入mongo的结果会比实际情况多。有状态的对象的生命周期不容易管理,不可能每个task都去new。我们的策略是jvm中的对象,并在代码层面进行并发控制。类似下面。在spark1.3的后版本中,kafkadirectapi被引入试图解决数据准确性问题。使用direct可以在一定程序中缓解准确性问题,但不可避免地会出现一致性问题。为什么这么说?directapi暴露了kafkaconsumerofset的管理(以前是在zookeeper中异步存储)。只有保存计算结果和ofset在同一事务中,才能保证准确性。这项事务有两种方式可以实现,一种是用mysql等支持事务的数据库保存计算结果ofset,另一种是实现两个阶段的提交。流式计算中实现这两种方法的成本都很高。其次,directapi存在性能问题,因为它实际上是在计算时从kafka阅读数据的,这对整体吞吐量有很大影响。这就是我们想分享的,最后展示我们的在线规模。flume+kafka+spark8台高配机,日均数据500亿,峰值80wtps。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

不清楚视频版权登记费用多少?1分钟让你不再茫然

视频版权进行著作权登记实行自愿登记,作品不论是否登记,作者或其他著作权人依法取得的著作权不受影响。我国实行作品自愿登记制度的在于维护作者或其他著作权人和作品使用者的合法权益,有助于解决因著作权归属造成的著作权纠纷,并为解决著作权纠纷提供初步…查看详情

拼多多连续亏损还能走多久

昨天晚上拼多多发布了第三季度财报,不出意外的继续亏损,而且亏损幅度进一步加大,动摇了市场对拼多多的信息,股市开盘后拼多多的股价一度跳水,跌幅达19%。拼多多亏损大超预期拼多多的亏损本来在市场的意料之中,但是出现亏损较去年同期翻倍,却出乎市场…查看详情

评分9.5以上的小说言情排行榜

在各位书友眼里有很多经典的小说,而且言情小说算是比较多的书迷,下面小编就给大家来详细介绍一下评分9.5以上的小说言情排行榜这一块的内容,下面的这些小说都是非常经典的。评分9.5以上的小说言情排行榜  1、《微微一笑很倾城》作者:顾漫  短书…查看详情

免费录制视频软件 免费录制视频软件排行榜前十名

现在很多的时候大家都会用到录屏的软件,而且现在市面的录屏软件非常多,下面万商云集小编给大家来详细介绍一下免费录制视频软件 免费录制视频软件排行榜前十名这一块的内容,希望能帮助到大家。  1.手机录屏精灵  录屏精灵app安卓版是一款全新的手…查看详情

2021最全培训管理系统排行榜

随着社会不断迈入互联网时代,我们的学习生活工作的方式都发生了很大变革。互联网+的形式被广泛应用,培训管理系统就是其中之一。越来越多的企业不满足于传统的培训方式,开始采取线上培训模式,精细化培训管理的同时也能降低各项成本。下面小编为大家整理了…查看详情

accessories是什么意思中文

accessories的中文意思?中文意思: n.附件(accessory的复数形式);辅助程序 Whoa,that'scool!Didyoubuysomeaccessorieswithit? 哇,太棒了!你买配套的手机配件了…查看详情

家谱制作软件哪个好 什么家谱软件好用

  古人云:礼莫大于尊祖敬宗,典莫大于修续家谱,下面万商云集小编就为大家整理下什么家谱软件好用的相关内容,希望大家能喜欢,  家谱作为中华民族传统文化最重要的组成部分,经过了几千年的社会变迁,依然延续至今日。家谱是姓氏文化的核心内容之一,有…查看详情

电脑修图软件推荐,这几款非常专业好用

想要照片美美的,自然少不了电脑修图软件啦,不管是在日常的时候,还是工作当中都会使用到,因为我为大家准备了一些时下好用又高效率的电脑修图软件,这几款都是功能很强大的,能轻松帮你修出完美图片。1、PhotoshopPhotoshop也就是大家熟…查看详情

淘宝直通车是什么意思?

  优质答案(1)  直通车是为淘宝卖家量身定制的,按点击付费的效果营销工具,实现宝贝的精准推广。用如何开网店的小编一席话总结:淘宝直通车推广,在给宝贝带来曝光量的同时,精准的搜索匹配也给宝贝带来了精准的潜在买家。淘宝直通车推广,用一个点击…查看详情

4款超好用音频编辑工具,给你带来完美后期音频处理体验!

随着互联网的发展以及人们爱美意识的增强,越来越多的音频软件层出不穷。人们对于自己的声音有着极大的追求,有的要求甜美,有的要求御姐音,各种各样的只能由音频软件来满足广大人的需求。下面就由小编来给大家整理一下音频软件哪个好? …查看详情

现代人脸识别管理系统的功能和优缺点介绍

随着时代的发展和科技的进步,高科技时代已经来临,智能化渗透愈发普遍,人脸识别作为一种基于人脸特征进行身份识别的生物识别技术,已被投入到适用于各行各业,在为企业进行考勤系统管理的你,真正了解现代人脸识别管理系统的功能和优缺点以及相关原理及功能…查看详情

网站建设的优势源于互联网的替代式发展

数字化的发展改变了大众的生活习惯,现在很难想想忽然有一天,没有了互联网我们的生活是什么样。这是一种不可逆转的替代式发展,让消费者依赖,更迫使了企业进行数字化改变。网站建设的优势大致都以此为基础,因为带来得改变不可逆转就拥有了绝对的优势,下面…查看详情

2023年奶粉品牌排行榜

  奶粉是现代婴幼儿饮食不可或缺的一部分,而想要为宝宝选购一款优质的奶粉,就需要了解一些奶粉品牌的排名信息。以下是国内奶粉品牌排行榜,供家长们参考。  第一部分:奶粉品牌排行前五名  1.惠氏  惠氏母婴是一家全球顶尖的母婴健康企业,拥有自…查看详情

公司官网制作多少钱?

  现在很多的中小企业做网站都不知道到底该从哪一步做起,很多的步骤都不是很熟悉,下面万商云集小编给大家来详细介绍一下网站建设的5大步骤,希望能帮助到大家。  公司官网制作多少钱  1.网站定位  很多新手容易犯一个错误,就是网站定位不…查看详情

客房管理软件的主要工作原理

酒店的规模可以分为大中小三种规模,但是,想要更好的管理酒店的员工,更好的去运行,就需要借助一些专业的软件,这样才可以把该管理的东西管理到位,不会出现漏洞,那么,客房管理软件介绍是什么? 1、客房管理软件介绍 房间智能化互联网…查看详情

最新文章