服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

详细介绍云梯YARN集群的 技术实现与发展状况

2020-12-31 11:52:21 阅读(164 评论(0)

阿里巴巴作为中国最早使用Hadop的公司之一,已经开启了ApacheHadop2.0时代。阿里巴巴的Hadoop集群,即梯形集群,分为存储和计算两个模块。计算模块包括MRV1和YARN集群,共享存储HDFS集群。云梯YARN集群不仅支持Mapreduce,还支持Spark、MPI、RHive、计算模型,如RHadoop。本文将详细介绍云梯YARN集群的技术实现和发展。MRV1和YARN集群共享HDFS存储技术以服务为起点,云梯集群将Hadoop分为存储(HDFS)服务与计算(MRV1和YARN)。这两个计算集群共享HDFS存储集群,这是怎么做到的?在引入YARN之前,基于ApacheHadoop0.19.1-dc版本的云梯Hadoop,并添加了许多新功能。此外,它还兼容了ApacheHadop0.19、0.20、客户端CDH3版。为了保持对客户端的友好,云梯服务端升级总是保持与原客户端的兼容性。此外,为了方便访问数据,阿里巴巴的存储集群是一个单一的大集群。YARN的引入不应迫使HDFS集群被拆分,但YARN是基于社区0.23系列版本,不能直接访问梯子HDFS集群。因此,实现YARN集群访问云梯的HDFS集群是引入YARN后需要解决的第一个技术问题。Hadoop代码主要分为Comon、HDFS、三包Mapred。Common包括公共类,如I/O、通信等类。HDFS部分包括HDFS相关类别,依赖Common包。Mapred部分包括Mapreduce相关代码,依靠Common包和HDFS包。开发人员主要做以下工作,以尽量减少对云梯HDFS的修改。用梯子的HDFS客户端代码代替0.23中的HDFS,形成新的HDFS包。对0.23新的HDFS包进行了少量修改,使其能够在0.23的Common包上运行。对0.23新的HDFS包进行了少量修改,使0.23的Mapred包能够在新的HDFS包中运行。hack用于云梯Common包的通信部分,使其与0.23Common兼容。图1Hadoop代码架构新的云梯代码结构如图1所示,如下所示。原HDFS用于服务端存储部分。在MRV1计算集群中提供原MRV1服务。YARN集群提供更丰富的应用服务。客户端云梯现有客户端不做任何修改,继续使用原有服务。使用YARN服务需要使用新的客户端。为YARN切换云梯MR服务,服务端只有MRV1,客户端只有老版本的客户端。MRV1与YARN共存(MRV1资源逐渐转移到YARN),如果客户端需要使用MRV1服务,则保持客户端不变;如果需要使用YARN服务,则需要使用新的客户端。YARN只留在服务端,客户端只有新版本的客户端。通过以上修改,云梯开发人员以较小的修改实现了YARN对云梯HDFS的访问。云梯版YARN集群实现了SparkonyARN、Hive、Spark、MPI、RHive、支持RHadoop等应用。云梯集群目前的结构如图2所示。Spark已成为YARN集群除Mapreduce应用外的另一个重要应用。Spark是一个分布式数据快速分析项目。其核心技术是弹性分布式数据集(ResilientDistributedDatasets),它提供了比Mapreduce更丰富的模型,可以在内存中快速迭代数据集,以支持复杂的数据挖掘算法和图形计算算法。Spark的计算调度模式,从Mesos到Standalone,即自建Spark计算集群。虽然Standalone的性能和稳定性有所提高,但毕竟自建集群资源少,需要从梯子集群复制数据,无法满足数据挖掘和计算团队的业务需求。SparkonyARN允许Spark计算模型在云梯YARN集群上运行,直接读取云梯上的数据,充分享受云梯YARN集群丰富的计算资源。理论上,Sparkonyarn功能从Spark0.6.0版本开始支持,但实际上还远未成熟。经过长时间的数据挖掘和计算团队压力测试,修复了一些相对关键的bug,以确保Sparkonyarn的稳定性和正确性。SparkonYARN的操作执行机制显示在图3中。图3Sparkonyarn框架基于Yarn的Spark操作首先由客户端生成操作信息,并提交给resourcemanager。resourcemanager在nodemanager报告时将appmaster分配给nodemanager,nodemanager启动sparkappmaster,Sparkappmaster启动后的初始化作业,然后向Resourcemanager申请资源,Sparkappmaster通过RPC让Nodemanager启动相应的Sparkexecutor,Sparkexecutor向Sparkappmaster汇报并完成相应的任务。另外,SparkClient将通过AppMaster获得工作状态。此外,Sparkclient还将通过Appmaster获得操作状态。目前,数据挖掘和计算团队已经通过SparkonyARN实现了MLR、Pagerank和JMeans算法,其中MLR已作为生产操作运行。云梯YARN集群维护经验分享云梯YARN维护过程中遇到的问题很多,很有可能在YARN集群维护中遇到。这里有两个典型的问题及其解决方案。问题1问题描述:社区的CPU隔离和调度功能需要在每台NodeManager所在的机器上创建与用户帐户相对应的Linux帐户。但是阿里云梯集群有5000多个账户,是否需要在每台Nodemanager机器上创建这么多Linux账户;此外,每次创建或删除Hadop用户时,还应在每台Nodemanager机器上创建或删除相应的Linux账户,这将大大增加操作和维护的负担。问题分析:我们发现CPU的隔离并不依赖于Linux账户,这意味着即使同一账户创建了两个过程,Cgroup也可以隔离CPU,但为什么社区要在每台Nodemanager机器上创建账户呢?原来这是为了让每一个Container都以提交aplication的账户执行,防止Container的Linux账户权限过大,保证安全。然而,云梯集群很久以前就分为账户。启动container的Linux账户统一为普通账户。该账户权限小,用户为公司内部员工,安全性能满足需求。解决方案:修改container-executor.c文件,防止其修改container的启动账户,并使用统一的普通Linux账户(无sudo权限)运行container。这样既能保证安全,又能减少运维工作量。问题2问题描述:MRAplicationMaster初始化缓慢,部分作业MRAplicationMaster启动需要一分钟以上。问题分析:通过检查MRAplication-Master的日志,发现分析Rack上消耗了一分钟的初始化时间。从代码分析来看,MRAplicationMaster启动时需要初始化Taskatempt,然后需要分析split信息中的Host,生成相应的Rack信息。目前,云梯分析Host的方法是通过调用外部Python脚本进行分析,每次调用约需20ms。由于云梯HDFS集群非常大,有4500多台机器。如果输入数据分布在每个Datanode上,则需要4500台分析Host×20ms=90s;若作业输入数据较大,且文件备份数为3,那么输入数据很可能会分布在集群的大多数Datanode上。解决方案:开发人员通过在Node-Manager上添加配置文件,包括所有Datanode的Rack信息,MRApp-LicationMaster启动后,加载此文件,防止外部脚本分析频繁调用。解决方案:开发人员通过在Node-Manager上添加配置文件,包括所有Datanode的Rack信息,MRApp-LicationMaster启动后,加载此文件,防止外部脚本分析频繁调用。这大大加快了MRAplicationMaster的初始化。此外,云梯开发人员还解决了一些会让ResourceManager不工作的bug,并将其贡献给ApacheHadop社区。在云梯YARN集群的建设和维护中,云梯开发人员遇到并解决了许多问题。分析和解决这些问题首先需要熟悉代码,但代码量巨大。我们如何快速熟悉它们?这需要团队的合作。团队中的每个人都负责不同的模块,阅读后轮流分享,可以加快熟悉代码的速度。此外,Hadoop的优势在于它可以利用社区的力量。当你遇到问题时,你可以先去社区找到答案,因为社区已经解决了很多问题,充分利用社区可以大大提高工作效率。目前,云梯YARN集群已试运行,并拥有MRV2、Hive、Spark、RHive、RHadop等应用。云梯YARN集群的优点是支持更丰富的计算模型;共享云梯最大的存储集群,访问方便快捷;AppHistory信息存储在HDFS上,可以方便查看各种应用程序的操作历史;与MRV1集群相比,云梯YARN可以支持更大的集群; 与MRV1集群相比,云梯YARN集群支持内存和CPU调度,资源利用将更加合理。未来,云梯将把大部分业务转移到云梯YARN集群。未来,云梯将将大部分业务转移到云梯YARN集群。对于YARN版本,云梯将增加资源隔离和调度,增加Storm、支持Tez等计算模型,优化YARN性能。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

最全淘宝店数据分析名词解释,建议收藏!

一个完整的淘宝店是由多个页面组成的,每个页面的指标对淘宝店的业绩都有很大的影响。但是不同页面的衡量标准是不一样的,只有对症下药,关注好各个页面的指标,才能找出提高业绩的方法,本篇最全淘宝店数据分析名词解释值得你收藏! 首页数据首页是一个淘宝…查看详情

讯飞输入法好用吗

讯飞输入法是中国知名科技公司讯飞做的智能输入法产品。它在语音识别和智能预测方面具有较高的声誉,但是否好用还需从多个方面进行评估。 首先,讯飞输入法在语音输入方面表现出色。它采用了领先的语音识别技术,能够准确地将用户的语音转化为文字输入,并且…查看详情

收款语音播报软件有哪些比较好的牌子推荐?

一般商店的老板都会使用远程收款语音播报器,这种收款语音播报器可以支持无需手机蓝牙链接,允许手机完全离开,也可以支持收款语音播报。那么这种收款语音播报软件有哪些比较好的牌子推荐呢? 1.云喇叭 云喇叭同时支持微信和支付宝付款,支持两种联网方式…查看详情

怎样才能保证选择到比较好的网站建设公司?

移动5G时代,越来越多的企业都想通过互联网获得流量,占据网络市场。但很多时候是有无所事从,原因就在于他们不知道该如何去建立一个属于自己的门户网站。那么就中小企业而言,该如何进行企业网站建设呢?怎样才能选到比较好的网站建设公司?接下来就让我们…查看详情

工程施工管理软件是什么?工程施工管理软件怎么选

现在随着科技的不断发展给我们建筑行业带来了十分大的便利,工程施工管理软件作为其中之一,通过对它的使用可以使得双方进行工程监督在开始建设前就有一个大致的成本估计,方便了工程施工。工程施工管理软件哪个好?来看看这篇文章有解答。工程施工管理软件是…查看详情

服装类商标如何注册 服装类商标注册技巧

现在商标也分为很多的行业和类别,而且不同的类别商标注册的细节也有一定的差别,下面万商云集小编给大家来详细介绍一下服装类商标如何注册 服装类商标注册技巧这一块的内容,希望大家通过下面的内容能对服装类商标注册有一个新的认识。  服装类商标如何注…查看详情

服装店商家不离手的服装进销存管理软件,快来看看

很多的制衣厂或者经营服装的企业都需要服装货品管理软件,从而更好地管理自己的库存,提高资金的周转率等,从而给企业带来更大的效益,以下是我给大家推荐的服装货品管理软件,希望对大家有所帮助。 1、商陆花 它的管理系统覆盖面比较广,…查看详情

音频剪辑软件app哪个好?这几款比较实用

现在是观看视频的时代,很多人也特别喜欢拍小视频,拍摄完成之后如果想要带来更理想的视觉感,打造出大片的感觉,那么就应该要对视频进行剪辑与制作,另外在进行音频设计的时候,想要打造成功理想的效果,也应该要找到比较好的软件来使用。那么音…查看详情

最新看小说的软件,最全且免费的排行榜前十

人们的娱乐生活方式逐渐增多,看小说也是其中的一种。文学作品不断出版,每个人都可以找到一款适合自己的看小说软件的。那么就让我来给大家揭晓看小说软件排行榜前十名的应用吧,介绍内容如下:1.七猫免费小说这款app是一款拥有海量免费小说、热门小说、…查看详情

代理商标注册的好处是什么?通过这几点为大家详细梳理

现在的人们在时间方面都比较紧迫,主要源自于快节奏的生活,所以不管是商标的注册,或者是转让方面,通常都会选择由代理机构来帮忙,这样能够将更多的时间用于工作和生活,同时还可以省心一些,毕竟其中所涉及到的专业问题较多,除此之外,也有很多其他的好处…查看详情

7款2022年最好用的eml文件阅读软件推荐

eml文件现已成为了一款受欢迎的格式文件,这期小编给大伙儿讲解这款eml文件阅读软件,希望可以帮助到在工作上碰到这类文档不会打开的用户,能给这类用户提供许多帮助。 1.eml文件阅读软件中文版 是一款极为简单好用的浏览eml…查看详情

餐饮店装潢流程有哪些?有什么注意事项?

随着经济的飞速发展,人们生活水平的提高,越来越多的人开始让自己不仅吃的饱,还要吃的好,于是会隔三差五的和家人朋友到外面的餐饮店就餐。很多人看准时机,也加入到餐饮行业,相信在刚着手门店装潢的时候大家会有疑问:餐饮店装潢流程有哪些?有什么注意事…查看详情

win7系统纯净版好用吗

Windows7纯净版是指经过精简和优化的Windows7操作系统版本,以提供更高的性能和稳定性。以下是关于Windows7纯净版的一些观点和考虑因素: 1.性能和稳定性:Windows7纯净版通常会去除不必要的预装软件、驱动程序和服务,以…查看详情

中文乱码的产生原因 中文乱码出现的原因

  相信大家在很多的场合都遇到了乱码的现象,其实这个是很常见的现象,但是很多的朋友都不是很熟悉,下面小编就给大家来详细介绍一下中文乱码的产生原因 中文乱码出线的原因这一块的内容,希望能帮助到大家。  什么是乱码  乱码,指的是由于本地计…查看详情

gif制作软件有哪些?好用的gif制作软件推荐

很多人在保存图片的时候格式是不一样的,gif格式就是比较常见的,如果想要利用这个格式的图片进行制作,那么就应该要找到一些比较好的软件,这样才能够帮助自己打造出理想的效果。那么gif制作软件有哪些?接下来就给大家推荐这款比较好用的…查看详情

最新文章