分析百度开放云分布式计算平台对大数据的处理
2020-12-31 10:12:21 阅读(169) 评论(0)
百度开放云总经理刘洋认为,当今世界正面临着技术突破带来的全行业升级。在这场商业剧变中,背后有三个重要的问题「重新定义」:首先,重新定义云计算「IT」。它改变了企业所需的IT资源的所有权和供应模式。基于互联网资源管理平台,传统企业的IT模式完全改变,为新的商业创新提供了可能性;第二,大数据被重新定义「资产」,与以往的重资产相比,企业在经营中不断生成的数据将成为企业未来继续生存和保持竞争力的砝码;第三,人工智能被重新定义「效率」,传统计算机通过语音、图像、视频、自然语言识别和智能处理等技术,具有更强的能力,大大提高了工作效率。基于以上三个重新定义,百度开放云的重新堆栈也分为云计算层、大数据应用层和人工智能层三层。基于以上三个重新定义,百度开放云的重新堆栈也分为三层:云计算层、大数据应用层和人工智能层。处理大数据只有四个步骤:收集:原始数据类型、格式、位置、存储、及时性等。从异构数据源中收集数据,并将数据转换为相应的格式,便于处理。存储:根据成本、格式、查询、业务逻辑等需要,收集到的数据需要存储在适当的存储中,以便进一步分析。变形:原始数据需要变形和增强才能适合分析,如网页日志用省市取代IP地址、传感器数据纠错、用户行为统计等。分析:whathapened通过整理的数据分析、whyithappened、whatishapeningwhatwillhappen,帮助企业做出决策。事实上,如果涉及到“大数据”,我们必须提到百度最大的业务搜索。百度搜索已经收录了世界上一万多亿的网页,每天响应中国网民几十亿次的要求。此外,百度还有20多个用户超过1亿的产品线,每个产品底部的大规模数据处理都需要使用百度团队维护的大数据处理平台。百度分布式计算平台:Mapreduce首先介绍了离线引擎优化的主要离线计算模型——MapReduce,自2007年以来,百度引进了Hadoop0.15.1,随后发展迅速,2011年百度MR单集群达到5000台,到2013年已达到1.3万台,这也是迄今为止世界上最大的单集群。Hadoop全集群规模为10万量级,运营量达到100万量级,日均CPU利用率超过80%,远远超过行业同行。百度开云(http://cloud.baidu.com)世界领先的大规模集群调度、资源隔离等技术能力。百度在Hadoop性能分析方面除了不断扩大规模外,还进行了大量优化。根据2013年的测试结果,百度内部MR的性能比开源Hadop提高了30%。典型的优化,如Hadoop中的Shufle,百度将其制作成统一的Shufle服务,不再占用Map或Reduce槽。例如,SSE向量化用于关键热点函数。2014年,百度继续对计算引擎进行大幅优化,NativeC DAG引擎正式上线。下图是4轮MRJob实现的典型业务流示例。DAG引擎上线后,可以优化为DAG操作,避免磁盘IO和网络IO引入三个Reduce写多个副本,避免两个Map读HDFSIO和处理成本。下图是SQL计算表示层翻译的真实业务。基于MR引擎,SQL将翻译成25个MRJOB。如果百度优化为DAG,可以避免多次磁盘IO操作。优化后,运行时间直接缩短到1小时,优化前后的差异非常明显。2014年,百度对Shuffle进行了重大重构。实习生完成的Demo以Baidusort的名义参加了2014年SortBenchmark大数据排名国际大赛,并获得冠军(百度2015年不再参加,其他国内公司通过同样的技术通过更大的集群刷新记录)。新的Shuffle技术于2015年全面推出。基于磁盘Pull模式的Hadoop默认Shufle实现了计算过程显式、Shuffle、Reduce过程;Baidu开发的新Shufle采用内存流Push模式,Map端完成部分记录处理后,直接将计算结果从内存推到下游。例如,Map处理256MB输入数据,在内存流Shufle模式下,处理100条记录后,通过内存直接推到下游,形成流水线处理。不再有显式的Shufle阶段。目前,Shuffle组件是通用组件,正在逐步推广到其他分布式计算平台。百度分布式计算平台:在系统架构演变之前,我们重点介绍了百度开放云BMR服务中涉及的规模和性能优化思路和效果。接下来,让我们与您分享百度在整体架构中遇到的挑战和优化思路。在2012年的系统架构中,主要有两个离线计算平台,主要是Mapreduce模型BMR,主要是MPI/BSP模型BML。从下面可以看出,Mapreduce和MPI模型的底层硬件差别很大。Hadoop分布式文件系统的多副本和强大的故障处理机制使Raid卡完全不必要。非常适合使用多个超大容量SATA硬盘。MPI差别很大,MPI是一个消息传输框架,在设计之初就没有考虑过多的异常处理,所以对底层系统的可靠性要求很高。百度采用了非常高配置的服务器,如带Raid卡的Sas硬盘、超大内存、万兆互联等。BMRHadoop由大量SATA硬盘服务器组成,存储系统为HDFS,百度在资源调度层面有自主研发的ARK调度器(类似于社区Yarn)。在BML大规模机器学习平台上,支持的业务样本超过数百亿计量级,特征规模远超过100亿。在操作机器学习时,百度需要先启动Mapreduce,然后将数据从HDFS分发到每个MPI节点,这对网络带宽有很高的要求。虽然系统部门的同事不断改进内网带宽,但BML平台层面也在思考如何解决跨MR和MPI集群之间日益严重的网络带宽问题。另一个需求是:MPI是一个事务调度模型。例如,一个业务需要200台机器。如果此时平台只有199台机器是免费的,实际上很难使用(除非修改提交参数,但输入数据重新分块处理更为复杂)。此外,MPI计算通常分为计算、传输、计算等阶段(即BSP模型),因此资源利用波动较大,如CPU计算阶段、网络空闲、网络传输或全球同步阶段、CPU空闲。为了解决这个问题,百度将IDLE计算引入MPI集群,IDLE业务资源占用完全可控。Mapreduce等典型IDLE任务将进一步加剧MR集群和MPI集群之间的网络带宽问题。基于以上考虑,百度正式用高配置存储服务器替换MPI底层硬件,硬盘同构,文件系统采用HDFS,BML算法通过HDFS输入输出,不再是本地文件系统。BML机器学习执行发动机水平,百度基于MPI包装DVCE(DistributedVectorComputingEngine)分布式向量计算引擎屏蔽了MPI过低的编程接口,并通过高层抽象自动将其翻译成MPI任务。这是百度第二代专门为“并行计算”开发的系统框架。2014年,BML机器学习执行引擎迁移到ELF第三代并行计算框架。ELF采用Parameterserver架构,大大降低了机器学习算法的开发成本。与百度第二代框架DVCE相比,开发效率大大提高。在离线计算方面,NativeC已经完成 DAG引擎上线,百度内部叫DCE。(DistributedComputingEngine)。2014年,BMR和BML底层采用Matrix完成资源分配和隔离。基于业务需求的特殊性,其他平台,如小批量计算系统Taskmanager和毫秒计算延迟Dstream系统,采用独立的资源隔离和调度系统。2015年的架构改进主要是将所有计算模型迁移到Matrix Normandy架构。Normandy与社区Yarn调度接口兼容,开源社区新兴计算平台可以轻松访问百度的计算生态。百度已经介绍了百度大数据分析和挖掘平台的主要底层引擎和架构。接下来,让我们谈谈最新的想法。系统底层是IDC硬件,然后是Matrix,然后是Normandy,然后是几个主要引擎。介绍了硬件、调度、存储等底层结构的统一。事实上,每个系统的外部结果都有自己的界面。如果你想使用MR,许多人写MR程序是直接调用Hadoop本地界面,并配置多个参数。一些业务还需要流动系统来完成日志清洁,在Mapreduce模型批预处理后,然后通过ELF完成机器学习模型培训,最后通过Mapreduce模型完成模型评估,可以看出业务需要跨越多个模型,需要业务线学生熟悉许多模型和平台,每个模型都有自己的特点和接口。只有充分了解模型的细节和接口,才能真正充分利用模型。于是百度正式立项BigFlow项目(原项目名DataFlow,图片未来及修改),屏蔽了模型的细节。平台自动决定选择合适的并发度,甚至智能选择该翻译成哪个计算模型。BigFlow可以支持多个不同的计算引擎(每个引擎在其合适的领域达到极致),充分发挥每个引擎的性能和功能。因此,用户可以使用相同的接口对应不同的任务。由于采用高层抽象,业务开发效率大大提高,代码量大大降低,维护成本大大降低。BigFlow集成是一种常见的优化方法,因此平台的有效资源占用将大大提高。百度开放云-大数据 智能最后,简要介绍百度开放云。2014年,百度正式决定正式提供服务内部业务多年的云计算技术,即百度开放云,对应官方网站http://cloud.baidu.com。在百度开放云大数据方面,BMR已经对外开放,而更多的大数据分析和服务尚未对外开放。BMR集群可以按需部署,用户专属。更重要的是,Hadop/Spark平台与开源完全兼容,基于Hadoop开放云客户、Spark、Hbase等已实现的大数据业务几乎可以顺利迁移到云上,无需修改。Palo,多维分析服务,与MySQL网络协议完全兼容,因此,客户朋友熟悉的MysqlClient工具都可以使用。同时,Palo支持JDBC、如果现有程序使用JDBC的ODBC编程接口、ODBC,那么迁移成本几乎为零。最后,我们可以看到它与行业主流BI工具商业分析工具对接,如Tableau、Saiku、BIEE、R。最终介绍了机器学习云服务BML,BML中提供的深度学习技术,曾获得2014年百度最高奖项。BML提供端到端解决方案,其算法多年来一直为百度内部业务服务,如网页搜索、百度推广(凤凰巢、网络联盟CTR估计等)、百度地图、百度翻译等。使用开放云BMR和BML、Palo等,可立即、直接享受与百度搜索同等质量的大数据分析与挖掘服务!
推荐阅读
- 网络订货系统:3大功能、4大好处,尽早使用
在网络发展如此迅速的现在,很多事物都离不开网络了,现实和网络相结合使我们的生活中增添了非常多的便利,在买卖东西、采购等方面,再常见不过了,网络订货系统已经用于非常多的行业领域,下面就和大家介绍下网络订货系统的好处吧。图片来源于网络 网络订货…查看详情
- 致力协同办公oa系统并列的软件排行有哪些?
随着经济的发展,在当今社会,像致力协同办公oa系统这种数字化软件逐渐走进了人们的视野,它为办公行业的发展打造了一个数字化的平台,我们应该怎样进行选择呢?今天我们就来了解一下致力协同办公oa系统的并列软件排行有哪些。 1、蓝凌oa办公系统 蓝…查看详情
- 租房用哪个app比较靠谱?租房子app哪个好?
对于一名打工人来说,租到一个好房子不仅可以省钱省时还能提升生活质量,现在市面上租房的APP有很多,但租房用哪个app比较靠谱呢?小编结合自己和身边朋友的一些感受为各位梳理了5款比较好的租房子app,供各位参考。 第一款:安居客APP安居客是…查看详情
- 各种规模的企业都应该使用erp软件
我们曾经遇到过这样的问题,有一个小厂的总经理,他很喜欢erp,也想让企业使用erp软件,但是工厂的客户都是比较固定的几个客户,产品也不多,物料种类也少,公司的供应商也是比较稳定的计价,经营情况一直都比较稳定,仿佛一切都是按部就班,因为简单所…查看详情
- 个人知识产权的保护和维权问题浅析
互联网发展让知识产权的概念被更多的人知晓,版权侵犯、专利纠纷和商标抢注等各类知识产权的侵权与维权,让知识产权在企业组织之外的个人越加关注。不少人对个人知识产权保护和个人知识产权维权的问题展开讨论,本文也就个人知识产权维护和维权问题进行简单的…查看详情
- 设备管理软件有哪些?这些软件值得推荐
设备管理软件是在日常企业管理当中比较常用的一些软件,主要是针对企业管理能够带来很好的效果,而且还能够提供设备维护的效率,能够保证设备的使用率,但是在选择的时候也应该要找到一些好的软件来使用,那么设备管理软件有哪些呢?接下来就给大…查看详情
- 还在为没有客户而烦恼吗?这些影响用户增长的因素一定注意
用户增长是每个运营专员都头疼的问题,尤其是在网上流量很难获得的时候。用户增长是从增长和用户两个方面获得更多的流量来理解和使用我们的产品,最终实现购买利润的目的。下面给大家分享七个影响用户增长的因素。(1)供给考察市场,了解市场空白,为市场创…查看详情
- 什么样的电商商城系统才是好系统?
在互联网的大发展趋势下,很多传统企业都蓄势待发准备转型电商。但是,中小型企业在面临众多电商商城系统时却不知如何选择,因为他们对实际的电商商城系统还比较陌生,而要去选择一个好的电商商城系统更是心里没谱。今天我们就一起来看看什么是电商商城系统,…查看详情
- 2021会员积分管理系统免费版排行
各种软件在科技的发展下逐渐被开发应用,软件中的会员给用户带来了非常多的权益和更好的用户体验。为了更好的管理会员积分,会员积分管理系统也应运而生。我找了几款免费的会员积分系统,整理2021会员积分管理系统免费版排行。 1.智络软件会员积分管理…查看详情
- 小型车辆管理系统(车辆管理系统包括哪些)
说道车辆管理系统,在现在的社会中机会都会开车出门,随着时间的增加,车辆增加的越来越多,那么应该怎么去操控自己的车辆或者是群体的车辆呢,今天我们就来盘点一下车辆管理系统都有哪些。1、伊特车辆管理软件这款软件是面向企事业单位所使用,其中包括车的…查看详情
- 开发新客户的十大渠道
开发新客户是企业业务发展的一个重要的环节。对于企业而言,拥有更多的客户,意味着更广阔的市场,更多的销售机会和更好的业绩增长。这里,我们将介绍十种开发新客户的渠道。 1.口碑营销 口碑营销是企业获得新客户的有效途径之一。在现代社会,口…查看详情
- 电热水器有哪些品牌 2022电热水器排名
在平时的生活中很多人都经常用到电热水器,毕竟也算是使用很频繁的一种家电设备,下面万商云集小编给大家来详细介绍一下电热水器有哪些品牌 2022电热水器排名这一块的内容,希望能帮助到大家。 1、海尔Haier 家用电器领头羊海尔在电热水器…查看详情
- 电商搜索系统丨强需求用户使用的高频功能
电商搜索系统是电商平台一个比较重要的功能,毕竟在任何一个电商平台搜索都是核心功能,使用频率非常高。在这个信息爆炸的时代,想要在海量的产品中迅速筛选出自己需要的信息和商品是非常难的,搜索系统是实现精确检索的关键。图片来源于网络搜索系统主要是运…查看详情
- 亚马逊卖的都是正品吗?产品如何判断真伪?
优质答案(1) 欧舒丹验证是否是真品从原包装和瓶体的条形码,瓶体的质感,钢印,瓶体贴标字迹这四个方面辨别。 一,看原包装和瓶体的条形码:欧舒丹每一瓶都有FBA亚马逊物流仓储的原包装和外包装,并且原包装和瓶身都可以扫码直接进欧舒丹官网…查看详情
- 2021有哪些简单好用的手机上考勤的软件?
如今,传统考勤软件问题凸显,现已被更具灵活性的手机考勤软件所代替,随着协同办公系统升级,考勤迈入了移动新时代,手机考勤软件逐渐上线,那么2021年有哪些简单好用的手机上考勤的软件呢? 1. 钉钉手机考勤软件阿里巴巴出品的一款使用率极高的手机…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP

企业首选的数字选用平台






