解析Facebook的大数据处理架构及应用的软件
2020-12-31 13:56:39 阅读(179) 评论(0)
Facebook大数据技术架构的演进路线 Facebook一直是大数据技术中最活跃的应用程序,因为它拥有巨大的数据量。数据显示,2011年压缩数据为25PB,未压缩数据为150PB,每天产生的未压缩新数据为400TB。大数据技术广泛应用于广告、新闻源、新闻/聊天、搜索、网站安全、具体分析、报告等领域。Facebook也是Apache大数据开源项目的最大贡献者之一。Facebook于2007年左右正式转向Hadoop计算框架,随后向Apache基金会贡献了著名的Hive、ZooKeeper、Scribe、目前,Facebook的开源过程仍在积极推进,如cassandra。Facebook大数据技术架构经历了三个演变阶段。 基于Hadoop的Facebook早期大数据技术架构、HBase、Hive、基于Scribe等开源工具。日志数据流由HTTP服务器生成,通过日志收集系统Scribe传输到共享和存储NFS文件系统,然后通过小时Copier/Loader(即Mapreduce作业)将数据文件上传到Hadop。数据摘要是基于HiveSQL语言的日常流水操作,结果将定期更新到前端Mysql服务器,以便通过OLTP工具生成报告。Hadoop集群节点有3000个,可以很好地解决可扩展性和容错性问题,但早期系统的主要问题是整体处理延迟较大,从日志生成开始~2天后才能得到最终报告。 Facebook目前的大数据技术架构在早期架构的基础上优化了数据传输通道和数据处理系统,如图所示,主要分为分布式日志系统Scribe、HDFS和HBase分布式存储系统、分布式计算和分析系统(MapReduce、Puma和Hive)等。Scribe日志系统用于收集大量HTTP服务器的日志数据。Thrift是Facebook提供的跨语言服务开发的软件框架、Java、PHP、在Python和Ruby之间实现无缝支持。使用ThriftRPC调用Scribe日志收集服务进行日志数据汇总。ScribePolicy是将元数据传输给Scribe客户端和ScribeHDFS的日志流量和模型管理节点,收集的日志数据存储在ScribeHDFS中。Facebook将早期系统优化的数据通道称为DataFreway,可以处理峰值9GB/s的数据,端到端延迟在10s以内,支持2500多种日志类型。DataFreeway主要包括四个组件,Scribe、Calligraphus、ContinuscopierPTail。Scribe用于客户端,负责通过ThriftRPC发送数据;Calligraphus在中间层整理数据并写入HDFS。它提供日志类型的管理,辅助Zookeper;ContinusCopier将文件从一个HDFS复制到另一个HDFS;多个HDFS上的PTail并行tail目录,并将文件数据写入标准输出。在目前的体系结构中,一些数据处理仍然通过MapReduce批量处理,存储在中央的HDFS每天通过Hive进行分析和处理。在目前的架构中,一些数据处理仍然通过Mapreduce进行小时处理,存储在中央HDFS中,每天通过Hive进行分析和处理。另一部分接近实时的数据流通过Puma进行分钟处理。Facebook为特殊分析提供Peregrine(Hipal)分析提供Nocron工具的工具和周期性分析。 Facebook未来大数据技术架构的雏形已经出来。首先开源的是Corona,Corona可以取代Hadoop系统中的Mapreduce,类似于Yahoo提出的YARN。Corona最大的进步之一是它的集群管理器是基于CPU的、内存和其他操作处理所需资源的管理可以使Corona不仅可以处理Mapreduce操作,还可以处理非Mapreduce操作,使Hadoop集群的应用领域更加广泛。第二个是Facebook最新的交互式大数据查询系统Presto,类似于Cloudera的Impala和Hortonworks的Stinger,解决了Facebook快速膨胀的海量数据仓库快速查询需求。Facebook表示,使用Presto进行简单的查询只需几百毫秒,即使是非常复杂的查询,也只需几分钟就可以完成,它在内存中运行,不会写入磁盘。三是Wormhole流计算系统,类似于Twiitter的Storm和Yahoo的Storm。-YARN。第四个重要项目是Prism,它可以运行一个超大的Hadoop集群,可以连接全球数据中心,并在数据中心停止时立即重新分布数据,这类似于谷歌的Spanner。 Facebook的大数据技术架构演变路径代表了大数据技术的发展路线。值得称道的是,开源是Facebook的一贯路线,与Yahoo等公司一起为大数据技术的发展做出了巨大贡献。Facebook使用的软件在某些方面仍然是LAMP网站,但Facebook已经做出了必要的改变、扩展和修改,以配合大量其他组件和服务。例如,Facebook仍然使用PHP,但Facebook已经重建了一个新的编译器,以满足在其Web服务器上加载本地代码的需要,从而提高性能;Facebook使用Linux系统,但为了自己的目的,也进行了必要的优化。(尤其是网络吞吐量);Facebook使用MySQL,但也优化了。还有定制的系统,比如,Haystack—存储高度可扩展的对象,用于处理Facebook的巨大图片;Scribe—Facebook日志系统。以下是Facebook在世界上最大的社交网站上使用的软件。MemcachedMemcached是一款相当有名的软件。它是一种分布式内存缓存系统。Facebook作为Web服务器和MySQL服务器之间的缓存层,也有大量的网站。多年来,Facebook在Memcached及其相关软件(如网络栈)上做了大量的优化工作。Facebook运行成千上万的Memcached服务器,借用并及时处理TB级缓存数据。Facebook拥有世界上最大的Memcached设备。与本地服务器上的代码相比,HiphopforPHP的运行速度相对较慢。PHPHop将PHP代码转换为CHP代码 编译时代码,提高性能。由于Facebook非常依赖PHP来处理信息,有了HipHop,Facebook在Web服务器方面更是如虎添翼。HipHop诞生过程:在Facebook中,一组工程师(最初是3位)花了18个月的时间研发而成。HaystackHaystack是Facebook高性能图像存储/检索系统。(严格来说,Haystack是一个对象存储,所以它不需要存储图片。)Haystack的工作量超大。Facebook上有200多亿张图片,每张图片保存在四种不同的分辨率,因此Facebook上有800多亿张图片。Haystack的作用不仅仅是处理大量图片,它的性能也是亮点。正如我们前面提到的,Facebook每秒处理大约120万张图片,不包括其CDN处理的图片数量。这是一个惊人的数据!!!BigPipeBigPipe是Facebook开发的动态网页处理系统。Facebook为了达到最佳,用它来处理每个网页的块(也称为“”Pagelets”)。例如,聊天窗口是独立检索的,新闻源也是独立检索的。这些Pagelets可以并发检索,性能也可以提高。这样,即使网站的某一部分停用或崩溃,用户仍然可以使用。CassandraCassandra是一种无单点故障的分布式存储系统。它是前NoSQL运动的成员之一,现已开源(已加入Apache工程)。Facebook用于邮箱搜索。除Facebook外,Cassandra还适用于许多其他服务,如Digg。ScribeScribe是一个灵活的日志系统,Facebook用于各种内部用途。Scribe用途:处理Facebook级别日志,一旦生成新的日志分类,Scribe将自动处理。(Facebook有上百个日志分类)。HadoopandHiveHadop是一个开源Map/Reduce框架,可以轻松处理大量数据。Facebook用于数据分析。(前面说过,Facebook的数据量是超海量的。)Hive起源于Facebook,Hive可以使用SQL查询,使非程序员更容易使用Hadoop。(注1:Hive是一种基于Hadoop的数据仓库工具,可以将结构化的数据文件映射成数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为Mapreduce任务。)VarnishVarnish是一种负载均衡的HTTP加速器,也用于缓存内容的快速处理。Facebook用Varnish处理图片和用户照片,每天处理10亿级请求。和Facebook的其他应用一样,Varnish也是开源的。Facebook可以顺利运行,这也有利于其他方面。虽然上面提到了一些构成Facebook系统的软件,但处理如此庞大的系统本身就是一项复杂的任务。因此,下面还将列出一些能够使Facebook顺利运行的东西。虽然这里不能深入硬件,但硬件绝对是Facebook达到前所未有规模的重要因素。例如,像其他大型网站一样,Facebook也使用CDN来处理静态内容。Facebook还在美国西部的俄勒冈州建立了一个大型数据中心,可以随时添加服务器。当然,除了前面提到的,还有很多其他的软件没有提到。但是,希望能突出其中非常有特色的。
推荐阅读
- 怎么查询商标是否被注册?
企业规划使用的品牌或者已经投入使用的品牌,如何知道他们能不能注册,怎么查询商标是否被注册?一起从下面几个方面入手了解一下。 图片来源于网络一、确定需要使用的商标名称 首先要确定企业使用的商标名字,最好再多想几个备用的名字(现在商标申请量大,…查看详情
- efi系统分区有什么用
EFI(Exte1ibleFirmwareInterface)系统分区是计算机硬盘上的一小块空间,用于存储引导和固件配置信息。EFI系统分区:简化引导和提供固件配置 在现代计算机系统中,EFI系统分区起着至关重要的作用。它不仅简化了操作系统…查看详情
- Excel Mid函数的使用方法
Excel中MID函数的使用?这里我们讲一讲Excel中MID函数的使用方法。 1、Mid函数有三个参数,第一个是字符串或者所在单元格;第二个参数是提取开始的位数;第三个参数是提取的字符长度,如下图所示: 2、下拉填充,得到结果下图…查看详情
- 数组公式怎么下拉填充
excel函数vlookup怎么解决引用两列数据?公式一:=index(sheet2!c:c,match($a2&$b2,sheet2!$a$1:$a$1000&sheet2!$b$1:$b$1000,))数组公式,按CTRL+SHIFT+…查看详情
- 淘宝如何刷钻?刷钻的方法有哪些?
淘宝最安全的秒钻方法?快速提钻目前太好的办法不是很多 1.选择产品做一下基础,然后低价跑一下销量出一下评价 2.做一下产品的基础评价,跑淘客走销量 3.快速秒钻出来信誉等级 4.做AB单快速提高销量提高信誉 以…查看详情
- 学校收费管理系统哪个好用?
近年来网络技术越来越发达,微信支付宝等支付方式蜂拥而出,各地都与时俱进,用上了互联网技术,学校也不列外。学校收费管理系统是专为学校定制的综合性管理系统,它里面包含系统权限管理,学生档案管理,应缴费用管理等多种功能。那么学校收费管理系统哪个好…查看详情
- 3d建模软件有哪些 免费好用的3d建模软件排行榜
3d建模软件在很多的场合都是很实用的,而且有很多的设计都是需要用到的,下面小编就给大家来详细介绍一下3d建模软件有哪些 免费好用的3d建模软件排行榜这一块的内容,希望能帮助到大家。 3d建模软件有哪些 1、《3D看图》 软件拥…查看详情
- 游戏主播们都在用的,七大免费又好用的变声器软件
你是否还在因为打游戏时不敢开麦而困扰?你是否还在因为自己声音不好听而不敢发语音和别人打电话?别担心,今天我将会给大家盘点七大免费又好用的变声器软件,保证真实好用,让你不在为自己的声音而烦恼。1.魔豆变声器魔豆变声器App是一款非常实用的能免…查看详情
- 聚划算首页(聚划算活动报名条件)鱼爪网
双11聚划算是什么意思?双十一巨划算的意思是在双十一活动这个阶段购买。物品是非常的划算的,因为双十一是一个商家的大促活动,在这个时间段买东西都很便宜。双11聚划算是什么意思?双11聚划算是在11月11号之前,尤其是在10月11号这一天,在京…查看详情
- 中小企业跨境电商平台怎么做
经济全球化的不断完善与电子商务的急速扩张,催生了当下热门的电商新选择跨境电商。市场需求度很高,同时兼具可观的经济效益,有很好的发展前景。那么就中小企业来说的话,跨境电商平台怎么做呢?图片来源于网络◆ 1、区分跨境贸易与跨境电商中小企业跨境电…查看详情
- 获取域名证书的方法
一、什么是域名证书 域名证书,是指数字证书,一种用于保护用户数据通信安全的网络安全协议,用于建立安全的HTTPS连接时,用以验证网站身份。该证书包含网站的域名和公钥,以及_https或_ssl连接时用的数字签名,保证用户访问的网站是可…查看详情
- 电商怎么做新手入门,这些方法必须掌握
随着互联网的发展,电子商务已成为一个热门的话题。电子商务是一种通过互联网进行商业活动的方式,涵盖了各种商业活动,例如销售产品,提供服务,建立关系等。电子商务对企业来说是一个非常重要的工具,在很大程度上可以提高企业的市场份额和利润,因此越…查看详情
- 专利工作的地域性规定内容 专利工作的地域性规定是什么
在平时很多的小伙伴都不知道专利工作的地域性规定是什么的基本情况,而且对专利工作的地域性规定是什么都不是很熟悉,下面万商云集小编就为大家整理了专利工作的地域性规定是什么这方面的相关内容,希望下面的内容能帮助到各位。 专利工作的地域性规…查看详情
- 计算机软件著作权申请登记 保护软件50年
国家著作权行政管理部门鼓励著作权人进行计算机软件著作权登记,并对已登记的软件给予保护。计算机软件著作权申请登记获得的软件著作权登记证书是对登记事项的初步证明,可以帮助持有者在诉讼中起到减轻举证责任的作用。根据国务院颁发的《鼓励软件产业和集成…查看详情
- 2022年市面火热的资产管理系统软件排行榜
到目前为止,很多公司企业或是单位都逐渐意识到资产管理的关键,市面也显现了更多的资产管理软件,但都不知道二者的性价此是否是高,下列是我们梳理出市面上高性价比的七款资产管理系统aPP!1.资产管理专家是一款金融理财应用,是个功能完善的会计常用工…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP

企业首选的数字选用平台






