服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

详细介绍eBay的Hadoop集群应用及大数据管理

2021-01-04 14:52:30 阅读(193 评论(0)

eBay,1995年劳动节周末,世界上最大的在线交易平台由程序员PierreOmidyar在美国成立。它最初被称为AuctionWeb,并于1997年7月正式更名为eBay。它将于今年9月庆祝其20周年。eBay的第一笔交易是一支损坏的激光笔,成交价格为14.83美元。pierre主动联系买家,以确保他们知道这是一支损坏的激光笔,买家回答说“我是一个损坏的激光笔收藏家”。从那时起,eBay20年的发展正式开始,引领了电子商务行业的快速增长。如今,eBay已成为世界上最大的在线交易网站。买家分布在世界190多个国家,活跃卖家2500多万,活跃买家1.57亿,活跃商品8亿,通过connectedcommerce连接世界各地的买家和买家,2014年GMV产量超过2550亿美元,其中来自移动终端的GMV超过280亿美元。据统计,美国每五秒钟卖一个手袋,澳大利亚每分钟通过移动终端卖一双鞋,德国每10分钟通过移动终端卖一辆车或卡车。据统计,在美国每五秒钟卖一个手袋,在澳大利亚每分钟通过移动终端卖一双鞋,在德国每10分钟通过移动终端卖一辆汽车或卡车。在如此大量的用户和交易下,数据已经成为ebay的首要任务,从点击流到搜索、商品查看、交易和愿望清单。在eBay数据平台中存储超过100个PB的数据。关键是如何获取、存储、处理和分析数据,并释放数据的价值,使其成为行动指南。然而,各大数据平台为成千上万的分析师和业务用户提供了坚实的保障和基础,并不断创新,以满足日新月异的变化和需求。EBAY目前的大数据平台分为三层,数据集成层:负责数据采集、处理和清洁,包括批处理和实时处理能力,包括相关商业产品和开源产品;数据平台层:主要由传统数据仓库组成(EDW),基于Teradata集群,总容量超过10PB;奇点(Singularity),存储半结构化和深层次结构化数据存储,总容量超过36PB;以及Hadoop集群,总容量超过100PB;数据访问层:业务用户和分析师通过各种工具访问和分析相关数据的能力,包括各种商业工具、开源产品和自主研发的各种平台。本文将重点介绍EBay在相关领域的发展、平台和未来发展趋势。本文将重点介绍ebay在相关领域的发展、平台和未来发展趋势。conectwithhadop1.EBay最早的Hadop应用是在EBay研究实验室(eBayResearchLab,eRL)为了提高日常日志处理速度,主要用于日志分析。最初的版本是0.18.2,4个节点,存储和处理约数百GB的日志,最大的处理能力是44个Map。随后,EBay搜索团队建立了10个节点的集群,开始了Hadoop在EBay搜索领域的发展,并于2012年推出了基于HBase的搜索平台:Cassini。2010年,EBay推出了基于CDH2的集群,节点532个,存储容量5PB以上,2012年推出了基于HDP的集群,节点3000多个,容量50PB以上。2014年,总节点数据超过1万,存储容量超过170PB,活跃用户超过2000。目前,相关规模仍在增长。随之而来的管理、监控、分析和存储挑战越来越严峻。基础设施的创新主导了Hadoop的演变,从基于HDFS和Mapreduce的批处理应用不断演变,第一代Hadoop提供了灵活可扩展的数据结构和处理能力,满足了公司在大数据兴起时的各种大小数据处理需求。然而,毕竟,这只是第一步,有各种各样的限制。如果将其与操作系统进行比较,第一代Hadoop,如操作系统和应用程序,如记事本,只有一个应用程序,即Mapreduce。然而,随之而来的大量任务导致了调度瓶颈,从而导致YARN(YetAnotherResourceNegotiator)项目的建立和发展解决了Jobtracker在超大规模集中中成为瓶颈的问题,并通过YARN支持各种应用程序进行资源调度和管理,从而将Hadoop带入下一个时代,从面向批处理到提供交互式处理能力,下一代Hadoop取得了巨大的进步。并提供了支持独立执行模式的战略决策,例如,Mapreduce可以作为YARN上的应用程序运行。例如,MapReduce可以作为YARN上的一个应用程序运行,提供支持独立执行模式的战略决策。此后,Hadoop通过YARN成为一个真正的数据操作系统。目前,交易数据库、文档数据库和图形数据库的数据可以存储在Hadoop上,可以访问基于YARN的数据,包括Mapreduce,而无需复制或移动不同应用程序的数据、Hive、各种应用,如HBase和Spark。从而提供了丰富的数据处理和创新能力。一个统一的数据存储,平台的使用将是一个确定的趋势。2.目前,分层存储的普遍认知是利用廉价硬件形成Hadoop集群,存储超大容量数据并提供计算能力。例如,如果一个1000节点的集群具有20TB的存储能力,整个集群可以存储20PB的数据。为了实现Hadoop,所有机器都有足够的计算能力:“MovingComputationisCheaperthanMovingData”。不同类型的数据集通常存储在同一个集群中,并由不同的团队共享,以满足业务需求。随着时间的推移,数据的利用率会逐渐降低,越新的数据利用率越高,越旧的数据访问次数也会逐渐降低。第一次生成的数据利用率最高。我们将其定义为Hot。根据我们的分析,一周内访问量下降的数据称为Warm,而在接下来的三个月内只有少量访问的数据称为Cold。最后,访问率降低到每年只有几次甚至零的数据集,称为frozen,如下表所示:分析,在同一集群中存储不同热量的数据,使用相同的计算和存储资源变得越来越有问题,随着时间的增长,越来越多的冷数据,将占据宝贵的存储和计算资源,当需要进入更多的热数据或大量计算时,相应的存储成为瓶颈,许多其他公司甚至提到了删除低价值数据的做法。在管理和运维超大Hadop集群时,如何处理不同热度的数据已经成为一个迫切的需求和现实挑战。如何处理不同热量的数据已成为管理和运维超大型Hadoop集群的迫切需求和实际挑战。将低热量数据集和高热量数据集作为不同的存储策略是必不可少的。在Hadoop2.3中,HDFS支持分层存储,通过在集群中添加归档存储容量,为冷却数据提供深度存储容量,并保持上层应用程序的透明度。由于数据仍在同一集群中,当需要访问相应的冷数据时,仍然可以及时获取。例如,我们可以在上述示例中添加100个节点,每个节点都有200TB存储,但只使用有限的计算资源,因此整个集群的总量将变为40PB(20PB磁盘)+20PB归档)。通过相关的数据策略,将不同热度的数据分布到不同的存储中。例如,假设每个数据默认按Hadoop设置复制三份,Hot数据将三份数据全部存储在快速磁盘上,Warm类型数据只存储一份复制在快速磁盘上,其余两份存储在归档存储中,并存储所有Cold和Frozen数据。为了有效地分配不同的数据,如下图所示:分层存储已用于eBay最大的Hadoop集群,该集群有40PB存储,我们增加了额外的10PB存储,每个节点都有220TB容量,因此Warm、逐步迁移Cold和Frozen数据集。由于计算能力有限,这些节点的每GB成本是其他节点的4倍左右。EBay将继续在这方面进行研究和投资,如SSD存储。3.当集群数量达到成千上万的规模时,监控、报警和自动化操作和维护是确保高数据可用性和为上层应用程序提供持续服务的基础。在ebay的日常工作中,Hadoop集群的管理和维护任务相当繁重,现有的管理和监控工具无法满足多集群、大规模分布式收集日志和监控数据的需要。因此,ebay开发了一个名为eagle的集群监控报警平台。Eagle主要由不同应用领域的基本核心框架和许多应用组成。它专注于解决大数据时代大型分布式系统本身监控的复杂大数据问题。它具有高可扩展性、高实时性和高可用性的特点。同时,它支持机器学习的使用,为复杂情况提供预测和分析。轻量级分布式流处理框架:以DAG为基础模型抽象一般流处理范式。在开发期间,用户只需要根据DSLAPI定义监控程序的流处理逻辑,然后在运行期间选择实际的物理执行环境,默认支持单流程和Storm,也支持其他执行环境的扩展,如SparkStreaming或Flink。实时流聚合引擎:提供简单易用的实时流聚合规则定义语法,元数据驱动,动态部署,实现线性扩展的实时监控数据流聚合。分布式Policy发动机:分布式实时预警规则执行发动机,提供SQL描述性规则定义语法和机器学习自动扩展,支持动态加载和分区预警规则。存储和查询框架:一般监控数据存储框架,可用于存储和查询日志、指标、报警、事件等类型的数据,默认支持HBase,并对HBase进行各种优化和扩展,如Coproceser、二次索引和分区,也支持RDBMS等其他存储类型的扩展,并提供一般ORM,RESTAPI和强大的SQL查询语法易于使用。可定制监控报表:提供类Notebook的交互式实时可视化分析,还支持部分图标的进一步选择,并将布局定义为dashboard进行共享或持续监控。除了监控日常集群指标外,Eagle还集成了Jobperformanceancealyzer(JPA),通过实时监控Hadoop平台上的运行现状和历史执行状态,提供不同粒度的多维性能分析,支持运行时间长、读写慢、数据倾斜、失败任务比例过高等各种异常预警和性能警告,在操作不能满足SLA之前,可以有效提供预警和性能建议。同时,结合机器学习模型,根据任务分布或指标变化等协同预测任务或服务器节点的潜在异常,集成Remediation系统自动修复系统。同时,EagleDAM是针对异常用户行为和危险操作开发的(DataActivitiesMonitoring)通过自定义策略和机器学习模型,对关键数据和操作进行监控和报警,防止安全监控应用处于萌芽状态。4.在线交互分析当数据规模随着用户群体的多样化扩展而增长时,我们的用户,如分析师和业务部门,希望继续使用他们熟悉的工具和方法来访问和分析超大规模数据集存储在Hadoop上,并希望在Hadoop集群上完成数据访问、处理、存储和分析,无需将数据从一个数据源转移到另一个数据源。EBay中国R&D中心在研究和评估了各种开源和商业产品后,于2013年中正式启动了OLAPonHadop项目,并于2014年10月开源,然后贡献给APache基金会,目前正处于孵化阶段。Apachekylin由建模者定义相关维度、测量等设置,通过映射Hive中星结构的表生成元数据。构建引擎自动生成基于元数据的相关Hive查询、一系列Mapreduce任务和HBase操作,从而从Hive中读取数据并提前计算,并将结果存储在HBase中。之后,同一数据模型的查询将直接读取已经计算好的存储在HBase中的数据,从而实现秒甚至亚秒的查询延迟。包括Impala在内的项目初始阶段进行了研究和评估,Stinger,PhoenixonHBase,Teradata,Microstrategy等多种开源和商业选项,最终发现没有一种能够满足ebay的实际业务需求,为超大规模数据集提供二级交互式查询能力。在研究了许多技术、论文和参考实现后,开发团队最终选择了MOLAP,即提前计算数据模型,为前端业务用户和分析师提供TB甚至PB级数据集上的交互查询能力。在上面的拓扑图中,下面的节点是实际数据,上面的每个节点代表一个维度组合。理论上,所有SQL查询都可以被拓扑图覆盖。因此,只要引擎能够正确分析查询句并访问正确的数据存储地址,就可以在很短的时间内获得结果。在实际开发过程中,Kylin系统有效地降低了维度,减少了不必要组合的计算,增加了Trie字典编码技术、PartialCube计算、分组聚合等多种压缩和编码算法。在实际开发过程中,Kylin系统有效降低了维度,减少了不必要组合的计算,增加了Trie字典编码技术、PartialCube计算、分组聚合等多种压缩和编码算法。在实际生产环境中,90%的ile查询延迟1.5秒,95%的ile小于5秒(最近30天)。虽然基于MOLAP的应用系统在大规模数据集上为相关业务用户提供了查询应用,但构建Cube需要大量的系统资源和时间,一方面是集群带

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

线上行业如何更好的生存,找代运营公司?

在这个新媒体、淘宝京东等店铺等线上行业尤其火热的时代,人人都想挤进去创造一片属于自己的天地。然而不管是挤进去个人还是企业,更多都是一些完全不懂得如何运营的毫无经验的小白。于是找代运营公司、寻找靠谱的代运营公司,便成为了和线上行业同等火热的问…查看详情

会员管理系统哪个好?八大会员管理系统分享

如今吸引用户走进店铺并不是一件容易的事情,往往铺天盖地的广告才能使用户在产生购物需求时第一时间想到你的店铺或品牌,一个完善的会员管理系统对企业来说非常重要,你知道会员管理系统哪个好吗?以下八个品牌会员管理系统了解一下(排名不分先后)。 1.…查看详情

最新ai智能系统外呼排名

随着科技的发展,各种智能系统上市,在我们身边就有很多高科技出现。最让人熟悉不过的就是游戏。各大游戏内的人性化以及智能化也是一种智能系统的体现。这里为大家做了详细的关于ai智能系统外呼排名。 1.易网行ai智能系统外呼。深圳易网行AI电话机器…查看详情

财务管理软件都有哪些?推荐5个适合不同规模的企业

财务管理软件是指能有效提升财务工作人员工作效率,减少工作差错率的管理性软件。财务人员的工作琐碎、繁杂,尽管如此,对于财务人员的工作要求却是严谨的。所以一个认真负责的财务工作者,在工作上是会不断寻求好方法,让自己的工作能更加尽善尽美的。那么财…查看详情

2022年十大免费cms建站系统有哪些?

  今天小编就跟大家盘点一下国内外比较知名的cms建站系统,告诉大家靠谱的cms建站系统有哪些,然后你可以从中选择最适合自己的。希望下面的cms系统你在建站的时候能用上。  1、AdobeAEM  Adobe AEM功能可以说是非常强大的,…查看详情

实用的超市销售管理系统

随着现代科学技术的高速发展,计算机技术已经渗透到各个领域,成为各行业必不可少的工具。网络与信息化的普及已成为各行业发展不可缺少的东西。然而现在国内市场的一些中小型超市,它们在信息化过程中的步伐要落后于大中型超市,而对于这些企业的资源管理,信…查看详情

飞鱼crm软件好用吗

飞鱼CRM是一款知名的客户关系管理软件,广泛应用于企业的销售、市场营销和客户服务等领域。以下是对飞鱼CRM软件的评价和使用体验的综合分析:1. 功能丰富:飞鱼CRM提供了包括客户管理、销售管理、营销自动化、客户服务、报表分析等在内的多个功能…查看详情

免费好用的数据库软件有哪些 数据库软件排行榜

  数据库客户端管理维护工具很多,除了系统自带的命令行管理工具之外,还有许多图形化管理工具,下面小编就给大家来详细介绍一下免费好用的数据库软件有哪些 数据库软件排行榜这一块的相关内容,希望能帮助到大家。,  数据库软件排行榜  1.Da…查看详情

U盘数据恢复工具推荐,告别数据丢失烦恼

虽然现在很多东西都特别的方便,但是我们在工作的过程当中也是需要借助U盘的,因为U盘可以随身携带,不管是出差还是去哪里都可以直接用U盘把自己想要播放的内容播放出来,要要比直接另一个笔记本电脑要更加方便一些,那么U盘数据恢复软件有什…查看详情

最新版权登记收费标准

著作权中对于公司来说最常用的要数软件著作权了,那么申请一个软件著作权都需要什么材料呢,最关心的问题也就是版权登记收费标准,下面就让小编来为大家一一解答。 一、计算机软件著作权登记需要提供如下材料: 1、软件著作权登记申请表;2、说明书;3、…查看详情

推荐四部大众很喜欢的言情小说作品

现在的小说类型复杂多样,而言情小说经久不衰,也许是因为美好的爱情或者是美好的相遇,在现实生活中并不常见,所以人们才需要去言情小说中满足幻想。对于现在的女性们来说,言情小说的存在可以说是生命之光了。 1.何以笙箫默 《何以笙箫…查看详情

快手如何换绑手机号?(附上详细方法)

  手机号是我们与外界联系的一个载体,当由于种种原因需要更换手机号码,我们需要解绑/注销一些账号,下面小编就给大家来详细介绍一下快手如何换绑手机号这一块的内容,希望能帮助到大家。  快手如何换绑手机号  1.当前绑定的手机号可以正常使用: …查看详情

cssci期刊是什么意思

cssci期刊是什么?《中文社会科学引文索引》(cssci)由南京大学中国社会科学研究评价中心开发,是国家教育部重点课题攻关项目。cssci根据文献计量学规律,采用定量和定性评价相结合的方法,从全国2700多种中文人文社会科学学术期刊中评选…查看详情

实用的建筑工程管理软件,工作进展实时记录

对于做工程的人来说,每天的施工进度都是不相同的,但是,每天都做了些什么工作都需要统计下来,因为户主很有可能会跟我们要当日的工作进展报告的,所以,要记录,那么,建筑工程管理软件有什么? 1、筑业建筑资料软件最新版 是款对于建筑…查看详情

恐怖片排行榜前十名送给大家,让你的假期旅程不寂寞

假期一到就要去找片源了,找的那叫一个撕心裂肺啊,大部分看过了,或者不知道水平如何,这里小编就要毛遂自荐一下了,良心推荐的恐怖片排行榜前十名送给大家,让你的假期旅程不寂寞,恐怖片让你们兴奋起来。第一名:午夜凶铃午夜凶铃,十大顶级恐怖片之一,是…查看详情

最新文章