服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

详细介绍eBay的Hadoop集群应用及大数据管理

2021-01-04 14:52:30 阅读(195 评论(0)

eBay,1995年劳动节周末,世界上最大的在线交易平台由程序员PierreOmidyar在美国成立。它最初被称为AuctionWeb,并于1997年7月正式更名为eBay。它将于今年9月庆祝其20周年。eBay的第一笔交易是一支损坏的激光笔,成交价格为14.83美元。pierre主动联系买家,以确保他们知道这是一支损坏的激光笔,买家回答说“我是一个损坏的激光笔收藏家”。从那时起,eBay20年的发展正式开始,引领了电子商务行业的快速增长。如今,eBay已成为世界上最大的在线交易网站。买家分布在世界190多个国家,活跃卖家2500多万,活跃买家1.57亿,活跃商品8亿,通过connectedcommerce连接世界各地的买家和买家,2014年GMV产量超过2550亿美元,其中来自移动终端的GMV超过280亿美元。据统计,美国每五秒钟卖一个手袋,澳大利亚每分钟通过移动终端卖一双鞋,德国每10分钟通过移动终端卖一辆车或卡车。据统计,在美国每五秒钟卖一个手袋,在澳大利亚每分钟通过移动终端卖一双鞋,在德国每10分钟通过移动终端卖一辆汽车或卡车。在如此大量的用户和交易下,数据已经成为ebay的首要任务,从点击流到搜索、商品查看、交易和愿望清单。在eBay数据平台中存储超过100个PB的数据。关键是如何获取、存储、处理和分析数据,并释放数据的价值,使其成为行动指南。然而,各大数据平台为成千上万的分析师和业务用户提供了坚实的保障和基础,并不断创新,以满足日新月异的变化和需求。EBAY目前的大数据平台分为三层,数据集成层:负责数据采集、处理和清洁,包括批处理和实时处理能力,包括相关商业产品和开源产品;数据平台层:主要由传统数据仓库组成(EDW),基于Teradata集群,总容量超过10PB;奇点(Singularity),存储半结构化和深层次结构化数据存储,总容量超过36PB;以及Hadoop集群,总容量超过100PB;数据访问层:业务用户和分析师通过各种工具访问和分析相关数据的能力,包括各种商业工具、开源产品和自主研发的各种平台。本文将重点介绍EBay在相关领域的发展、平台和未来发展趋势。本文将重点介绍ebay在相关领域的发展、平台和未来发展趋势。conectwithhadop1.EBay最早的Hadop应用是在EBay研究实验室(eBayResearchLab,eRL)为了提高日常日志处理速度,主要用于日志分析。最初的版本是0.18.2,4个节点,存储和处理约数百GB的日志,最大的处理能力是44个Map。随后,EBay搜索团队建立了10个节点的集群,开始了Hadoop在EBay搜索领域的发展,并于2012年推出了基于HBase的搜索平台:Cassini。2010年,EBay推出了基于CDH2的集群,节点532个,存储容量5PB以上,2012年推出了基于HDP的集群,节点3000多个,容量50PB以上。2014年,总节点数据超过1万,存储容量超过170PB,活跃用户超过2000。目前,相关规模仍在增长。随之而来的管理、监控、分析和存储挑战越来越严峻。基础设施的创新主导了Hadoop的演变,从基于HDFS和Mapreduce的批处理应用不断演变,第一代Hadoop提供了灵活可扩展的数据结构和处理能力,满足了公司在大数据兴起时的各种大小数据处理需求。然而,毕竟,这只是第一步,有各种各样的限制。如果将其与操作系统进行比较,第一代Hadoop,如操作系统和应用程序,如记事本,只有一个应用程序,即Mapreduce。然而,随之而来的大量任务导致了调度瓶颈,从而导致YARN(YetAnotherResourceNegotiator)项目的建立和发展解决了Jobtracker在超大规模集中中成为瓶颈的问题,并通过YARN支持各种应用程序进行资源调度和管理,从而将Hadoop带入下一个时代,从面向批处理到提供交互式处理能力,下一代Hadoop取得了巨大的进步。并提供了支持独立执行模式的战略决策,例如,Mapreduce可以作为YARN上的应用程序运行。例如,MapReduce可以作为YARN上的一个应用程序运行,提供支持独立执行模式的战略决策。此后,Hadoop通过YARN成为一个真正的数据操作系统。目前,交易数据库、文档数据库和图形数据库的数据可以存储在Hadoop上,可以访问基于YARN的数据,包括Mapreduce,而无需复制或移动不同应用程序的数据、Hive、各种应用,如HBase和Spark。从而提供了丰富的数据处理和创新能力。一个统一的数据存储,平台的使用将是一个确定的趋势。2.目前,分层存储的普遍认知是利用廉价硬件形成Hadoop集群,存储超大容量数据并提供计算能力。例如,如果一个1000节点的集群具有20TB的存储能力,整个集群可以存储20PB的数据。为了实现Hadoop,所有机器都有足够的计算能力:“MovingComputationisCheaperthanMovingData”。不同类型的数据集通常存储在同一个集群中,并由不同的团队共享,以满足业务需求。随着时间的推移,数据的利用率会逐渐降低,越新的数据利用率越高,越旧的数据访问次数也会逐渐降低。第一次生成的数据利用率最高。我们将其定义为Hot。根据我们的分析,一周内访问量下降的数据称为Warm,而在接下来的三个月内只有少量访问的数据称为Cold。最后,访问率降低到每年只有几次甚至零的数据集,称为frozen,如下表所示:分析,在同一集群中存储不同热量的数据,使用相同的计算和存储资源变得越来越有问题,随着时间的增长,越来越多的冷数据,将占据宝贵的存储和计算资源,当需要进入更多的热数据或大量计算时,相应的存储成为瓶颈,许多其他公司甚至提到了删除低价值数据的做法。在管理和运维超大Hadop集群时,如何处理不同热度的数据已经成为一个迫切的需求和现实挑战。如何处理不同热量的数据已成为管理和运维超大型Hadoop集群的迫切需求和实际挑战。将低热量数据集和高热量数据集作为不同的存储策略是必不可少的。在Hadoop2.3中,HDFS支持分层存储,通过在集群中添加归档存储容量,为冷却数据提供深度存储容量,并保持上层应用程序的透明度。由于数据仍在同一集群中,当需要访问相应的冷数据时,仍然可以及时获取。例如,我们可以在上述示例中添加100个节点,每个节点都有200TB存储,但只使用有限的计算资源,因此整个集群的总量将变为40PB(20PB磁盘)+20PB归档)。通过相关的数据策略,将不同热度的数据分布到不同的存储中。例如,假设每个数据默认按Hadoop设置复制三份,Hot数据将三份数据全部存储在快速磁盘上,Warm类型数据只存储一份复制在快速磁盘上,其余两份存储在归档存储中,并存储所有Cold和Frozen数据。为了有效地分配不同的数据,如下图所示:分层存储已用于eBay最大的Hadoop集群,该集群有40PB存储,我们增加了额外的10PB存储,每个节点都有220TB容量,因此Warm、逐步迁移Cold和Frozen数据集。由于计算能力有限,这些节点的每GB成本是其他节点的4倍左右。EBay将继续在这方面进行研究和投资,如SSD存储。3.当集群数量达到成千上万的规模时,监控、报警和自动化操作和维护是确保高数据可用性和为上层应用程序提供持续服务的基础。在ebay的日常工作中,Hadoop集群的管理和维护任务相当繁重,现有的管理和监控工具无法满足多集群、大规模分布式收集日志和监控数据的需要。因此,ebay开发了一个名为eagle的集群监控报警平台。Eagle主要由不同应用领域的基本核心框架和许多应用组成。它专注于解决大数据时代大型分布式系统本身监控的复杂大数据问题。它具有高可扩展性、高实时性和高可用性的特点。同时,它支持机器学习的使用,为复杂情况提供预测和分析。轻量级分布式流处理框架:以DAG为基础模型抽象一般流处理范式。在开发期间,用户只需要根据DSLAPI定义监控程序的流处理逻辑,然后在运行期间选择实际的物理执行环境,默认支持单流程和Storm,也支持其他执行环境的扩展,如SparkStreaming或Flink。实时流聚合引擎:提供简单易用的实时流聚合规则定义语法,元数据驱动,动态部署,实现线性扩展的实时监控数据流聚合。分布式Policy发动机:分布式实时预警规则执行发动机,提供SQL描述性规则定义语法和机器学习自动扩展,支持动态加载和分区预警规则。存储和查询框架:一般监控数据存储框架,可用于存储和查询日志、指标、报警、事件等类型的数据,默认支持HBase,并对HBase进行各种优化和扩展,如Coproceser、二次索引和分区,也支持RDBMS等其他存储类型的扩展,并提供一般ORM,RESTAPI和强大的SQL查询语法易于使用。可定制监控报表:提供类Notebook的交互式实时可视化分析,还支持部分图标的进一步选择,并将布局定义为dashboard进行共享或持续监控。除了监控日常集群指标外,Eagle还集成了Jobperformanceancealyzer(JPA),通过实时监控Hadoop平台上的运行现状和历史执行状态,提供不同粒度的多维性能分析,支持运行时间长、读写慢、数据倾斜、失败任务比例过高等各种异常预警和性能警告,在操作不能满足SLA之前,可以有效提供预警和性能建议。同时,结合机器学习模型,根据任务分布或指标变化等协同预测任务或服务器节点的潜在异常,集成Remediation系统自动修复系统。同时,EagleDAM是针对异常用户行为和危险操作开发的(DataActivitiesMonitoring)通过自定义策略和机器学习模型,对关键数据和操作进行监控和报警,防止安全监控应用处于萌芽状态。4.在线交互分析当数据规模随着用户群体的多样化扩展而增长时,我们的用户,如分析师和业务部门,希望继续使用他们熟悉的工具和方法来访问和分析超大规模数据集存储在Hadoop上,并希望在Hadoop集群上完成数据访问、处理、存储和分析,无需将数据从一个数据源转移到另一个数据源。EBay中国R&D中心在研究和评估了各种开源和商业产品后,于2013年中正式启动了OLAPonHadop项目,并于2014年10月开源,然后贡献给APache基金会,目前正处于孵化阶段。Apachekylin由建模者定义相关维度、测量等设置,通过映射Hive中星结构的表生成元数据。构建引擎自动生成基于元数据的相关Hive查询、一系列Mapreduce任务和HBase操作,从而从Hive中读取数据并提前计算,并将结果存储在HBase中。之后,同一数据模型的查询将直接读取已经计算好的存储在HBase中的数据,从而实现秒甚至亚秒的查询延迟。包括Impala在内的项目初始阶段进行了研究和评估,Stinger,PhoenixonHBase,Teradata,Microstrategy等多种开源和商业选项,最终发现没有一种能够满足ebay的实际业务需求,为超大规模数据集提供二级交互式查询能力。在研究了许多技术、论文和参考实现后,开发团队最终选择了MOLAP,即提前计算数据模型,为前端业务用户和分析师提供TB甚至PB级数据集上的交互查询能力。在上面的拓扑图中,下面的节点是实际数据,上面的每个节点代表一个维度组合。理论上,所有SQL查询都可以被拓扑图覆盖。因此,只要引擎能够正确分析查询句并访问正确的数据存储地址,就可以在很短的时间内获得结果。在实际开发过程中,Kylin系统有效地降低了维度,减少了不必要组合的计算,增加了Trie字典编码技术、PartialCube计算、分组聚合等多种压缩和编码算法。在实际开发过程中,Kylin系统有效降低了维度,减少了不必要组合的计算,增加了Trie字典编码技术、PartialCube计算、分组聚合等多种压缩和编码算法。在实际生产环境中,90%的ile查询延迟1.5秒,95%的ile小于5秒(最近30天)。虽然基于MOLAP的应用系统在大规模数据集上为相关业务用户提供了查询应用,但构建Cube需要大量的系统资源和时间,一方面是集群带

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

网络订货系统:3大功能、4大好处,尽早使用

在网络发展如此迅速的现在,很多事物都离不开网络了,现实和网络相结合使我们的生活中增添了非常多的便利,在买卖东西、采购等方面,再常见不过了,网络订货系统已经用于非常多的行业领域,下面就和大家介绍下网络订货系统的好处吧。图片来源于网络 网络订货…查看详情

致力协同办公oa系统并列的软件排行有哪些?

随着经济的发展,在当今社会,像致力协同办公oa系统这种数字化软件逐渐走进了人们的视野,它为办公行业的发展打造了一个数字化的平台,我们应该怎样进行选择呢?今天我们就来了解一下致力协同办公oa系统的并列软件排行有哪些。 1、蓝凌oa办公系统 蓝…查看详情

租房用哪个app比较靠谱?租房子app哪个好?

对于一名打工人来说,租到一个好房子不仅可以省钱省时还能提升生活质量,现在市面上租房的APP有很多,但租房用哪个app比较靠谱呢?小编结合自己和身边朋友的一些感受为各位梳理了5款比较好的租房子app,供各位参考。 第一款:安居客APP安居客是…查看详情

各种规模的企业都应该使用erp软件

我们曾经遇到过这样的问题,有一个小厂的总经理,他很喜欢erp,也想让企业使用erp软件,但是工厂的客户都是比较固定的几个客户,产品也不多,物料种类也少,公司的供应商也是比较稳定的计价,经营情况一直都比较稳定,仿佛一切都是按部就班,因为简单所…查看详情

个人知识产权的保护和维权问题浅析

互联网发展让知识产权的概念被更多的人知晓,版权侵犯、专利纠纷和商标抢注等各类知识产权的侵权与维权,让知识产权在企业组织之外的个人越加关注。不少人对个人知识产权保护和个人知识产权维权的问题展开讨论,本文也就个人知识产权维护和维权问题进行简单的…查看详情

设备管理软件有哪些?这些软件值得推荐

设备管理软件是在日常企业管理当中比较常用的一些软件,主要是针对企业管理能够带来很好的效果,而且还能够提供设备维护的效率,能够保证设备的使用率,但是在选择的时候也应该要找到一些好的软件来使用,那么设备管理软件有哪些呢?接下来就给大…查看详情

还在为没有客户而烦恼吗?这些影响用户增长的因素一定注意

用户增长是每个运营专员都头疼的问题,尤其是在网上流量很难获得的时候。用户增长是从增长和用户两个方面获得更多的流量来理解和使用我们的产品,最终实现购买利润的目的。下面给大家分享七个影响用户增长的因素。(1)供给考察市场,了解市场空白,为市场创…查看详情

什么样的电商商城系统才是好系统?

在互联网的大发展趋势下,很多传统企业都蓄势待发准备转型电商。但是,中小型企业在面临众多电商商城系统时却不知如何选择,因为他们对实际的电商商城系统还比较陌生,而要去选择一个好的电商商城系统更是心里没谱。今天我们就一起来看看什么是电商商城系统,…查看详情

2021会员积分管理系统免费版排行

各种软件在科技的发展下逐渐被开发应用,软件中的会员给用户带来了非常多的权益和更好的用户体验。为了更好的管理会员积分,会员积分管理系统也应运而生。我找了几款免费的会员积分系统,整理2021会员积分管理系统免费版排行。 1.智络软件会员积分管理…查看详情

小型车辆管理系统(车辆管理系统包括哪些)

说道车辆管理系统,在现在的社会中机会都会开车出门,随着时间的增加,车辆增加的越来越多,那么应该怎么去操控自己的车辆或者是群体的车辆呢,今天我们就来盘点一下车辆管理系统都有哪些。1、伊特车辆管理软件这款软件是面向企事业单位所使用,其中包括车的…查看详情

开发新客户的十大渠道

  开发新客户是企业业务发展的一个重要的环节。对于企业而言,拥有更多的客户,意味着更广阔的市场,更多的销售机会和更好的业绩增长。这里,我们将介绍十种开发新客户的渠道。  1.口碑营销  口碑营销是企业获得新客户的有效途径之一。在现代社会,口…查看详情

电热水器有哪些品牌 2022电热水器排名

在平时的生活中很多人都经常用到电热水器,毕竟也算是使用很频繁的一种家电设备,下面万商云集小编给大家来详细介绍一下电热水器有哪些品牌 2022电热水器排名这一块的内容,希望能帮助到大家。  1、海尔Haier  家用电器领头羊海尔在电热水器…查看详情

电商搜索系统丨强需求用户使用的高频功能

电商搜索系统是电商平台一个比较重要的功能,毕竟在任何一个电商平台搜索都是核心功能,使用频率非常高。在这个信息爆炸的时代,想要在海量的产品中迅速筛选出自己需要的信息和商品是非常难的,搜索系统是实现精确检索的关键。图片来源于网络搜索系统主要是运…查看详情

亚马逊卖的都是正品吗?产品如何判断真伪?

  优质答案(1)  欧舒丹验证是否是真品从原包装和瓶体的条形码,瓶体的质感,钢印,瓶体贴标字迹这四个方面辨别。  一,看原包装和瓶体的条形码:欧舒丹每一瓶都有FBA亚马逊物流仓储的原包装和外包装,并且原包装和瓶身都可以扫码直接进欧舒丹官网…查看详情

2021有哪些简单好用的手机上考勤的软件?

如今,传统考勤软件问题凸显,现已被更具灵活性的手机考勤软件所代替,随着协同办公系统升级,考勤迈入了移动新时代,手机考勤软件逐渐上线,那么2021年有哪些简单好用的手机上考勤的软件呢? 1. 钉钉手机考勤软件阿里巴巴出品的一款使用率极高的手机…查看详情

最新文章