是否要在网站中采用Hadoop?
2020-12-31 09:24:59 阅读(209) 评论(0)
1.什么是大数据引子?麦肯锡报告“大数据:创新、竞争和生产力下一个前沿领域”的大数据定义是:大数据是指超过现有数据库工具获取、存储、管理和分析能力的数据集,并强调不超过特定数量级的数据集是大数据。国际数据公司(IDC)大数据被定义为四个维度的特征,即数据集的规模(Volume)、数据流速(Velocity)、有多少类型的数据(Variety)以及数据价值的大小(Value)。亚马逊大数据科学家Johnrauser的定义相对直接:“超过单台计算机处理能力的数据量为大数据”。最后,让我们来看看维基百科全书上的大数据定义:“Bigdataisthetermforacollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtoolsortraditionaldataprocessingapplications.“翻译成中文意味着大数据是指现有数据库管理工具或传统数据处理应用程序难以处理的数据集。“大”字无一例外地突出了上述大数据的概念。“大”字无一例外地突出了上述大数据的概念。从表面上看,数据规模的增长确实给处理数据带来了很大的问题。具体来说,在同一时间内获取与以前相同价值的数据是不可能的。换句话说,本质问题是数据的价值密度越来越低,数据交换速度越来越慢,因此催生了许多新的数据处理技术和工具,如谷歌GFS和Mapreduce、ApacheHadop生态系统、美国伯克利大学AMPLabSpark等;对时间有不同敏感性的计算模式,如批量计算模式、交互式计算模式、流量计算模式、实时计算模式等。计算模式的差异只是取决于上层业务需求的不同,取决于获取价值的技术差异。计算模式的差异只取决于获取价值的技术和上层业务需求的差异。事实上,所谓大数据问题的本质应该是数据的资产化和服务化,挖掘数据的内在价值是研究大数据的最终目标。2.大数据技术起源于谷歌谷歌在搜索引擎中的巨大成功,主要是由于采用先进的大数据管理和处理技术,针对搜索引擎面临的日益扩大的大量数据存储问题和大量数据处理问题。谷歌提出了一套基于分布式并行集群模式的基础设施技术,利用软件的能力来处理集群中经常出现的节点故障。谷歌使用的大数据平台主要包括分布式资源管理系统borg、谷歌文件系统五个独立紧密结合的系统(GFS),Mapreduce编程模式、分布式锁机制Chuby和大规模分布式数据库BigTable是根据Google应用程序的特点提出的。Borg是这五个系统中最神秘的一个,直到2015年Google才在Eurosys2015上发表题为“Large-scaleclustermanagementatGooglewithBorg”的论文。称Google内部不仅像计算应用,如Mapreduce、Pregel在borg上运行,GFS、Bigtable、Megastore等存储应用也在borg上运行,真正实现了批处理操作和长期服务的混合部署和资源动态调度。由于该技术,平均资源利用率可达30%~75%以上,远高于行业平均水平的6%~12%。GFS是一个大型分布式文件系统,为Google云计算提供大量存储,并与Chubby一起存储、Mapreduce与BigTable等技术紧密结合,处于系统底层。其设计受Google特殊应用负载和技术环境的影响。与传统的分布式文件系统相比,GFS从多个方面简化了成本、可靠性和性能的最佳平衡。Mapreduce是处理大规模数据集并行运算的并行编程模式。Mapreduce通过Map(映射)Reduce(简化)”这样两个简单的概念来参与操作。用户只需提供自己的Map函数和Reduce函数,就可以在集群上进行大规模的分布式数据处理。这种编程环境允许程序设计师在编写大规模并行应用程序时不考虑集群的可靠性和可扩展性。应用程序编写人员只需专注于应用程序本身,集群处理问题由平台完成。与传统的分布式程序设计相比,Mapreduce包装了并行处理、容错处理、本地化计算、负载平衡等细节,界面简单强大。正是由于Mapreduce具有函数编程语言和矢量编程语言的共性,这种编程模式特别适用于搜索、挖掘和分析非结构化和结构化的海量数据。基于松耦合分布式文件系统,Chubby是一种提供粗粒度锁服务的文件系统,解决了分布式系统的一致性问题。这种锁只是推荐锁而不是强制锁。用户可以通过使用Chuby的锁定服务来保证数据操作的一致性。GFS使用Chubby选择GFS主服务器,BigTable使用Chubby指定主服务器,并找到和控制与之相关的子表服务器。BigTable是一种基于GFS和Chuby开发的分布式存储系统。许多应用程序对数据组织非常有规律。一般来说,数据库处理格式化数据非常方便。但由于关系数据库需要很强的一致性,很难将其扩展到很大的规模。为了处理谷歌内部大量的格式化和半格式化数据,谷歌建立了一个弱一致性要求的大型数据库系统。BigTablede在很多方面与数据库相似,但它并不是真正的数据库。许多海量结构化和半结构化数据,包括Web索引和卫星图像数据,都存储在BigTable中。3.Hadoop开启了大数据时代的大门Gogle技术,虽然不开源。如果没有DougCuting和他的Hadoop开源软件,我们就看不到大数据技术和应用的快速发展。以DougCutting为主导的Apachenutch项目是Hadop软件的源头,始于2002年,是Apachelucene的子项目之一。当时的系统架构还没有扩展到存储和处理拥有数十亿网页的网络数据。Google于2003年在SOSP上公开了一篇关于其分布式文件系统的论文TheGoogleFileSystem",及时为Nutch提供帮助。2004年,Nutch的分布式文件系统(NDFS)开始开发。同年,Google在OSDI上发表了题为“MapReduce:SimplifiedDataProcessingonLargeClusters受启发的DougCutting等人开始实现Mapreduce计算框架,并与NDFS合作(NutchDistributedFileSystem)结合起来,共同支持Nutch的主要算法。到2006年,它逐渐成为一套完整而独立的软件,已经到了Yahoo!到2006年,它逐渐成为一套完整独立的软件,已经到了Yahoo!工作的DougCutting将这个大数据处理软件命名为Hadoop。除Yahoo外,Hadoop在2008年初成为Apache的顶级项目!此外,它还被应用于许多互联网企业。早期的Hadoop,包括Hadoopv1和更早的版本,主要由HDFS和HDFS两个核心组件组成MapReduce,HDFS是GoogleGFS的开源版,Mapreduce计算框架实现了Google工程师提出的Mapreduce编程模型。Hadoop周围还有一些开源项目,为改善大数据处理的整个生命周期提供了必要的支持和补充。Zookeeper常用于这些软件、Hive、Pig、HBase、Storm、Kafka、Flume、Sqoop、Oozie、Mahout等等。2012年5月,Hadoopv2的Alpha版本发布,其中最重要的变化是将YARN添加到Hadoop的核心组件中。(YetAnotherResourceNegotiator)。YARN的出现是为了彻底分离计算框架和资源管理,解决Hadopv1可扩展性差、单点故障和不能同时支持多个计算框架的问题。YARN对标的恰好是Google的Borg系统。到目前为止,Hadop可以与Google的大数据平台相媲美。一个好的、充满活力的开源生态系统应该有一个核心。如果这个核心是差异化和非凡的,它也应该有广泛的应用和活跃的社区。Hadoop恰好有这三个特点,以Hadop为核心的大数据开源生态系统逐渐形成,Hadoop成为Linux以来最成功的开源软件之一。受人民大学信息学院院长杜小勇的委托,我在2015年CNCC组织了一个名为“大数据开源生态系统”的论坛。BBS邀请互联网公司、硬件制造商、系统集成商和学术界的同行分享他们在大数据开源方面的工作和经验。在最后的Panel链接中,我们讨论了为什么要开源和如何开源。答案相对分散。开源是唯一的选择。有些人打开产业链,有些人认为开源是一种新的商业形式和商业模式,有些人认为开源促进技术进步。总之,机构在产业链不同环节开源的动机和目标自然不同,但只有这样,产业链中的不同角色才能在生态系统中找到自己的位置。这样的生态系统是强大而充满活力的,不是吗?4.互联网行业是Hadoop发展历史和应用之路大数据领域第一个吃螃蟹的人。这是因为大数据的概念和技术都来自互联网公司的老大哥谷歌。从Hadop的实际应用来看,从2006年到2008年是Hadop的诞生阶段。只有少数外国互联网巨头在尝试,国内互联网行业正在学习这项新技术。2006年,Yahoo!为Webmap业务构建100节点规模的Hadop机组。2007年,Yahoo!构建1000节点规模的Hadop机组。2008年,Yahoo!Hadoop机组扩展到2000节点,Facebook将Hive项目贡献到开源社区。从2008年到2010年是Hadoop的少年阶段。实际应用已经投入到互联网行业,应用集中在网页存储检索、日志处理和用户行为分析等方面。2009年,Yahoo!使用4000节点组运行Hadoop,支持广告系统和Web搜索研究;Facebook使用600节点组运行Hadoop,存储内部日志数据,支持数据分析和机器学习;百度使用Hadoop处理每周200TB的数据,进行搜索日志分析和网页数据挖掘。2010年,FacebookHadoop群扩展到1000节点;百度每天可以用Hadoop处理1PB数据;中国移动通信研究院基于Hadoop开发了“大云”(BigCloud)该系统不仅用于相关数据分析,还提供外部服务;淘宝Hadoop系统已达到1000个规模,用于存储和处理电子商务交易相关数据。Hadoop青年阶段从2010年到2015年。在互联网行业,Hadoop被视为大数据计算的标准配置,应用形式趋于多样化;企业计算领域开始实践基于Hadop的大数据应用;在追求大数据处理能力的同时,也开始思考系统适应性和效率。互联网行业出现了大量的数据分析应用,如支付宝的交易数据离线分析系统;与生态系统中的其他软件一起,Hadoop构成了一个更复杂的应用系统,如腾讯的广点通精准广告系统、基于用户肖像的电信运营商精准营销系统等。除互联网行业外,还有网络通信大数据、金融大数据、交通旅游大数据、工业制造大数据、医疗卫生大数据、社会治理大数据、教育大数据等。大数据的概念和技术已经融入到各行各业。Hadoop起源于互联网行业,在应用于企业计算时需要适应,因为互联网应用与企业计算应用在需求、服务、研发、运维系统等方面存在本质差异。互联网应用业务逻辑简单,服务于大量用户、非固定用户、系统用户体验第一、连续交付、快速响应;企业计算应用业务逻辑复杂、用户数量有限、固定用户、系统强调稳定可靠、版本交付、层次技术支持。有一段时间,市场上出现了许多面向企业用户的Hadoop发行版本,以易于部署、配置良好、使用和管理方便为切入点,吸引了企业用户的注意。5.大数据技术发展趋势系统架构的专业化。从当今IT技术发展的角度来看,系统结构的解决方案是“应用驱动的大数据架构和技术”。也就是说,根据具体的类型应该
推荐阅读
- 青岛财务软件哪家好?这4款精品轻松解决账务烦恼
由于工作的压力和强度,财务管理板块可以说是企业中最复杂和混乱的一块,也是非常难攻破的磐石,财务软件也是企业内部会计必不可少的工具,青岛财务软件哪家好?以下这4款精品软件轻松解决账务烦恼。 1. 用友青岛财务软件 “T+”是一款灵动、智慧…查看详情
- 1tb是多少g内存
1tb等于多少个g?1tb理论上是1024gb 我们买到的标注1tb硬盘或者标注1tb容量的存储设备的实际容量约为931G。 一、存储器中所包含存储单元的数量称为存储容量,其计量基本单位是字节,单位是Byte,简称B,8个二进制…查看详情
- 2021六大客户档案管理系统排行榜单推荐
客户档案管理系统才能出不起,评判一个系统好坏的标准也不一样,有些系统看似操作简单,实际功能扩展性不行,有些软件复杂,但胜在扩展性能好,如果你想为企业挑选一个适合的系统,那么这份2021六大客户档案管理系统排行榜单可收藏。 1. eccrm客…查看详情
- 团队管理软件是什么?团队管理软件核心功能介绍
在现在的市场经济的大环境下,越来越多的人士逐渐认识到用计算机技术进行各类管理,交流的便捷,其中最突出的要算企事业单位的人事工资管理了,为了提高人事工资管理效率,减轻劳动强度,提高信息处理速度和准确性,对团队管理软件是什么?团队管理软件核心功…查看详情
- 多人视频聊天哪个好 什么软件支持多人视频聊天
现在多人视频通话是很多社交软件的主流,下面万商云集小编给大家来盘点下多人视频聊天软甲这方面的内容。希望大家能喜欢。 TikTok抖音国际版 基本信息:TikTok app可以说是抖音短视频国际版,TikTok抖音海外版为海外用户提供…查看详情
- 好用的杀毒软件有哪些 杀毒软件排行榜
现在整个网络环境是非常的糟糕的,很多病毒都入侵别人的电脑,下面万商云集小编给大家来详细介绍一下好用的杀毒软件有哪些 杀毒软件排行榜这一块的内容,今天给大家分享5个杀毒神器,让你的电脑干干净净,建议收藏起来哟! 杀毒软件排行榜 1…查看详情
- 功能全的服装收银系统有哪些?服装门店收银全靠它
对于服装店面经营者来说,店面收银系统却不仅仅是每天卖了多少件衣服,收银系统还需要与会员机制、进货与库存总量、销售额与净盈利核算等内容紧密衔接。那么满足以上需求的功能全的服装收银系统有哪些呢?今天介绍几个好评不断的服装门店收银系统…查看详情
- 任务管理器快捷键是什么
任务管理器是在Windows操作系统中管理计算机中正在运行的进程,服务和应用程序的一种工具。使用任务管理器可以结束不响应的应用程序,检查系统资源使用情况,以及诊断其他计算机的问题。在Windows中,有几种任务管理器可供选择:传统任务管…查看详情
- 好看到爆炸的安卓壁纸软件,用完不后悔
不知道有没有人和小编我一样,换一个手机壁纸,就感觉好像换了一台新手机?如果你也有和我一样的感觉,千万不要错过我这次的文章,这次的文章,小编将给大家推荐几款好看到爆炸的安卓壁纸软件,下面就由我来带大家介绍。 1.4KWallp…查看详情
- windows自动关机怎么设置
Windows自动关机怎么设置? 在Windows系统中,我们可以通过“任务计划程序”来设置自动关机,具体操作如下: 1.打开计算机的“控制面板”,然后点击“管理工具”中的“任务计划程序”进入任务计划程序窗口。 2.在任务计划程序…查看详情
- charger是什么充电器
CHARGER是什么牌子的充电器电瓶车的?charger是SHOI品牌充电器,名字叫概率充电器。 著名的电子产品品牌SHOI刚刚发布了引领世界潮流的下一代电子产品——概率充电器(charger)。 SHOI概率充电器由n-1条导…查看详情
- 国美商城网上店铺怎么开?
在家开网店的详细步骤?开网店的详细步骤包括: 1.选择并注册一个品牌名称。 2.选择要销售的产品类别。 3.准备好产品图片、价格信息和购买须知。 4.搭建一个完整的电子商务网站或者使用市场上的电子商务解决方案。 5.选择支付方式,…查看详情
- 服务器硬件防火墙是什么?
优质答案(1) 不一样,首先要看自己的财力,安装高级别防火墙,需要大资金,一般的容易被攻开,每道防火墙都有自己的定律,没有千篇一样的 优质答案(2) 防火墙是不一样的,不通用。防火墙可以采取多种形式,从专用设备,到运行在通用服务器…查看详情
- 适合女人9个小生意
1、美容美发 美容美发行业一直是女性创业者的重点,小到开个小小的美发店,大到开一条整合了美容美发、SPA等多种服务的综合美容店都是很受追捧的。 2、网络销售 利用互联网开设网店,销售当地特产或一些女性用品比较适合女人创业。 3、…查看详情
- 从crm系统排名看,哪家是最优选择
在现今产品已无太大差异的市场中,企业都已经在靠着谁的服务更好来提升企业核心竞争力,crm系统的出现便正好满足了企业的需求。今天小万就来聊聊市场中都有哪些crm系统品牌,crm系统排名不分先后。图片来自网络crm系统排名顺序随机,没有哪个更好…查看详情
猜你喜欢
最新文章
扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121
关注微信公众号
和10万中小企业共同成长
扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有 蜀ICP备12001963号-2 川公网安备 51010402000322号
快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
免费查找信息保护中请放心填写-
-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP
企业首选的数字选用平台