是否要在网站中采用Hadoop?
2020-12-31 09:24:59 阅读(213) 评论(0)
1.什么是大数据引子?麦肯锡报告“大数据:创新、竞争和生产力下一个前沿领域”的大数据定义是:大数据是指超过现有数据库工具获取、存储、管理和分析能力的数据集,并强调不超过特定数量级的数据集是大数据。国际数据公司(IDC)大数据被定义为四个维度的特征,即数据集的规模(Volume)、数据流速(Velocity)、有多少类型的数据(Variety)以及数据价值的大小(Value)。亚马逊大数据科学家Johnrauser的定义相对直接:“超过单台计算机处理能力的数据量为大数据”。最后,让我们来看看维基百科全书上的大数据定义:“Bigdataisthetermforacollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtoolsortraditionaldataprocessingapplications.“翻译成中文意味着大数据是指现有数据库管理工具或传统数据处理应用程序难以处理的数据集。“大”字无一例外地突出了上述大数据的概念。“大”字无一例外地突出了上述大数据的概念。从表面上看,数据规模的增长确实给处理数据带来了很大的问题。具体来说,在同一时间内获取与以前相同价值的数据是不可能的。换句话说,本质问题是数据的价值密度越来越低,数据交换速度越来越慢,因此催生了许多新的数据处理技术和工具,如谷歌GFS和Mapreduce、ApacheHadop生态系统、美国伯克利大学AMPLabSpark等;对时间有不同敏感性的计算模式,如批量计算模式、交互式计算模式、流量计算模式、实时计算模式等。计算模式的差异只是取决于上层业务需求的不同,取决于获取价值的技术差异。计算模式的差异只取决于获取价值的技术和上层业务需求的差异。事实上,所谓大数据问题的本质应该是数据的资产化和服务化,挖掘数据的内在价值是研究大数据的最终目标。2.大数据技术起源于谷歌谷歌在搜索引擎中的巨大成功,主要是由于采用先进的大数据管理和处理技术,针对搜索引擎面临的日益扩大的大量数据存储问题和大量数据处理问题。谷歌提出了一套基于分布式并行集群模式的基础设施技术,利用软件的能力来处理集群中经常出现的节点故障。谷歌使用的大数据平台主要包括分布式资源管理系统borg、谷歌文件系统五个独立紧密结合的系统(GFS),Mapreduce编程模式、分布式锁机制Chuby和大规模分布式数据库BigTable是根据Google应用程序的特点提出的。Borg是这五个系统中最神秘的一个,直到2015年Google才在Eurosys2015上发表题为“Large-scaleclustermanagementatGooglewithBorg”的论文。称Google内部不仅像计算应用,如Mapreduce、Pregel在borg上运行,GFS、Bigtable、Megastore等存储应用也在borg上运行,真正实现了批处理操作和长期服务的混合部署和资源动态调度。由于该技术,平均资源利用率可达30%~75%以上,远高于行业平均水平的6%~12%。GFS是一个大型分布式文件系统,为Google云计算提供大量存储,并与Chubby一起存储、Mapreduce与BigTable等技术紧密结合,处于系统底层。其设计受Google特殊应用负载和技术环境的影响。与传统的分布式文件系统相比,GFS从多个方面简化了成本、可靠性和性能的最佳平衡。Mapreduce是处理大规模数据集并行运算的并行编程模式。Mapreduce通过Map(映射)Reduce(简化)”这样两个简单的概念来参与操作。用户只需提供自己的Map函数和Reduce函数,就可以在集群上进行大规模的分布式数据处理。这种编程环境允许程序设计师在编写大规模并行应用程序时不考虑集群的可靠性和可扩展性。应用程序编写人员只需专注于应用程序本身,集群处理问题由平台完成。与传统的分布式程序设计相比,Mapreduce包装了并行处理、容错处理、本地化计算、负载平衡等细节,界面简单强大。正是由于Mapreduce具有函数编程语言和矢量编程语言的共性,这种编程模式特别适用于搜索、挖掘和分析非结构化和结构化的海量数据。基于松耦合分布式文件系统,Chubby是一种提供粗粒度锁服务的文件系统,解决了分布式系统的一致性问题。这种锁只是推荐锁而不是强制锁。用户可以通过使用Chuby的锁定服务来保证数据操作的一致性。GFS使用Chubby选择GFS主服务器,BigTable使用Chubby指定主服务器,并找到和控制与之相关的子表服务器。BigTable是一种基于GFS和Chuby开发的分布式存储系统。许多应用程序对数据组织非常有规律。一般来说,数据库处理格式化数据非常方便。但由于关系数据库需要很强的一致性,很难将其扩展到很大的规模。为了处理谷歌内部大量的格式化和半格式化数据,谷歌建立了一个弱一致性要求的大型数据库系统。BigTablede在很多方面与数据库相似,但它并不是真正的数据库。许多海量结构化和半结构化数据,包括Web索引和卫星图像数据,都存储在BigTable中。3.Hadoop开启了大数据时代的大门Gogle技术,虽然不开源。如果没有DougCuting和他的Hadoop开源软件,我们就看不到大数据技术和应用的快速发展。以DougCutting为主导的Apachenutch项目是Hadop软件的源头,始于2002年,是Apachelucene的子项目之一。当时的系统架构还没有扩展到存储和处理拥有数十亿网页的网络数据。Google于2003年在SOSP上公开了一篇关于其分布式文件系统的论文TheGoogleFileSystem",及时为Nutch提供帮助。2004年,Nutch的分布式文件系统(NDFS)开始开发。同年,Google在OSDI上发表了题为“MapReduce:SimplifiedDataProcessingonLargeClusters受启发的DougCutting等人开始实现Mapreduce计算框架,并与NDFS合作(NutchDistributedFileSystem)结合起来,共同支持Nutch的主要算法。到2006年,它逐渐成为一套完整而独立的软件,已经到了Yahoo!到2006年,它逐渐成为一套完整独立的软件,已经到了Yahoo!工作的DougCutting将这个大数据处理软件命名为Hadoop。除Yahoo外,Hadoop在2008年初成为Apache的顶级项目!此外,它还被应用于许多互联网企业。早期的Hadoop,包括Hadoopv1和更早的版本,主要由HDFS和HDFS两个核心组件组成MapReduce,HDFS是GoogleGFS的开源版,Mapreduce计算框架实现了Google工程师提出的Mapreduce编程模型。Hadoop周围还有一些开源项目,为改善大数据处理的整个生命周期提供了必要的支持和补充。Zookeeper常用于这些软件、Hive、Pig、HBase、Storm、Kafka、Flume、Sqoop、Oozie、Mahout等等。2012年5月,Hadoopv2的Alpha版本发布,其中最重要的变化是将YARN添加到Hadoop的核心组件中。(YetAnotherResourceNegotiator)。YARN的出现是为了彻底分离计算框架和资源管理,解决Hadopv1可扩展性差、单点故障和不能同时支持多个计算框架的问题。YARN对标的恰好是Google的Borg系统。到目前为止,Hadop可以与Google的大数据平台相媲美。一个好的、充满活力的开源生态系统应该有一个核心。如果这个核心是差异化和非凡的,它也应该有广泛的应用和活跃的社区。Hadoop恰好有这三个特点,以Hadop为核心的大数据开源生态系统逐渐形成,Hadoop成为Linux以来最成功的开源软件之一。受人民大学信息学院院长杜小勇的委托,我在2015年CNCC组织了一个名为“大数据开源生态系统”的论坛。BBS邀请互联网公司、硬件制造商、系统集成商和学术界的同行分享他们在大数据开源方面的工作和经验。在最后的Panel链接中,我们讨论了为什么要开源和如何开源。答案相对分散。开源是唯一的选择。有些人打开产业链,有些人认为开源是一种新的商业形式和商业模式,有些人认为开源促进技术进步。总之,机构在产业链不同环节开源的动机和目标自然不同,但只有这样,产业链中的不同角色才能在生态系统中找到自己的位置。这样的生态系统是强大而充满活力的,不是吗?4.互联网行业是Hadoop发展历史和应用之路大数据领域第一个吃螃蟹的人。这是因为大数据的概念和技术都来自互联网公司的老大哥谷歌。从Hadop的实际应用来看,从2006年到2008年是Hadop的诞生阶段。只有少数外国互联网巨头在尝试,国内互联网行业正在学习这项新技术。2006年,Yahoo!为Webmap业务构建100节点规模的Hadop机组。2007年,Yahoo!构建1000节点规模的Hadop机组。2008年,Yahoo!Hadoop机组扩展到2000节点,Facebook将Hive项目贡献到开源社区。从2008年到2010年是Hadoop的少年阶段。实际应用已经投入到互联网行业,应用集中在网页存储检索、日志处理和用户行为分析等方面。2009年,Yahoo!使用4000节点组运行Hadoop,支持广告系统和Web搜索研究;Facebook使用600节点组运行Hadoop,存储内部日志数据,支持数据分析和机器学习;百度使用Hadoop处理每周200TB的数据,进行搜索日志分析和网页数据挖掘。2010年,FacebookHadoop群扩展到1000节点;百度每天可以用Hadoop处理1PB数据;中国移动通信研究院基于Hadoop开发了“大云”(BigCloud)该系统不仅用于相关数据分析,还提供外部服务;淘宝Hadoop系统已达到1000个规模,用于存储和处理电子商务交易相关数据。Hadoop青年阶段从2010年到2015年。在互联网行业,Hadoop被视为大数据计算的标准配置,应用形式趋于多样化;企业计算领域开始实践基于Hadop的大数据应用;在追求大数据处理能力的同时,也开始思考系统适应性和效率。互联网行业出现了大量的数据分析应用,如支付宝的交易数据离线分析系统;与生态系统中的其他软件一起,Hadoop构成了一个更复杂的应用系统,如腾讯的广点通精准广告系统、基于用户肖像的电信运营商精准营销系统等。除互联网行业外,还有网络通信大数据、金融大数据、交通旅游大数据、工业制造大数据、医疗卫生大数据、社会治理大数据、教育大数据等。大数据的概念和技术已经融入到各行各业。Hadoop起源于互联网行业,在应用于企业计算时需要适应,因为互联网应用与企业计算应用在需求、服务、研发、运维系统等方面存在本质差异。互联网应用业务逻辑简单,服务于大量用户、非固定用户、系统用户体验第一、连续交付、快速响应;企业计算应用业务逻辑复杂、用户数量有限、固定用户、系统强调稳定可靠、版本交付、层次技术支持。有一段时间,市场上出现了许多面向企业用户的Hadoop发行版本,以易于部署、配置良好、使用和管理方便为切入点,吸引了企业用户的注意。5.大数据技术发展趋势系统架构的专业化。从当今IT技术发展的角度来看,系统结构的解决方案是“应用驱动的大数据架构和技术”。也就是说,根据具体的类型应该
推荐阅读
- 2021最实用的超市收银软件排行榜
到目前为止,超市仍然是平民百姓常去购物地区之一,超市收银员会操纵收银系统及收银软件,各个收银软件各有千秋,那么,那个软件是最好用的?领过精挑细选,本文为大家整理了超市收银软件排行榜,大家可按需收藏。 一、hishop友数超市收银软件 友数收…查看详情
- jpg是什么意思
jpg是什么网络用语意思?是“紧迫感”的意思 含义: 形容事物的紧急迫切的状态。紧迫感常出现于做一件事情需要所需要的时间比要求完成的时间短得多,这个时候就会有紧迫感。 简单的讲就是:事情非常紧急,且没有缓冲的余地,但时间很少的状态。紧…查看详情
- 想要商城运营好,有哪些技巧
随着移动电商的发展,随来越多的商家注意到微商城重要性,但是在商城运营这块还是有一定难度的,有的运营者虽然花费了大量时间和精力,效果始终不尽人意,有的运营者却将商城运营的游刃有余。这是为什么呢?接下来小万就为大家分享几个商城运营的技巧。图片源…查看详情
- caj阅读器目录不见了怎么找
CAJ阅读器是一种常用的电子文献阅读工具,它可以方便地访问和阅读CAJ格式的学术期刊、学位论文等文献资源。然而,有时候用户可能会遇到CAJ阅读器目录不见的情况,导致无法快速定位和浏览文档中的内容。下面将介绍一些解决该问题的方法。 方法一:检…查看详情
- 手机互传软件有哪些 手机互传软件排行榜
在电脑上传文件大家是经常使用的,但是很多的小伙伴都想在手机上互传文件,下面小编就给大家来详细介绍一下手机互传软件有哪些 手机互传软件排行榜这一块的内容,希望能帮助到大家! 手机互传软件排行榜 1、《快牙》 这是一款可以进行快速…查看详情
- 密码管理软件 免费账号密码管理软件推荐
说道密码是我们每个人都需要记住的东西,毕竟有些软件或者系统是需要账号密码才可以进入的,比如现在用的最多的应该是支付密码,如果这个忘记的话那就是不小的事情了,今天我们就来盘点一下密码管理软件有哪些。 1、360保险箱 这是一…查看详情
- 9类商标注册包括什么?9类明细有哪些?
8类商标分类明细?商标种类分为8大类,分别是: 1.根据商标的结构方式可分为:文字商标、图形商标、图形与文字组合商标。 2.根据商标的用途和作用可分为:商品商标、服务商标。 3.根据拥有者、使用者的不同可分为:制造商标、销售商标、集体…查看详情
- 运营是什么意思,新手做运营需要了解什么?
自从线下生意愈发难做以来,人们嘴上提及运营的次数也逐渐多了起来。但对于很多人来说“运营”仍是个陌生的词,运营是什么意思,它能够起到什么作用呢?对于大家的疑问,小万来给大家简单讲解下概念,毕竟想要完全讲清楚运营没有个三五千字是很难表述清楚的。…查看详情
- [商品怎么注册商标] 满足以下特定条件的商品才能进行注册
商品注册商标有两种情况,一种是为商品设计一个区别于其他商品的标志进行注册;另一种是以该商品的名称注册一个商标。前一种是常见的一般性商标注册,后一种是涉及到商品特有名称作为商标注册的现象。下文主要阐述商品怎么注册商标的第二种,商品的特有名称作…查看详情
- 嵌入式linux和linux的区别是什么
谁知道linux是个什么东西,和嵌入式有什么区别吗?linux是一个操作系统的概念,如现在流行的操作系统有windows系统(如windowsxp,windows7、windows8、windows10系统)和linux系统(如Ubuntu…查看详情
- 为什么要使用实物资产管理系统
实物资产管理在企业管理中比不可少的,也是企业管理中非常重要的一环,它是企业业务顺利开展的重要保障,也是企业实现可持续发展的重要物质支撑,是企业发展道路上必须保障好的一个环节,可以把他理解成军队的后勤保障。小企业的实物资产相对较少,也比较好管…查看详情
- 淘宝数据包是什么意思?
优质答案(1) 数据包是你拿的货的一系列图片。在阿里巴巴拿货很多都是有网店的,网店拿货上新需要大量货物图片,数据包的作用就是在网店上新时候用的。 批发商一般都会把自己产品的实拍图在淘宝助理上排版好,导出来成为数据包,有商家拿货,会以…查看详情
- 5款简便的歌词制作软件
音乐是一个很神奇的东西,它可以在你难过时安慰你,你也可以通过它来发泄情绪。歌词是歌曲中的一个重要组成部分,下面是我给各位小伙伴总结的5款简便的歌词制作软件,有需要的话可以看看。 1.写歌助手 它是一款界面简洁、曲谱专业的歌…查看详情
- 网络编程软件有哪些?
互联网企业常用的编程软件?1.Notepad++:相信大部分开发人员都听说或使用过这个代码编辑器,记事本的增强版,免费开源、小巧灵活、使用方便,支持常见的自动补全、语法提示、代码高亮,可编辑语言多达27种,常见的html,css,javas…查看详情
- 推荐几款好用的免费的客服系统软件!
科技改变生活,带来了互联网、急速发展的经济和丰富的文化,在这个与时俱进的时代下,客服行业也在大力发展,这里为大家推荐几款好用的免费的客服系统给软件,希望对大家有帮助! 1.米云客服系统 米云客服可实现多个微信号对话集成、常用语常用语快捷回复…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP

企业首选的数字选用平台






