问与答:关于网站数据分析的一些问题(3)
2020-12-17 11:16:58 阅读(145) 评论(0)
前一篇文章——网站数据分析中的一些问题(2)主要是BI相关问题,本文主要是数据仓库相关问题。因为最近在阅读一些数据仓库信息和书籍,想提出以前和当前的主要问题(博客数据仓库相关内容请参考网站数据仓库目录),同时也对数据仓库知识进行整理和理解,很长一段时间没有在博客上发送新文章,不能让自己太懒。之前看过Inmon和DW2的《构建数据仓库》.0.另一位数据仓库大师Kimball的《数据仓库生命周期工具箱》没有时间阅读。最近有时间看大部分,迫不及待想写点东西。事实上,数据仓库领域普遍认为,Inmon和Kimball的理论是相反的。两者在构建数据仓库方向上的差异一直在争论,没有人能说服任何人哪种方法更好。我不知道什么时候从Evernote的笔记中摘录了对两者观点的一般描述,非常简洁明了,一针见血:其实看了《数据仓库生命周期工具箱》,发现两者的观点没有那么大的本质区别。随着数据仓库的不断发展,两者在整体结构上逐渐趋同。基本上,建立统一的企业数据仓库的方向是一致的,而Inmon倾向于从底层数据集成开始,而Kimball倾向于从上层需求的角度开始,这可能与他们从事的项目和位置有关。有了以上高质量的总结,第一个问题——你更喜欢如何构建数据仓库(BOTTOM-UPorTOP-DOWN),优缺点是什么?——事实上,没有必要问,所以下面主要提到一些实际上可能经常遇到或需要想清楚的问题:Q1、数据仓库的技术解决方案是什么,这些解决方案的优势和瓶颈是什么?随着数据仓库的不断发展和成熟,“大数据”概念的普及,相关产品越来越多。最常见的技术解决方案包括hadoop和hive,oracle,mysqlinfobright,grenplumnosql,或多种组合使用。事实上,有两种类型:一种是以传统RDBMS为主导的数据库管理数据,oracle、mysql等都是基于传统的关系数据库,其优点是数据结构更加严格,关系数据库对数据的管理更加规范,数据处理过程中可能出现的非人为误差极小,而标准的SQL接口使得数据获取成本更低,数据的查询和获取更加灵活高效;但缺点也很明显。当数据量达到一定程度时,海量数据的处理和存储能力不足会出现明显的瓶颈。但是基于文本的分布式处理引擎,hadoop、greenplum和nosql都是基于文本数据的处理和存储。其优点是数据处理能力强,分布式架构支持平行计算,扩展能力强;缺点是上接口不方便,因此,Hadoop上层的hive和grenplum上层的postgresQL都是为了解决数据接口问题,数据查询和获取难以实时响应,灵活性不足。Q2、数据仓库是否应保存聚合数据,细节数据不应放入数据仓库?Q2、数据仓库是否应保存聚合数据,细节数据是否不应放入数据仓库?事实上,这个问题基本上已经达成了共识。如果是企业数据仓库的建设,那么细节数据的集成和存储是必不可少的,但实际上仍有许多直接从外部数据源计算和聚合后导入数据仓库的例子。如果数据仓库只是一个轻量级的应用程序,只存储聚合数据是可以理解的。毕竟,没有人规定数据仓库必须是什么样子。最终目标是满足对数据的支持和需求。但对于企业的长期发展,数据仓库存储细节数据有两个优势:一方面从技术层面,数据仓库存储细节数据可以释放前台数据库的查询压力,同时对文本数据和外部文档数据管理更加标准化,数据仓库保留历史和不可改变的特点可以使信息不丢失;另一方面是使用数据,数据仓库使数据更容易获取和使用,集成细节数据使大量的文本数据可以查询和相关性,而主题设计使数据显示和分析更有方向性和目的性,细节数据对支持数据分析和数据挖掘应用至关重要。因此,如果数据仓库想要不断产生更大的价值,细节数据的存储是必不可少的。因此,如果数据仓库想要不断产生更大的价值,细节数据的存储是必不可少的。Q3、您将数据仓库分为几层,每层的数据功能是什么?没有标准答案,数据仓库可以根据数据仓库中数据的复杂性和对数据使用的需求进行划分。我通常把数据仓库分为三层:底层的细节数据,管理策略是优化存储,一般存储导入的原始数据,由于数据量大,需要优化存储;中间层是多维模型,管理策略是优化结构和查询,主题多维模型设计,需要满足OLAP和数据查询的多样化需求,确保查询的便利性,关键在于维度表的设计和维度的选择和组合。事实表需要注意存储和索引的优化;上层是显示数据,管理策略是优化效率。一般来说,它将存储每天需要显示的汇总报告,或根据多维模型组装的视图,显示层的数据需要以最快的速度显示,通常用于BI平台的Dashboard和报告。Q4、数据仓库建设中最复杂的事情是什么,最容易缺失的是什么?Q4、数据仓库建设中最复杂的事情是什么,最容易丢失的部分是什么?我一直认为数据仓库的核心不是数据集成。当然,数据集成是数据仓库实现价值的前提。数据仓库的真实价值反映在数据的有效应用中,数据源于业务对业务的反应。数据仓库建设的核心在于数据仓库的架构和数据模型的设计。如何权衡数据存储与数据获取效率之间的矛盾是数据仓库管理的难点。任何数据仓库都会有这个困难,大数据增加了这个平衡的难度。数据集成和数据质量控制是数据仓库建设中最复杂的事情,尤其是数据清洗过程。我以前写过几篇关于数据质量控制的文章,但实际上,这个过程要复杂得多。此外,为了上层数据输出的准确性和有效性,这项工作必须尽可能详细地完成。构建数据仓库中最容易缺少的是元数据的管理。很少有数据仓库团队拥有完整的元数据。当然,构建数据仓库的工程师本身就是活的元数据,但元数据对于使用数据的人和数据仓库本身的团队来说是必不可少的。一方面,元数据为数据需求方提供了完整的数据仓库使用文档,帮助他们独立快速获取数据,另一方面,数据仓库团队成员可以从日常数据解释中解脱出来,无论是后期迭代更新维护还是培训新员工,元数据都可以使数据仓库的应用和维护更加高效。
推荐阅读
- 公司名称变更后还需要变更哪些
一、引言 随着公司发展,有些公司可能会根据业务变化或其他原因需要修改公司名称。在名称变更后,公司除了需要修改各种证照、执照、文档等,还需要对多个方面的事项进行调整和更新。本文将针对名称变更后需要变更的方面进行详细描述和解释。 二、法…查看详情
- 在线客服系统免费的有哪些?
51客服是什么?51客服是一款专业的网上在线客服系统 51客服网上上客服是完全基于WEB实现的一款免费网页对话系统,简洁明快,无需安装任何插件。在提升服务质量的同时,也为使用者带来了新的客户来源和订单。免费客服系统有谁用过吗?用过很多,还…查看详情
- 小程序游戏制作工具
小程序游戏怎么做的? 小程序游戏需要掌握一定的编程知识,使用开发工具进行开发。 游戏的设计需要考虑玩家的体验和游戏的趣味性,同时还需要考虑游戏的流畅度和响应速度,以及吸引力和推广方案。 小程序游戏开发需要注意微信官方的规定和用户隐…查看详情
- 北京市规范双11商品价格,不允许价格先涨再降
目前各大电商平台的商家激战正酣,都想在这个每年一次的全民狂欢购物中分得一杯羹,各大商家做了看起来非常有吸引力的活动,比如1元抢6重优惠、第二家0元、全场3.5折起等等。因为往年有些商家都会在双11开始前一段时间先把商品价格涨价最后在双11当…查看详情
- 五个常见的数据库管理系统
数据库包含哪几个板块?数据库系统由4个部分组成: 1、数据库(database,DB)是指长期存储在计算机内的,有组织,可共享的数据的集合。数据库中的数据按一定的数学模型组织、描述和存储,具有较小的冗余,较高的数据独立性和易扩展性,并可为各…查看详情
- 2022年商标注册需要多久下来
商标只能到商标管理部门进行注册,才受法律的保护,注册的商标是不容侵犯的,而注册商标需要满足一定的条件,并且要经过一定的程序,而这个程序是比较长的,那么注册商标一般要多长时间?万商云集小编给你来详细解答一下这一块的相关内容。2022年商标…查看详情
- 公认游戏性能最强手机,各大电竞手游职业选手都在用
近年来,电子手游行业发展迅猛,每年都有各种大型的赛事展开。细心的朋友们会发现,赛场上的各位职业选手们所使用的手机与我们平时用的常见手机有很大的区别。这是因为他们所使用的是更适合玩游戏的专业游戏手机,其各种性能都要比我们平时买的手机有很大的区…查看详情
- windows10语言栏怎么设置
Windows 10语言栏是一个非常重要的工具,它可以设定你想要使用的语言,使得你的电脑界面上显示相应语言的文字,帮助你更加方便的进行操作和使用。 一般情况下,语言栏的默认设置可能是英语或者其他语言是英语,但如果你不想使用英语,想要…查看详情
- 计算机经历的四个时代是什么?
计算机的发展经历了哪些阶段?计算机发展经历了四个发展阶段: 1、第一个发展阶段:1946-1956年电子管计算机的时代。 特点:体积大,功耗大,速度慢 2、第二个发展阶段:1956-1964年晶体管的计算机时代:操作系统。 特点:采…查看详情
- 6款功能比较强大的手机浏览器排行
手机浏览器是手机里很重要的一款应用软件,即使手机硬件系统跟不上,但是浏览器一定是里面功能最强大的软件,没有之一。接下来,就让我来给大家介绍6款功能比较强大的手机浏览器排行吧。1.西瓜浏览器它是全新一代手机移动设备开发的一款手机浏览器,它可以…查看详情
- 一键免费生成微信小程序 免费小程序制作软件
现在的小程序非常多,只要把小程序做起来,就可以赚很多的钱,包括还会有人主动找你合作,所以,想要开发自己的小程序,就需要看看小程序制作软件都有哪些,要用软件制作。 1、上线了 一个好评很高的小程序开发平台,几乎包含各个行业,包…查看详情
- 钉钉视频会议爆满怎么解决,这几种方法可以解决
相信大家平时在疫情期间都使用过钉钉来进行学习和进行视频会议, 但是很多的时候会遇到一个问题就是视频会议爆满的情况,下面小编就给大家来详细介绍一下如何解决这个问题。 钉钉视频会议爆满怎么解决 1、在钉钉软件我的界面里,点击设置按钮。…查看详情
- 想要进行手机网站建设,选择平台要注意这几点
现在我们的手机可以说功能是越来越强大了,智能化越来越高,所以很多企业和个人,也利用了这一点进行互联网方面的营销,的确也带来了不错的效果,如果想要进行手机网站建设的话,在选择平台上需要注意这几点,因为选择好平台,才能够建立好更完美…查看详情
- 笔记本软件如何选?推荐这几款
现在的人们,已经慢慢的放弃使用纸质的笔记本了,更多的开始选择一些笔记本软件,来记录事情,或者是写各种学习的笔记和工作的笔记等等,但是在选择笔记本软件的时候,一定要注意根据自己的需求,那么笔记本软件如何选择呢?推荐这几款,一起来了…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP

企业首选的数字选用平台






