数据分析方法论有效性的评判关键是什么?
2021-01-11 10:25:24 阅读(212) 评论(0)
1、在数据集成项目中,最困难的过程是数据分析。数据分析过程位于数据集成项目的整个过程(准备早期研究)—–数据分析—–界面实现)的第二步为第三步界面实现提供了充分的准备,因此数据分析的正确性在很大程度上决定了数据集成的成功实现和完成。如何有效地进行数据分析,如何提前在数据分析中尽量避免出现问题,直到实现为止?这是判断数据分析方法论有效的关键。经过几个项目的经验,我反思了做这些项目时更有效的方法和错误的方法,总结了一套我认为可行的数据分析方法。该数据分析方法仅适用于数据库-文件-数据库或数据库-数据库的分析,以及接口集成(如调用对方的webservice、EJB接口等。)不适用,在这种数据分析方法中,指导数据分析的步骤和需要注意的问题,编写这个blog,希望有同行的同学多交流。2、数据分析方法论中涉及的术语的解释:目标数据源是指需要在数据集成中导入数据的数据源,可以是数据库或文件。2、该方法所涉及的术语的解释:目标数据源是指需要在数据集成中导入数据的数据源,可能是数据库或文件。源数据源是指在数据集成中获取数据的数据源,可能是数据库或文件。字典代码以代码的形式存储在数据库中(如数字、英文字母等)。)而不是中文意思,这些代码称为字典代码。2.1.步骤2.1.1.分析目标数据源数据结构目标数据源可能是数据库或文件,但无论如何,它都有数据结构,首先要做的是分析目标数据源数据结构,在分析目标数据源数据结构时,分析清楚:表目标数据源需要交换什么表,这些表的含义是什么。这些表中包含的字段、字段类型和长度。分析每个字段的含义,包括字段的中文含义、字段所涉及的字典代码和字段规则(如业务规则、生成规则)。在分析了上述表、字段和字段的含义后,形成了以下结构的文档:字典代码字段规则idnumber(10)主键流量-流量,unitcodevarchar2(19)单位编码字典-2.1.2.完成第一步后,分析目标数据源的表关系,然后分析目标数据源的表关系。分析表关系最重要的是分析每个表之间的关联关系(如一对一、一对多、主键和外键),其次,需要根据业务分析每个表之间的隐性关联,例如,只有当A表中的某个值为03时,才与B表相关。对目标数据源的表关系进行分析后,形成以下Rose图:2.1.3.数据源分析的数据结构方法与2.1相同.1.分析对象改为源数据源,分析后形成相同的2.1.1中的文档。对目标数据源的表关系进行分析后,形成以下Rose图:2.1.3.分析源数据源的数据结构方法与2.1相同.1.分析对象改为源数据源,分析后形成相同的2.1.文档1.2.1.4.分析源数据源的表关系方法与2.1相同.2.分析对象改为源数据源,分析后形成相同的2.1.2中的Rose图。2.1.5.根据目标数据源的表关系,根据目标数据源的表关系,分析其与源数据源表的对应关系。在这一步中,我们需要清楚地分析目标数据源的表数据来自源数据源,以及如何获取这些数据,分析后,可以形成一个标准来验证数据集成是否正确,也就是说,目标数据源的数据量应该与来源数据源的数据量一致。在分析过程中,仍然根据目标表的业务意义在源数据源的表中找到具有相同意义的表。在分析过程中,可能会遇到以下情况:意义相同的表通常使用一个表存储目标数据源和源数据源,意义相同的表通常是一对一的数据关系,例如,目标数据源中有一个表是常住人口的基本信息,源数据源中有一个常住人员的基本信息,两个表可以对应。当然,有时意义不一定相同,这需要从业务层面来判断。在这种情况下,目标数据源通常是一个表,源数据源是多个表。此时,形成多对一关系。例如,目标数据源中有一个表是项目表,源数据源中有几个表,如手机和证券。此时,您需要将手机和证券表对应于项目表。或者可能会遇到这样的现象,目标数据源是一个表,源数据源也是一个表,但源数据源每行记录包含两种类型的目标表记录,在这种情况下需要将源数据源记录分成两个进入目标表,如目标数据源是迁出表,其存储模式是单独记录存储,源数据源也是迁出表,但是,它的存储方式是在同一条记录中进行迁出和迁出。此时,将源数据源的迁出表的一行记录分为两条进行导入。具有包含意义的表与具有包含意义的表相反。含义表与上述含义表相反。根据业务的对应关系,这是最复杂的。例如,可能会遇到这样的现象。当源数据源中表的一个字段的值为多个时,需要将其分成两个记录并导入到目标表中。综上所述,目标数据源表和源数据源表可能存在一对一、一对多、多对一、多对多、条件对应几种关系,分析后形成以下文档:目标数据源数据源验证标准AAAA.数据量==A.数据量(变化(新增、编辑、删除)BB CB.数据量==B.数据量 C.数据量C DDC.数据量 D.数据量=D.数据量 C.数据量=D.数据量(D.wplx=’03’)D.数据量=D.数据量(D.wplx=’05’)EEE.数据量=E.数据量*2FFF.数据量=F.数据量/2(F.qrsj=F.qcsj)GGG.数据量=G.数据量 G.数据量(G.name包含,的总数-1)2.1.6.根据表的对应关系分析字段的对应关系和转换规则,根据表的单一对应关系(如目标数据源的B表对应源数据源的B表)、C表需要分为B对应B和B对应C两个步骤进行分析)来分析每个表中字段的对应关系和转换规则,相应的方法是:首先在相应的表中找到相应的字段,如果找不到相应的字段,需要从业务意义的角度推测字段是否需要合并多个字段或拆分字段,或根据某些业务规则生成字段的值。找到相应的字段后,首先根据类型和长度分析是否需要处理类型和长度,然后分析是否通过与其他表相关的字段获得,然后分析字段是否涉及字典代码。如果涉及,则需要比较两侧的字典代码是否一致,如果不一致,则需要形成两侧字典代码的对应关系,最后分析字段是否涉及业务意义,如果涉及,应注明如何处理。分析完成后,形成以下文档:idnumber(10)表名字段类型及长度源数据源字段类型及长度转换规则.idnumber(10)unitcodevarchar2(19).xzqh 表名.unitvarchar2(8) varchar2(20)单位代码字典映射contentvarchar2(100)Substr(表名.content,0,50、Varchar2(100)ifmonthVarchar2(1)If(表名.createdate.月份==系统时间的月份) Return‘1’;ElseReturn‘2’.unitnameVarchar2(100)UnitNames.unitNameVarchar2(100)表名.xzqh 表名.unit=UnitNames.UnitCode2.2.需要注意的问题是,数据集成是系统中最重要的基础,因此,在进行数据集成时,特别需要仔细考虑不会对数据产生破坏性影响,这也是数据分析过程中需要仔细考虑的问题。2.2.1.在进行数据分析时,需要考虑数据覆盖/混乱的问题,以便在集成数据后是否会非法覆盖或混淆现有数据。这个问题通常是由主键引起的,在进行数据分析时需要考虑。2.2.2.在进行数据分析时,需要考虑数据集成后可能出现的错误。对于这些可能出现的错误,需要制定相应的补偿方案,以避免数据的损坏。2.2.2.在进行数据分析时,需要考虑数据集成后可能出现的错误。对于这些可能出现的错误,需要制定相应的补偿方案,以避免数据的损坏。2.2.3.源数据源数据质量问题的解决方案需要考虑如何处理或避免源数据源本身的数据质量问题。2.2.4.在整个数据分析过程中,业务专家的支持可以看出,业务专家起着非常重要的作用。可以说,如果没有业务专家,数据分析很可能会失败,或者需要走很多弯路才能最终探索。可以肯定的是,在业务专家的支持下,整个数据分析过程将大大延长。从这个角度可以看出,在进行数据分析时,尽量得到业务专家的支持。3、总结上述方法对数据分析的过程和避免问题的方法进行了一定的描述。在实际的数据分析中,最重要的是负责数据分析的人对系统的理解。有系统设计经验的人成功进行数据分析的概率要高得多。一些非常专业的系统必须依靠有相应设计经验的人才来完成,比如流程系统的数据集成。在数据分析过程中,可以制定出判断数据集成是否成功的标准,也可以列为TDD的入口条件,J。在数据分析过程中,可以制定出判断数据集成是否成功的标准,也可以列为TDD的入口条件,J。方法论仍然是理论。我不是一个那么讲理论的人,但我不否认理论对实践有很好的指导作用。最好避免在实践过程中走太多弯路,将理论与实践相结合。理论指导实践,实践改进理论。
推荐阅读
- 电商平台开发哪家好?如果你不知道怎么选,看这里!
电商平台开发哪家好?随着电子商务的快速发展,出现了很多电商平台开发公司,越来越多的企业开始注重自己网站的开发。但是,面对市面上众多的电商平台开发公司,到底该选择哪家比较好?图片来源于网络 电商平台开发哪家好?为你推荐几家电商平台开发公司。1…查看详情
- 好用的电脑主题软件 2022免费的电脑主题软件
如果你不熟悉设置电脑主题软件,你就吃了大亏,一款好看的电脑桌面软件能让你的工作心情愉悦,下面万商云集小编就带大家来看一下好用的电脑主题软件的相关内容。 本文仅供参考,这并不是一个排名列表。 1、McMojave McMojave是…查看详情
- 团购类网站搭建有哪些注意事项?这5步至关重要!
随着互联网和大数据的不断发展,相信大家对于网站建设的好处已经十分了解。在这种网站建设特别激烈的情况下,团购网站建设就成为了众多企业的选择。不过还是有许多企业对于团购网站建设不甚了解,那么到底应该怎么做呢?下面小编就来告诉你五步团购网站建设的…查看详情
- 巨亏875亿元!孙正义在马云身上赚的钱都亏回去了!
前天,软银公布了全年业绩预估,预计全年经营亏损1.35万亿日元(约875亿人民币)。而此前,市场预期软银全年将实现经营利润4665.6亿日元(约302亿人民币)。 软银自身对经营利润的预估和市场预期的差距将近两万亿日元,可谓是爆出业绩巨雷。…查看详情
- 订酒店的APP哪个好?这几款值得尝试
不管是旅行还是出差工作等等,都会涉及到住宿的问题,而订酒店自然也不能够忽视。建议大家不妨选择订酒店的APP,可以快速的浏览居住地的各种酒店类型,找到自己喜欢的一家酒店,那么订酒店的APP哪个好呢?这几款值得尝试。 1、美团…查看详情
- 学linux能干什么
学python有什么用?1、Python可用于开发基于控制台的应用程序。例如:IPython。IPython是一个交互式计算系统。主要包含三个组件:增加的交互式“Pytho1hell”,解耦的双过程通信模型,交互式并行计算的架构。支持变量自…查看详情
- 域名注册商查询 | 注意查询域名信息,防止域名被贪
域名注册商查询?域名信息查询?什么时候我们才需要进行域名相关信息查询呢?其实当在域名注册服务商或代理商处,成功注册域名后就应该进行查询,如此才能避免以后突然出现域名无法使用或被收回的情况。 现在很多域名注册平台都提供了域名注册商查询功能,如…查看详情
- 三钻淘宝店值多少钱
淘宝钻级店铺转让出售为什么这么火? 钻级是报名淘宝营销活动的基础门槛之一。一般会要求店铺等级在一钻或者三钻及以上。因此,相比星级店,钻级店铺价值更高。 另外,皇冠店铺价格大多数在一万五以上,钻级的淘宝店价格在8000-20000万元…查看详情
- 网站建设报告的核心内容
网站建设报告是进行网站建设前的必要环节,它囊括了网站建设的全部内容和细节,网站建设报告的核心内容是整个网站建设的项目重点,直接关系到网站建设流程的顺利和网站建成后效果的好坏,所以网站好不好,网站建设报告很重要。图片来源于网络● 网站定位在众…查看详情
- 古代言情小说排行榜 好看的古代言情小说有哪些
各位书友们有很多都是喜欢看古代言情小说的,这些小说里面还有很多是比较经典的,下面小编就给大家来详细介绍一下好看的古代言情小说有哪些 古代言情小说排行榜这一块的相关内容,希望能帮助到大家。古代言情小说排行榜 第一本:《腹黑王爷的万能邪…查看详情
- 为什么商标注册?绝大数人都不知道的商标隐形价值
对于商标相信大家都不陌生,商标是一个企业的门面。为什么商标注册?商标不仅仅是的一个图案那么简单了,它包含了企业文化,并且作为营销的另一种方式,他也在大大的曝光率中让更多的人记住了自己,记住了公司。不过如果不注册商标的话,很可能就为别人白白打…查看详情
- 如何优化搜索引擎 搜索引擎怎么优化
很多企业之所以需要建设网站,就是因为网站能够帮助企业提升经济效益,同时也能够为企业带来更多的客户流量。但是企业在进行网站运营时,也需要做好优化工作,这样才能够有好的排名,吸引更多用户的关注,下面万商云集小编给大家来详细介绍一下如何优化搜…查看详情
- 港剧排行榜前十名都有哪些?这些港剧就很不错
追剧是很多人都比较喜欢的,其实每一个不同类型的电视剧带给用户的体验也是不同的,很多人都比较喜欢港剧港剧带来的感觉不同,而且剧情也都是非常不错的,但是不同的港剧也有着不同的感觉,所以说很多人在选择港剧的时候都想要选择一些比较好的经…查看详情
- erp系统应用在零售行业有哪些优势
数据显示,随着信息化时代的到来,我国的传统行业为了符合大众需求,逐步开始了转型之路。其中零售行业相比于其他行业,显得极为缓慢。这是为什么呢?原来传统的零售行业,透过手工形式的记账来进行统一的核算的,不仅信息传递慢,还是时效差,所以对于转型之…查看详情
- 互联网产品的运营可根据这四个步骤进行
互联网产品是进入线上市场的核心,它的开发需要进行市场调研,并以用户需求为前提条件,同时又需要与竞品有差异化、个性化。而在互联网产品开发之后,接下来效果如何就看互联网产品的运营了。图片来源于网络 一款好的互联网产品需要运营来推广出去,一款不好…查看详情
猜你喜欢
最新文章
扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121
关注微信公众号
和10万中小企业共同成长
扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有 蜀ICP备12001963号-2 川公网安备 51010402000322号
快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
免费查找信息保护中请放心填写-
-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP
企业首选的数字选用平台