数据分析方法论有效性的评判关键是什么?
2021-01-11 10:25:24 阅读(217) 评论(0)
1、在数据集成项目中,最困难的过程是数据分析。数据分析过程位于数据集成项目的整个过程(准备早期研究)—–数据分析—–界面实现)的第二步为第三步界面实现提供了充分的准备,因此数据分析的正确性在很大程度上决定了数据集成的成功实现和完成。如何有效地进行数据分析,如何提前在数据分析中尽量避免出现问题,直到实现为止?这是判断数据分析方法论有效的关键。经过几个项目的经验,我反思了做这些项目时更有效的方法和错误的方法,总结了一套我认为可行的数据分析方法。该数据分析方法仅适用于数据库-文件-数据库或数据库-数据库的分析,以及接口集成(如调用对方的webservice、EJB接口等。)不适用,在这种数据分析方法中,指导数据分析的步骤和需要注意的问题,编写这个blog,希望有同行的同学多交流。2、数据分析方法论中涉及的术语的解释:目标数据源是指需要在数据集成中导入数据的数据源,可以是数据库或文件。2、该方法所涉及的术语的解释:目标数据源是指需要在数据集成中导入数据的数据源,可能是数据库或文件。源数据源是指在数据集成中获取数据的数据源,可能是数据库或文件。字典代码以代码的形式存储在数据库中(如数字、英文字母等)。)而不是中文意思,这些代码称为字典代码。2.1.步骤2.1.1.分析目标数据源数据结构目标数据源可能是数据库或文件,但无论如何,它都有数据结构,首先要做的是分析目标数据源数据结构,在分析目标数据源数据结构时,分析清楚:表目标数据源需要交换什么表,这些表的含义是什么。这些表中包含的字段、字段类型和长度。分析每个字段的含义,包括字段的中文含义、字段所涉及的字典代码和字段规则(如业务规则、生成规则)。在分析了上述表、字段和字段的含义后,形成了以下结构的文档:字典代码字段规则idnumber(10)主键流量-流量,unitcodevarchar2(19)单位编码字典-2.1.2.完成第一步后,分析目标数据源的表关系,然后分析目标数据源的表关系。分析表关系最重要的是分析每个表之间的关联关系(如一对一、一对多、主键和外键),其次,需要根据业务分析每个表之间的隐性关联,例如,只有当A表中的某个值为03时,才与B表相关。对目标数据源的表关系进行分析后,形成以下Rose图:2.1.3.数据源分析的数据结构方法与2.1相同.1.分析对象改为源数据源,分析后形成相同的2.1.1中的文档。对目标数据源的表关系进行分析后,形成以下Rose图:2.1.3.分析源数据源的数据结构方法与2.1相同.1.分析对象改为源数据源,分析后形成相同的2.1.文档1.2.1.4.分析源数据源的表关系方法与2.1相同.2.分析对象改为源数据源,分析后形成相同的2.1.2中的Rose图。2.1.5.根据目标数据源的表关系,根据目标数据源的表关系,分析其与源数据源表的对应关系。在这一步中,我们需要清楚地分析目标数据源的表数据来自源数据源,以及如何获取这些数据,分析后,可以形成一个标准来验证数据集成是否正确,也就是说,目标数据源的数据量应该与来源数据源的数据量一致。在分析过程中,仍然根据目标表的业务意义在源数据源的表中找到具有相同意义的表。在分析过程中,可能会遇到以下情况:意义相同的表通常使用一个表存储目标数据源和源数据源,意义相同的表通常是一对一的数据关系,例如,目标数据源中有一个表是常住人口的基本信息,源数据源中有一个常住人员的基本信息,两个表可以对应。当然,有时意义不一定相同,这需要从业务层面来判断。在这种情况下,目标数据源通常是一个表,源数据源是多个表。此时,形成多对一关系。例如,目标数据源中有一个表是项目表,源数据源中有几个表,如手机和证券。此时,您需要将手机和证券表对应于项目表。或者可能会遇到这样的现象,目标数据源是一个表,源数据源也是一个表,但源数据源每行记录包含两种类型的目标表记录,在这种情况下需要将源数据源记录分成两个进入目标表,如目标数据源是迁出表,其存储模式是单独记录存储,源数据源也是迁出表,但是,它的存储方式是在同一条记录中进行迁出和迁出。此时,将源数据源的迁出表的一行记录分为两条进行导入。具有包含意义的表与具有包含意义的表相反。含义表与上述含义表相反。根据业务的对应关系,这是最复杂的。例如,可能会遇到这样的现象。当源数据源中表的一个字段的值为多个时,需要将其分成两个记录并导入到目标表中。综上所述,目标数据源表和源数据源表可能存在一对一、一对多、多对一、多对多、条件对应几种关系,分析后形成以下文档:目标数据源数据源验证标准AAAA.数据量==A.数据量(变化(新增、编辑、删除)BB CB.数据量==B.数据量 C.数据量C DDC.数据量 D.数据量=D.数据量 C.数据量=D.数据量(D.wplx=’03’)D.数据量=D.数据量(D.wplx=’05’)EEE.数据量=E.数据量*2FFF.数据量=F.数据量/2(F.qrsj=F.qcsj)GGG.数据量=G.数据量 G.数据量(G.name包含,的总数-1)2.1.6.根据表的对应关系分析字段的对应关系和转换规则,根据表的单一对应关系(如目标数据源的B表对应源数据源的B表)、C表需要分为B对应B和B对应C两个步骤进行分析)来分析每个表中字段的对应关系和转换规则,相应的方法是:首先在相应的表中找到相应的字段,如果找不到相应的字段,需要从业务意义的角度推测字段是否需要合并多个字段或拆分字段,或根据某些业务规则生成字段的值。找到相应的字段后,首先根据类型和长度分析是否需要处理类型和长度,然后分析是否通过与其他表相关的字段获得,然后分析字段是否涉及字典代码。如果涉及,则需要比较两侧的字典代码是否一致,如果不一致,则需要形成两侧字典代码的对应关系,最后分析字段是否涉及业务意义,如果涉及,应注明如何处理。分析完成后,形成以下文档:idnumber(10)表名字段类型及长度源数据源字段类型及长度转换规则.idnumber(10)unitcodevarchar2(19).xzqh 表名.unitvarchar2(8) varchar2(20)单位代码字典映射contentvarchar2(100)Substr(表名.content,0,50、Varchar2(100)ifmonthVarchar2(1)If(表名.createdate.月份==系统时间的月份) Return‘1’;ElseReturn‘2’.unitnameVarchar2(100)UnitNames.unitNameVarchar2(100)表名.xzqh 表名.unit=UnitNames.UnitCode2.2.需要注意的问题是,数据集成是系统中最重要的基础,因此,在进行数据集成时,特别需要仔细考虑不会对数据产生破坏性影响,这也是数据分析过程中需要仔细考虑的问题。2.2.1.在进行数据分析时,需要考虑数据覆盖/混乱的问题,以便在集成数据后是否会非法覆盖或混淆现有数据。这个问题通常是由主键引起的,在进行数据分析时需要考虑。2.2.2.在进行数据分析时,需要考虑数据集成后可能出现的错误。对于这些可能出现的错误,需要制定相应的补偿方案,以避免数据的损坏。2.2.2.在进行数据分析时,需要考虑数据集成后可能出现的错误。对于这些可能出现的错误,需要制定相应的补偿方案,以避免数据的损坏。2.2.3.源数据源数据质量问题的解决方案需要考虑如何处理或避免源数据源本身的数据质量问题。2.2.4.在整个数据分析过程中,业务专家的支持可以看出,业务专家起着非常重要的作用。可以说,如果没有业务专家,数据分析很可能会失败,或者需要走很多弯路才能最终探索。可以肯定的是,在业务专家的支持下,整个数据分析过程将大大延长。从这个角度可以看出,在进行数据分析时,尽量得到业务专家的支持。3、总结上述方法对数据分析的过程和避免问题的方法进行了一定的描述。在实际的数据分析中,最重要的是负责数据分析的人对系统的理解。有系统设计经验的人成功进行数据分析的概率要高得多。一些非常专业的系统必须依靠有相应设计经验的人才来完成,比如流程系统的数据集成。在数据分析过程中,可以制定出判断数据集成是否成功的标准,也可以列为TDD的入口条件,J。在数据分析过程中,可以制定出判断数据集成是否成功的标准,也可以列为TDD的入口条件,J。方法论仍然是理论。我不是一个那么讲理论的人,但我不否认理论对实践有很好的指导作用。最好避免在实践过程中走太多弯路,将理论与实践相结合。理论指导实践,实践改进理论。
推荐阅读
- 2022年六大微信小程序制作软件
现在科技越来越发达,转钱道路也越来越多,所以越来越多人需要微信小程序制作软件,今天我就来给大家介绍介绍2022年六大微信小程序制作软件,保证这里面有你喜欢的,都是特别好用的无差评的软件。 1.微信小程序管家 微信小程序管家…查看详情
- 功能强大的软件系统开发工具有哪些?
科学技术不断发展,我们身处于大数据时代,现在很多的软件开发公司都以客户满意度为中心设计出一些好用的软件,获得了很多用户的一致好评。那么功能强大的软件系统开发工具有哪些?让我来告诉你吧。 1.Snapman 它是一款操作简单…查看详情
- 3款好评率高的人力资源系统管理软件测评
目前市面上的人力资源管理系统软件非常多,到底有哪些好用又靠谱呢?这里整理了一份3款好评率高的人力资源系统管理软件测评,可以让正在选型的HR能够找到适合自身发展的人力资源管理系统软件。 一、Workday人力资源系统管理软件 全球人力资源管理…查看详情
- 如何检测你的企业网站是否具备赚钱能力?
企业网站建设不再以展示为目的,更多企业主希望通过企业网站建设提高经营业绩,打造一款会赚钱的企业网站。那么什么样的企业网站是具备赚钱能力的呢?深研数千家不同行业的企业网站,我们可以通过以下两个特质,来检测你的企业网站是否具备赚钱能力。企业网站…查看详情
- 申请外观专利的程序和时间 外观专利申请时间多长
外观设计专利对公司和个人非常重要,外观专利的申请往往比较简单。但是,如果是第一次申请的话,由于不习惯程序和申请时间,有可能会陷入申请的漏洞。今天,让万商云集小编为你普及下外观专利申请的程序和时间。 申请外观专利的程序。 1.准备申请…查看详情
- 手机看书软件哪个好 2022看书比较好的软件
之前看到过很多关于为什么要读书的回答,其中一个回答令我印象深刻! 读书,你可以体验1000种人生。而不读书,你只能活一次! 我们没有办法无限延续生命的长度,但却可以增加生命的宽度和厚度,读书便是最好的方法。 随着互联网的不断发展,…查看详情
- 海外网站有哪些 2022海外网站排行榜
大家偶尔也会使用到国外的网站,其实海外的网站还是有很多优秀的网站,下面万商云集小编给大家来详细介绍一下海外网站有哪些 2022海外网站排行榜,希望能帮助到大家。 1、wallhaven 一个国外知名的壁纸网站,拥有海量的8k、4k…查看详情
- 如何开发微信小程序 怎么做一个微信小程序
随着微信用户规模的愈发壮大,小程序开始成为了企业商家开展营销的主栈道,但是微信小程序也是有开发门槛的,下面万商云集小编给大家来详细介绍一下如何开发微信小程序 怎么做一个微信小程序这方面的内容,希望能帮助到大家解决微信小程序开发的问题。 …查看详情
- 运营支招|教育机构招生,这样操作更简单!
2020年疫情突至教育行业的旺季陡然遭遇“寒冬”今年,各行各业也在陆续开门营业但各大教育机构仍然处在水深火热中对于今年的教育培训市场千万不能抱有侥幸心理疫情过后,销售额很难爆发式增长反而前进会更加艰难坚守以往的销售模式反而容易固步自封,营销…查看详情
- 二级域名网站找哪里做比较好?这几个平台是不错的选择
很多的企业都会有自己的网站,其实网站建设的不同带来的发展也是不一样的,网站可以分为很多种,有一级域名也有二级域名,有不少的企业都是使用的二级域名,但是在建二级域名网站的时候,也是应该要找到比较好的平台来制作,这样才能够带来更好的发展,也能够…查看详情
- 鼠标灵敏度如何调?以win7为例!
很多的小伙伴在使用鼠标的时候都会对灵敏度比较敏感,很多人都喜欢去调鼠标的灵敏度,下面小编就给大家来详细介绍一下鼠标灵敏度如何调这一块的内容,希望通过下面的介绍来帮助到大家调整鼠标的灵敏度。 鼠标灵敏度是什么 灵敏度是指某方法对单位浓…查看详情
- 全球范围内好用的个人管理软件详情介绍
在中国,我们更多地接触个人时间管理软件或库存软件。然而,很少有用户知道个人信息管理软件。个人信息管理软件的英文名称是pe1onalinformatiomanagement(个人信息管理),简称PIM,它用于管理我们日常生活中的许…查看详情
- 网店代运营一般收多少服务费?一般怎么收费?
优质答案(1) 抖音账号代运营一年大概5000元到20万不等。 扩展知识: 这个行业没有收费标准可言,因为大部分公司都是自己定价格。有的全年只收取一部分运营费用,再没有其他费用了。 有的团队是收取服务费+提成。有的团队是只收取提…查看详情
- 自由行旅游攻略APP哪个好?好用的自由行旅游攻略APP介绍
平时很多人都特别喜欢旅游,其实不管到什么地方去旅游,都应该要有一个很好的旅游攻略,这样才能够节省时间,玩得又开心。如果想要达到这样的效果,那么就应该要找到自由行旅游攻略APP,一般这样的APP上面介绍的都比较详细。那么自由行旅游…查看详情
- 中小企业做小程序,有哪些赚钱模式?
提及小程序,不仅街边餐饮门店处处在用,腾讯、阿里、百度、字节跳动、360等互联网巨头也在持续布局,小程序领域战火愈燃愈烈。时至今日若中小企业还不明白如何通过小程序赚钱,那就太落后了!小程序商店对于拥有线下门店的中小企业来说,小程序无疑是打开…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP

企业首选的数字选用平台






