“数据科学”的演化及应用
2021-01-06 13:50:31 阅读(143) 评论(0)
数据科学家如何变得性感的故事,大致就是统计学作为一门成熟学科如何与新兴学科的计算机科学发生关系的故事。“数据科学”这个术语出现较晚,用来指代一个需要解释大量数据的职业。但数据的解读历史悠久,多年来一直被科学家、统计学家、图书馆员、计算机科学家和其他人讨论。以下时间线可以追溯到“数据科学”一词的演变,以及它的应用、定义它的尝试和一些相关术语。1962年Johnw.Tukey在数据分析的未来(”TheFutureofDataAnalysis)写道:“长期以来,我以为自己是统计学家,对从特例中得到关于整体的推断感兴趣。但当我目睹了数学统计学的发展时,我产生了猜测和怀疑。。。我开始觉得我的基本兴趣在于数据分析。。。数据分析和一些相关的统计学必须承担更多的科学特征,而不是数学特征。。。数据分析本质上是一门经验科学。。。预设程序的电子计算机。。它有多重要?在许多情况下,答案令人惊讶:重要但不重要,计算机在其他情况下无疑是至关重要的。1947年,Tukey创造了“比特”(bit)“这个术语在1948年被Claudeshanonused用于“传播数学理论”(”AMathematicalTheoryofCommunications)一文中。Tukey于1977年出版了《探索性数据分析》(ExploratoryDataAnalysis),他在书中提出,我们应该更加关注使用数据来提出哪些假设需要测试的建议,以及探索性数据分析和论证性数据分析“能够并驾齐驱”。1974年,Peternaur在瑞典和美国出版了《计算机方法简要调查》(ConciseSurveyofComputerMethods)。这是一项关于当时使用的数据处理方法的调查,包括许多应用程序。本书遵循国际信息处理联合会的数据处理概念和术语指南(IFIPGuidetoConceptsandTermsinDataProcessing)“数据”的定义:“(数据是)必须能够以某种形式传播或操作事实或想法的标准化表现。根据这本书的前言,国际信息处理联合会于1968年展示了一份题为“数据学:数据处理的科学及其在教育中的地位”的课程计划。Naur为数据科学提供了以下定义:“数据形成后,处理数据的科学。数据与它所代表的东西之间的关系属于其他领域和科学范畴。1977年,国际统计联合会(TheInternationalAssociationforStatisticalComputing(IASC))作为国际统计研究院(ISI)成立了一个分支。“国际统计联合会的任务是将传统的统计方法、现代计算机技术与各领域专家的知识联系起来,将数据转化为信息和知识。“GregoryPiatetsky-Shapiro于1989年组织并主持了第一次数据库知识发现(KnowledgeDiscoveryinDatabases(KDD))研讨会。1995年成为国际计算机年会知识发现和数据挖掘的SIGKDD会议。1994年9月,《商业周刊》发表了一篇关于“数据库营销”的商业报道:“企业收集了大量关于你的信息,并将这些知识提炼成营销信息,准确地瞄准你。。。20世纪80年代扫描码器的繁荣在广泛的失望中结束:许多公司被总数据淹没,但无法获得有用的信息。。。然而,许多公司认为,他们别无选择,只能勇敢地站在数据库营销的前线。1996年国际分类协会联盟(InternationalFederationofClassificationSocieties(IFCS))双年会在日本神户举行。“数据科学”一词首次包含在会议标题中(“数据科学、分类等相关方法”)。联盟由六个国家/语言分类组织于1985年成立,其中一个是“分类协会”(TheClassificationSociety)成立于1964年。这些分类协会在其出版物中大量使用数据分析、数据挖掘、数据科学等术语。UsamaFayy1996年、GregoryPiatetsky-Shapiro、Padhraicsmyth出版了《从数据挖掘到数据库的知识发现》(FromDataMiningtoKnowledgeDiscoveryinDatabases”)。他们写道:“在过去,从数据中寻找有用的模式被赋予了许多名称,包括数据挖掘、知识提取、信息发现、信息收获、数据考古学和数据模式处理。KDD(数据库中的知识发现)是指从数据中获取有用知识的整个过程,而数据挖掘是指具体的环节之一。数据挖掘是利用特定算法从数据中提取的模式...KDD过程中的其他步骤,如数据准备、数据选择、数据清洗、与合适的已知识相结合、对挖掘结果的正确解读,对于确保从数据中获得有用的知识非常重要。数据挖掘方法的盲目应用(统计文献中被批评为“数据挖泥”(datadredging))可能是危险的,会得到无用的发现和无效的模式。”1997年C.F.密歇根大学统计系HeffWu教授(现在在乔治亚理工大学工作).C.在就职典礼上,Carver主席提出统计学应重命名为数据科学,统计学家应重命名为数据科学家。1997年《数据挖掘与知识发现》(DataMiningandKnowledgeDiscovery)期刊发行。这两个术语的顺序意味着“数据挖掘”地位的上升,并成为描述“从大数据库中提取信息”的一种更流行的方式。1999年12月,沃顿商学院Knowledge@Wharton的《从数据中挖掘知识的金块》引用了JacobZahavi的说法:“传统的统计方法在小数据集上工作得很好。但今天的数据库有数百万行和大量列……可扩展性已经成为数据挖掘的一个大问题。另一个技术挑战是开发一个模型,可以更好地分析数据,发现非线性关系和元素之间的联系……网站决策可能需要特殊的数据挖掘工具。WilliamS2001年.Cleveland出版了《数据科学:扩展统计技术领域的行动计划》(“DataScience:AnActionPlanforExpandingtheTechnicalAreasoftheFieldofStatistics”)。该计划“扩大统计领域技术工作的主要领域。雄心勃勃的计划包含了本质的变化。变化后的领域被称为“数据科学”。“Cleveland在计算机科学和当代数据挖掘工作中定位了这一新领域:“……数据分析师的收入有限。由于计算机科学家思考和分析数据的方法有限,统计学家对计算环境的知识有限。知识的融合将带来巨大的生产力创新。这意味着统计学家应该更加关注知识的计算,就像过去数据科学关注数学一样。数据科学系应该由致力于改进数据计算的成员和与计算机科学家合作的成员组成。2001年,LeoBreiman出版了《统计建模:两种文化》(“StatisticalModeling:TheTwoCultures”):在使用统计模型从数据中提取结论的过程中,有两种文化。假设数据是由特定的分布模型生成的。另一种是使用算法模型,并将数据结构视为未知。统计学界普遍致力于只使用数据模型。这种投资产生了毫无意义的理论和可疑的结论,使统计学家无法触及许多实际问题。在理论和实践中,算法模型在统计学之外发展迅速。它不仅可以应用于庞大而复杂的数据集,还可以在小数据集上建立大量准确信息的模型。如果我们的目标是使用数据来解决问题,那么我们需要摆脱对纯基于数据模型的依赖,并使用更多样化的工具。”
推荐阅读
- 2022最新清理垃圾软件 手机最强深度清理软件
我们的手机使用的时间长了多多少少会有一些垃圾出现,那么肯定是需要借助垃圾清理软件去清理的,这样的话才能保证手机的内存够用,如果你一直不清理的话,时间长了,堆积的垃圾越来越多,就会导致手机出现卡顿的现象。 1、系统优化大师 一…查看详情
- 一键去水印的APP有哪些?去水印好用的软件推荐
很多人特别喜欢拍照片或者是选择一些比较好的图片,这个时候如果图片上有水印就需要进行图片修理,如果想要去掉图片上的水印,那么也应该要选择一款专业的软件。有了软件之后就能够将图片上的水印更好的去除,打造出自己想要的图片效果。那么一键…查看详情
- java的特点是什么
java是什么文件格式?Java一般存在两种文件格式,如下: 1.*.java文件是保存源代码的文本文件(*代表类名)使用javac*.java可以编译该文件使用java*可以运行该类2.*.class是用于保存Java类的二进制编码以及…查看详情
- 作者许可他人版权登记,著作权归属为谁?
通常情况下,著作权一般都归原创作者。我国同时又实行著作权登记制度,谁登记谁就拥有对作品的使用权。那么若是作者许可他人版权登记,作品著作权应归谁所有呢? 图片来源于网络 作者许可他人版权登记,著作权归属如何确定? 首先,作者许可他人版权登记在…查看详情
- ems网点的优缺点总结大全
ems网点作为全国范围最广的快递网点,相信许多人都用它寄存过东西。作为中国速递行业的最大运营商和领导者,它能吸引人们的不仅仅是因为它的范围广阔,还由于它各处优于其它网点的特点,那么今天我们来分析一下ems网点的优缺点。…查看详情
- lrc是什么文件
LRC文件是什么意思?lrc是英文lyric(歌词)的缩写,被用做歌词文件的扩展名。以lrc为扩展名的歌词文件可以在各类数码播放器中同步显示。LRC歌词是一种包含着形式的“标签(tag)”的、基于纯文本的歌词专用格式。最早由郭祥祥先生(Dj…查看详情
- 好用的安卓锁屏软件 免费的安卓锁屏软件
现在越来越多的用户都比较喜欢追求个性化,很多的人都对自己手机的锁屏软件比较在意,下面万商云集小编就为大家分析5款好用的好用的安卓锁屏软件。 【Top.5】天天锁屏 网友点评:漂亮又赚钱的锁屏,还能下载DIY锁屏模板,制作属于自己的锁屏,…查看详情
- 7款免费收银软件系统排行
随着时代的进步,使用现金的年轻人越来越少,但更多的年轻人纷纷开始使用了在线支付。不仅省去了找零钱的麻烦又省去收到假钱的麻烦。那么我给大家推荐7款实用又免费的收银系统软件如下。 1中国移动云pos收银台 中国移动云pos收银台是中国移动面向手…查看详情
- 企业网站建设的功能需求和性能要求
互联网技术在发展,人们对技术的依赖和需求也越来越强,企业在网站建设上的投入也越来越大,对于网站建设功能的要求也越加严格和完善,当网站需要进行功能拓展的时候,就需要整合主站、分站和其它内外网的工作,这样的拓展工作是很花费时间和人力的。也容易让…查看详情
- fprintf函数的用法matlab
matlab中的fprintf('y[%2.0f]=%12.6f'?1、首先,fprintf如果没指定文件句柄,则直接在屏幕上输出。 2、格式字符串中,其它内容都是原样输出,只有百分号后面的内容是要转换的,%2.0f表示要…查看详情
- 知识产权服务机构进行项目评估的实施流程
知识产权评估是指知识产权服务机构的注册资产评估师依据相关法律、法规和资产评估准则,对知识产权评估对象在评估基准日特定目的下的知识产权价值进行分析、估算并发表专业意见的行为和过程。知识产权评估中所涉及的知识产权内容比较多,一般主要对商标权、专…查看详情
- 几款免费在线观看电视软件,好剧再也不错过
看电视可以直接在电视上看,还可以在手机上看,不过现在大多数人都会在手机上看,而且方便,不需要准时准点,随时都可以看,那么,关于看电视软件都有哪些,许多人还不知道。 1、腾讯视频 腾讯视频是腾讯公司旗下的视频在线观看产品,定位…查看详情
- 免费好用的安卓模拟器有哪些 安卓模拟器排行榜
对于android开发者来说,模拟器是开发工具,但是对用户来说,可能就是薅羊毛、找漏洞的赚钱工具。不管是活动风控还是内容保护等等其他的出发点,应要求可能会要识别Android模拟器,甚至禁止模拟器登录或后续操作。但是对于用户来说很多的模…查看详情
- 来电显示软件苹果 苹果手机来电提醒软件
现在很多的用户都喜欢在手机里装来电显示软件,下面万商云集小编就为大家详细介绍下来电显示软件的相关内容、。Callkit是很多朋友期待已久的一个功能,目前iOS版微信和QQ 都已处于内测阶段,引发大量用户的关注。不过,还有很多人对Call…查看详情
- 版权登记补贴 | 成都、武汉、深圳等各地奖励政策都不相同
登记版权可以保护版权人的权利免受损失,无论是对企业还是个人来说,它都是应该值得重视的问题。如今,各地政府都有版权登记补贴,相当于自己进行版权登记无需任何花费,只是具体的政策各地都有不同。 图片来源于网络 各地版权登记补贴政策如下: ▼ 成…查看详情
猜你喜欢
最新文章
扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121
关注微信公众号
和10万中小企业共同成长
扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有 蜀ICP备12001963号-2 川公网安备 51010402000322号
快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
免费查找信息保护中请放心填写-
-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP
企业首选的数字选用平台