数据科学工程师容易犯的10个错误
2020-12-28 11:10:09 阅读(151) 评论(0)
无论是初学者还是有经验的工程师,都会或多或少犯一些错误,这里总结了一些常见的错误,你可以参考。数据科学家是“比任何软件工程师都更擅长统计,比任何统计学家都更擅长软件工程”的人。许多数据科学家都有统计背景,对软件工程几乎没有经验。我是一名高级数据科学家,在stackoverflow的python编程中排名前1%,与许多(初级)数据科学家一起工作。以下是我经常看到的10个常见错误。1.不要引用共享代码中需要代码和数据的数据数据科学。因此,他们需要访问数据,才能让别人复制你的结果。它看起来很简单,但很多人忘记了与他们的代码共享数据。解决方案:使用d6tpipe与您的代码共享数据文件,或上传到S3/web/谷歌驱动器等,或将其保存到数据库中,以便接收方检索文件(但不要将其添加到git中,请参阅以下内容)。2.硬编码的无效路径类似于错误1。如果您硬编码其他人无法访问的路径,它们将无法操作您的代码,并且必须在许多地方手动更改路径。解决方案:使用相对路径、全局路径配置变量或d6tpipe使数据易于访问。3.代码和数据混合在一起。既然数据科学代码需要数据,为什么不把它转移到同一个目录呢?在这样做的时候,还要保存图片、报告和其它垃圾。哦,真乱!解决方案:将目录组织成数据、报告、代码等类别。参见cookiecuterdatascience或d6tflowprojectemplates,并使用1中提到的工具存储和共享数据。4.将数据和源代码一起提交给Git,大多数人管理代码的版本。将数据文件添加到版本控制中,以便共享数据。对于非常小的文件,这是可以的,但git并没有优化数据,尤其是大型文件。gitadddata.csv解决方案:使用1中提到的工具存储和共享数据。如果您真的想控制版本的数据,请参见d6tpipee、存储DVC和Git大文件。5.有足够的讨论写方程而不是DAGS的数据。让我们谈谈实际代码!数据科学代码主要由一系列线性运行函数组成,因为在学习编写代码时,首先要学习的是函数。这将导致一些问题。请参考机器学习代码可能不好的四个原因。解决方案:将数据科学代码编写成一组任务,并在这些任务之间建立依赖关系,而不是使用线性链接函数。使用d6tflow或airflow。6.像函数一样使用for循环,for循环是你在学习编码时需要学习的第一件事。它们很容易理解,但它们又慢又冗长,通常意味着你不知道向量化的替代方案。解决方案:Numpy、scipy和panda为您认为可能需要循环的大多数内容提供了向量化函数。当数据、参数或用户输入发生变化时,您的代码可能会中断,有时您不会注意到。这可能会导致错误的输出。如果有人根据你的输出做出决定,错误的数据会导致错误的决定!解决方案:使用assert语句检查数据质量。pandas有平等测试,d6tstack可以检查数据输入,d6tjoin可以连接数据。数据检查的代码示例:8.我理解不写注释。你急于做分析。你把事情拼凑起来,让你的客户或老板知道结果。一周后,他们回来说“你能修改xyz吗?”或者“你能更新吗?”。你看着你的代码,却不记得你为什么这么做了。现在想象一下,如果有人来操作它。解决方案:额外的时间,即使在你交付分析后,也要记录你所做的事情。你会感谢自己,别人会更感谢你!你会看起来很专业!9.将数据存储为csv或pickle,然后返回数据,毕竟是数据科学。就像函数和for循环一样,csv和pickle文件也经常使用,但它们实际上并不好。csv不包括模式,所以每个人都必须重新分析数字和日期。pickle可以解决这个问题,但只能在python中工作,不能压缩。这两种格式都不适合存储大型数据集。解决方案:使用parquet或其他带有数据模式的二进制数据格式,最好是压缩数据格式。d6tflow将自动任务的数据输出保存为parquet格式,因此您不必处理它。10.使用jupyternotebooks让我们以一个有争议的结论结束:jupyternotebooks和csv一样常见。许多人使用它们。这并不能让他们变得更好。jupyternotebooks助长了上述许多不良软件工程习惯,特别是:您可能希望将所有文件存储在目录中,您编写的代码自上而下运行,而不是DAGS。您不需要模块化代码来调试代码和输出。您不能很好地控制文件中的版本。使用jupyternotebooks很容易开始,但很难扩展规模。
推荐阅读
- 2021最实用的超市收银软件排行榜
到目前为止,超市仍然是平民百姓常去购物地区之一,超市收银员会操纵收银系统及收银软件,各个收银软件各有千秋,那么,那个软件是最好用的?领过精挑细选,本文为大家整理了超市收银软件排行榜,大家可按需收藏。 一、hishop友数超市收银软件 友数收…查看详情
- jpg是什么意思
jpg是什么网络用语意思?是“紧迫感”的意思 含义: 形容事物的紧急迫切的状态。紧迫感常出现于做一件事情需要所需要的时间比要求完成的时间短得多,这个时候就会有紧迫感。 简单的讲就是:事情非常紧急,且没有缓冲的余地,但时间很少的状态。紧…查看详情
- 想要商城运营好,有哪些技巧
随着移动电商的发展,随来越多的商家注意到微商城重要性,但是在商城运营这块还是有一定难度的,有的运营者虽然花费了大量时间和精力,效果始终不尽人意,有的运营者却将商城运营的游刃有余。这是为什么呢?接下来小万就为大家分享几个商城运营的技巧。图片源…查看详情
- caj阅读器目录不见了怎么找
CAJ阅读器是一种常用的电子文献阅读工具,它可以方便地访问和阅读CAJ格式的学术期刊、学位论文等文献资源。然而,有时候用户可能会遇到CAJ阅读器目录不见的情况,导致无法快速定位和浏览文档中的内容。下面将介绍一些解决该问题的方法。 方法一:检…查看详情
- 手机互传软件有哪些 手机互传软件排行榜
在电脑上传文件大家是经常使用的,但是很多的小伙伴都想在手机上互传文件,下面小编就给大家来详细介绍一下手机互传软件有哪些 手机互传软件排行榜这一块的内容,希望能帮助到大家! 手机互传软件排行榜 1、《快牙》 这是一款可以进行快速…查看详情
- 密码管理软件 免费账号密码管理软件推荐
说道密码是我们每个人都需要记住的东西,毕竟有些软件或者系统是需要账号密码才可以进入的,比如现在用的最多的应该是支付密码,如果这个忘记的话那就是不小的事情了,今天我们就来盘点一下密码管理软件有哪些。 1、360保险箱 这是一…查看详情
- 9类商标注册包括什么?9类明细有哪些?
8类商标分类明细?商标种类分为8大类,分别是: 1.根据商标的结构方式可分为:文字商标、图形商标、图形与文字组合商标。 2.根据商标的用途和作用可分为:商品商标、服务商标。 3.根据拥有者、使用者的不同可分为:制造商标、销售商标、集体…查看详情
- 运营是什么意思,新手做运营需要了解什么?
自从线下生意愈发难做以来,人们嘴上提及运营的次数也逐渐多了起来。但对于很多人来说“运营”仍是个陌生的词,运营是什么意思,它能够起到什么作用呢?对于大家的疑问,小万来给大家简单讲解下概念,毕竟想要完全讲清楚运营没有个三五千字是很难表述清楚的。…查看详情
- [商品怎么注册商标] 满足以下特定条件的商品才能进行注册
商品注册商标有两种情况,一种是为商品设计一个区别于其他商品的标志进行注册;另一种是以该商品的名称注册一个商标。前一种是常见的一般性商标注册,后一种是涉及到商品特有名称作为商标注册的现象。下文主要阐述商品怎么注册商标的第二种,商品的特有名称作…查看详情
- 嵌入式linux和linux的区别是什么
谁知道linux是个什么东西,和嵌入式有什么区别吗?linux是一个操作系统的概念,如现在流行的操作系统有windows系统(如windowsxp,windows7、windows8、windows10系统)和linux系统(如Ubuntu…查看详情
- 为什么要使用实物资产管理系统
实物资产管理在企业管理中比不可少的,也是企业管理中非常重要的一环,它是企业业务顺利开展的重要保障,也是企业实现可持续发展的重要物质支撑,是企业发展道路上必须保障好的一个环节,可以把他理解成军队的后勤保障。小企业的实物资产相对较少,也比较好管…查看详情
- 淘宝数据包是什么意思?
优质答案(1) 数据包是你拿的货的一系列图片。在阿里巴巴拿货很多都是有网店的,网店拿货上新需要大量货物图片,数据包的作用就是在网店上新时候用的。 批发商一般都会把自己产品的实拍图在淘宝助理上排版好,导出来成为数据包,有商家拿货,会以…查看详情
- 5款简便的歌词制作软件
音乐是一个很神奇的东西,它可以在你难过时安慰你,你也可以通过它来发泄情绪。歌词是歌曲中的一个重要组成部分,下面是我给各位小伙伴总结的5款简便的歌词制作软件,有需要的话可以看看。 1.写歌助手 它是一款界面简洁、曲谱专业的歌…查看详情
- 网络编程软件有哪些?
互联网企业常用的编程软件?1.Notepad++:相信大部分开发人员都听说或使用过这个代码编辑器,记事本的增强版,免费开源、小巧灵活、使用方便,支持常见的自动补全、语法提示、代码高亮,可编辑语言多达27种,常见的html,css,javas…查看详情
- 推荐几款好用的免费的客服系统软件!
科技改变生活,带来了互联网、急速发展的经济和丰富的文化,在这个与时俱进的时代下,客服行业也在大力发展,这里为大家推荐几款好用的免费的客服系统给软件,希望对大家有帮助! 1.米云客服系统 米云客服可实现多个微信号对话集成、常用语常用语快捷回复…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP

企业首选的数字选用平台






