如何有效的成为一名数据科学家?五个步骤
2021-01-06 09:13:53 阅读(290) 评论(0)
人们总是问我如何有效地成为数据科学家。我的经验是先成为一名软件工程师,然后阅读与数据科学相关的PhD(在它成为热点之前)。在本文中,基于我在这一领域的经验总结,我给出了成为数据学家的第一步,以帮助那些想要从纯软件工程转向数据科学的人。如果你已经明确想成为一名数据科学家,那么我不建议使用传统的学习方法。当我们独立学习时,我们可以从互联网上找到很多可用的学习材料。事实上,我们可以比阅读PHD更快地进步,因为PHD项目有很多循规蹈矩的事情要花费我们很多精力。本文由五个相关步骤组成。虽然我列出了顺序,但许多步骤可以同时进行。这些步骤一般来自我的第一篇论文,由IngridZukerman和FabianBohnert联合出版。虽然你对数据科学领域的机器学习和数据一无所知,但从解决问题开始是非常重要的。理想化,你可以找到一些你感兴趣的东西,因为它会更有激情。您可以使用一些原始问题,如Kaglecompetition或UCIdatasetsets等.或者你也可以自己收集数据分析,这将更具挑战性。当时我的兴趣点是naturalanguageprocesing和usermodeling.我的导师被授予一批资金对问卷进行情感分析,这也成为了我的研究方向。本课题很快就专注于研究作者与他们表达情感的方式之间的关系,并应用于提高情感分析算法的准确性。为了实现研究目的,我收集了大量IMDB用户的文本数据。难点在于结合这些用户自己的评论来推断他们的等级,假设考虑作者身份的方法比忽略他们的身份背景更有用。无论你选择什么问题,你都会面临跨领域的知识学习,如维基百科全书、教科书和在线课程将类似于机器学习和数据,最好的基础教程。阅读专业论文可以帮助你更好地理解当前的问题,当你面临一个特定的问题时。读PHD是给我宝贵的时间,比如花一个月的时间阅读文献。我读的200多页论文大部分都是关于情感分析的,这让我对这个领域的地方成就有了全面的了解。然而,停止阅读是最有效的方法,并开始解决问题。这也是我认为最好的建议:没有比自己解决困难更有效的学习方法了。现在是时候制定计划并努力实现当选的课题和跨领域学习了。因为我的背景是软件工程师和earlycollaborativefilteringapproachestorecommendersystems的尝试,所以我的计划很大程度上就像LeoBreiman所说的算法模型文化。也就是说,我将更加关注开发和处理数据收集过程的建模算法。这种方法更像是由直线思维的软件工程师提出的,而不是数学家或数据学家。这个计划很简单:复制结果,结果显示ratinginference模型是由许多目标群体提供的文本测试的(i.e.,我们用来预测写文本的作者的等级);outperform模型对客户提供的文本进行了更多样化的测试。根据目标客户提供的文本,通过联合筛选的方法,将许多单作者模型与inferating模型与目标群体共同点进行比较。基于培训和目标客户提供的大量文本,各种类似的实验方法都有各种限制。在结果出来之前,重复这些方法。该计划的原则是:由于不同的人以不同的方式表达情绪,而相似的人以相似的方式表达情绪(e.g.,描述事物的方式因文化背景而异)。最重要的推动因素是Pang和Lee的发现-在同一目标中测试足够文本量的模型是最好的。我当时用来实现这个计划的方式和我今天要做的大不相同。那是2009年,Java的主要模型与Wekapackage相结合,看起来比我以前用的C//好。C 这是显著的改进。在很大程度上,我依靠学校网络来运行实验,写很多代码来处理实验逻辑,包括一些Perl脚本forpost-processing。虽然结果很复杂,但确实很有效,我得到了发表文章的结果。假如我当时做的像今天这样的工作,我会把Python用在一切上。IPyhonNotebook是跟踪实验过程的好方法,以及Pythonpackages,如pandas,scikit-learn,gensim,TextBlob,等等,都是简单成熟的数据科学入门方法。制定出版结果的期限确实很有压力,但它会有两个积极的效果。首先,公布你的实验结果可以给你有价值的反馈。第二,艰难的截止日期可以帮助你设定实际的目标。你可以一直保持收获无数的小进步,但出版截止日期可以迫使你停下来。我的例子是,UMAP2010会议是我的截止日期,会议承诺免费去夏威夷也被称为一个很好的激励因素。但是,如果你没有精力和时间及时发表专业论文,你也应该为自己在博客或论坛上发表一些东西的截止日期;或者导师可以关注你的工作报告。持续反馈是进步的主要因素,所以要尽快公布,经常公布。恭喜你!你已经把你的努力公之于众了。接下来该怎么办?你可以继续专注于同一个难题-探索更多的方法,添加更多的数据,改善限制等。你也可以关注其他你感兴趣的问题。我的例子是,因为我接下来要学的东西与我第一篇论文的测试结果有关,我不得不再次回到这个话题。结果,我组织了所有的实验材料来支持我的论文(写一篇论文是阅读PHD的首要任务)。假如我可以选择,我就不会这样做了。我将追求如何有效地加强我的论文,比如以客户为主体,使用更实用、更全面、更有效的方法来测试不同的方法,而不仅仅是支持矢量机。因此,我仍在审视核心观点-在情感分析中,应考虑客户的身份背景,这种方法直到今天仍然有效。但我已经采取了自己的方法,并继续这样做。
推荐阅读
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP

企业首选的数字选用平台






