学习数据科学,应该从哪里开始?
2020-12-28 09:50:04 阅读(145) 评论(0)
你对学习数据科学感兴趣,但不知道从哪里开始?假如是这样,那你就来对地方了。我遇到过很多对学习数据科学充满热情的人,但仅仅几周后,他们就放弃了学习。我想知道为什么一个人对一个领域如此热情却不去追求它。通过与他们中的一些人交谈,我了解到人们放弃学习的主要原因是:为了成为一名数据科学家,他们必须学习太多的话题。他们遇到的领导者说,要成为一名数据科学家,他们必须是一名有才华的程序员、数学专家和应用统计大师,并且非常熟练地使用panda、Numpy等python库。这些甚至会吓到一位经验丰富的数据科学家,难怪他们会让那些试图学习数据科学的人放弃。上面的每一个话题都像一片海洋。当有人试图快速掌握它们时,他们会感到沮丧,放弃学习。真正的事实是,如果你想成为一名成功的数据科学家或数据科学家,你甚至需要掌握更多。如何学习数据科学成为一名数据科学家,你需要从以下项目中学到足够的知识:如果Python或R编程的基本知识选择Python,那么像panda和numpy这样的库可视化库,如gggplot、Seaborn和Plotly。SQL统计数据编程数学,尤其是线性代数和微积分,在下面的视频中,我提到了学习数据科学的分步指南。我已经解释了不同数据科学专业水平所需的知识深度。如何计划学习?应该首先涉及哪些主题?让我解释一下100天学习数据科学的计划。以下是Python学习数据科学的日常计划。该计划跨度为100天,每天至少需要一个小时。第一天:安装工具只需确保所需工具的安装,您可以在接下来的几周/几个月内感到舒适。如果选择Python,安装Anaconda,包括IDEsJupyter笔记本和Spyder。假如你选择'R然后安装RStudio。试着在IDE中玩,熟练地使用它。例如,试着理解包/库的安装,执行一些代码,清理内存等等。从第二天到第七天:数据科学的基本编程下一步是学习基本编程。以下是一些应该学习的主题:创建变量字符串数据类型和通常执行在字符串数据类型上的操作值数据类型、布尔值和操作符合数据类型列表、元组、集合和字典-了解它们之间的独特性和差异非常重要。If-Then-Else条件、For循环和While循环实现函数和Lambda函数——它们各自的优点和差异从第8天到第17天:Pandas库了解Pandas库,Pandas中需要了解的一些主题是:创建数据帧,从文件中读取数据。并将数据帧写入文件,从数据框架中索引和选择数据迭代和排序聚合,以及处理Pandas的重命名和替换,并在数据帧中进行连接、合并和连接总结分析、交叉表、枢轴数据、分类和稀疏数据,因为这些主题在实施探索性数据分析时非常有用。在介绍这些主题时,请尝试深入了解粒度细节,如合并和连接、交叉表和枢轴之间的差异,这样你不仅可以了解每一个,还可以知道何时何地使用它们。在介绍这些主题时,请尝试深入了解粒度细节,如合并和连接、交叉表和枢轴之间的差异,这样你不仅可以了解其中的每一个,还可以知道何时何地使用它们。我为什么要学习Pandas?如果你从事任何数据科学项目,它们总是从探索性数据分析开始,以便更好地理解数据,而你在Pandas中介绍的主题将派上用场。此外,由于Pandas有助于从不同的来源和格式读取数据,它们速度快、效率高,并为数据集执行各种操作提供了简单的功能。NumpyLibrary在NumpyLibrary学会Pandas后,下一个需要学习的重要库就是Numpy。与List相比,学习Numpy的原因非常快。Numpy的主题包括:为什么学习Numpy所需的数据元素,用于创建索引和切片数据类型的连接和分离搜索和排序过滤?Numpy可以以快速高效的方式对数据进行科学操作。它支持机器学习算法中常用的高效矩阵运算,Numpy也广泛应用于panda库。从第23天到第25天:现在,我们需要花一些时间来理解和使用一些关键的可视化库,如ggplot、Plotly和Seaborn。使用示例数据集,尝试不同的可视化,如柱状图、线/趋势图、盒状图、散点图、热图、饼状图、柱状图、气泡图等有趣或交互式可视化。数据科学项目的关键是与参与者沟通洞察力,可视化是实现这一目标的好工具。下一个要讨论的重要主题是统计,探索平均值、中位数、众数、范围分析、标准差和方差等常用的描述性统计技术。然后介绍一些更深层次的技术,如识别数据集中的异常值和测量误差范围。了解这些统计测试在现实生活中的应用,作为探索各种统计测试(如下所示)的最后一步:F-Testanova卡测试Testa-TestZ-Test从第36天到第40天:现在是时候学习SQL进行数据分析了,因为在大多数企业用例中,数据将存储在数据库中,了解SQL将极大地帮助从系统中查询所需的数据进行分析。可以先安装一个开源数据库,比如MySQL,它会附带一些默认数据库,只需要处理数据,学习SQL。如果你能集中精力学习以下内容,那就太好了:从表中选择数据,根据键连接不同表中的数据,使用case语句和筛选条件,对数据进行分组和聚合。–50天:探索性数据分析(EDA)在任何数据科学项目中,大约80%的时间都花在这个活动上,所以最好花时间彻底学习这个主题。这里不涉及一组特定的功能或主题来学习探索性数据分析,但数据集和用例将驱动分析。为了学习探索性数据分析,这里不涉及一组特定的功能或主题,但数据集和用例将驱动分析。因此,最好使用kagle主办的一些样本数据集来学习如何进行探索性分析。另一种学习探索性数据分析的方法是编写关于数据集的问题,并试图从数据集中找到答案。例如,如果我考虑最受欢迎的泰坦尼克号数据集,然后试图找到问题的答案,比如哪个性别/年龄/甲板的人有更高的死亡概率。随着时间的推移,你的综合分析能力会提高,所以要有耐心,慢慢自信地学习。到目前为止,你已经学习了数据科学家所需的所有核心技能,现在你可以学习算法了。数学怎么了?是的,了解线性代数和微积分很重要,但我宁愿不花时间学习数学概念,但当他们需要的时候,你可以参考和复习你的技能,高中数学就足够了。例如,假设你正在学习梯度下降法,你可以花时间学习它背后的数学知识,同时学习算法。因为如果你开始学习数学的重要概念,那么它可能非常耗时,通过学习,你会学习足够的时间,但如果你开始学习数学的所有概念,那么你会花更多的时间,学习远远超过你需要的。从第51天到第70天:在前10天监督学习和项目实施,学习一些关键算法,了解它们背后的数学原理,然后在接下来的10天里专注于开发一个项目。本课的一些算法包括:线性回归和逻辑回归决策树/随机森林支持向量机(SVM)在最初的10天里,重点应该是理解你选择的算法背后的理论。然后花点时间了解每个算法比其他算法更合适的场景,比如当数据集中有很多分类属性时,决策树是最好的。然后在Kagle中选择一个解决方案的例子,你可以找到很多解决方案来尝试重新执行它们,但仔细理解每行代码,并理解它们的原因。到目前为止,你已经获得了良好的理论知识和工作知识的解决方案。最后一步是从数据收集、探索性分析、特性工程、模型构建和模型验证开始,选择一个项目,实现一个有监督的学习算法。会有很多问题和问题,但是当你完成项目的时候,你会对算法和方法有很好的了解。从第71天到第90天:是时候关注非监督学习,类似于在监督学习中使用的方法了。花几天时间理解你在非监督学习中选择的算法背后的概念,然后通过实施一个项目来学习。这里要讲的算法是聚类算法——用于数据集中识别聚类关联分析——用于识别数据中模式主成分分析—用于减少属性的数量推荐系统——用于识别类似用户/产品并推荐的初始日子,应该关注理解上面的算法和技术,了解每个人的目的。他们可以使用的场景,如主成分分析,通常用于数据集降维。当你在一个非常大的列中工作时,你想要减少,但仍然保留信息和推荐系统。基于客户的购买模式,您可以推荐他们可能感兴趣的其他产品来增加销售。当您熟悉理论和场景时,您可以选择一个解决方案的例子,并通过逆向工程学习,即理解每行代码并重新执行它们。当您熟悉可以使用的理论和场景时,您可以选择一个解决方案的例子,并通过逆向工程学习,即理解每行代码并重新执行它们。作为最后一步,是时候根据你所学到的东西选择用例并实现它们了。当你完成项目/用例时,你会学到很多东西,你会更好地理解这些算法,这将永远伴随着你。从第91天到第100天:自然语言处理基础利用这段时间关注非结构化/文本数据的分析和用例。值得花时间在这里的东西很少学会使用API从公共源获取数据来执行一些基本的情绪分析——可以使用来自TwitterAPI的数据来提取特定标签的Tweet,然后计算这些Tweet背后的情绪和情绪主题建模——当有大量的文档,你想把它们分成不同的类别时,这种方法是非常有用的!现在,您已经介绍了所有可以申请任何数据科学工作的重要概念。我在YouTube频道开始了为期100天的数据科学学习教程。如果你感兴趣,请加入我,在这里开始你的数据科学学习教程。有些人可以在100天内成为数据科学家是的,就像任何人都可以在几天内学会游泳一样,任何人都可以在100天甚至更短的时间内学习数据科学。但就像游泳一样,如果你想成为一名优秀的游泳运动员或奥运会游泳运动员,你必须通过努力和不断的练习,数据科学,通过不断的练习和努力,你可以成为一名专家。如果我继续遵循这个教程,我能学到多少?在教程结束时,您将有足够的知识从事典型的数据科学项目。这样,你就可以打破学习障碍,所以你可以继续学习数据科学的高级主题,只要你付出最少的努力和支持。在最后的信息开始之前,事情可能看起来太复杂了。不要不知所措。一步一步地继续你的学习之旅可能需要一些时间,但你会到达你的目的地。
推荐阅读
猜你喜欢
最新文章
扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121
关注微信公众号
和10万中小企业共同成长
扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有 蜀ICP备12001963号-2 川公网安备 51010402000322号
快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
免费查找信息保护中请放心填写-
-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP
企业首选的数字选用平台