Python爬取捞月狗数据分析
2020-12-30 10:32:11 阅读(171) 评论(0)
本文利用Python从捞月狗网站上获取国服各区和外服王者的数据信息,然后利用R软件对数据进行初步探索和分析。在数据背后找到有趣的东西!爱生活,爱数据!Python爬月狗数据要抓取的数据如下图所示:主要包括王者游戏ID、区服、胜点、胜点、负场、胜率、最近状态、擅长位置、本命英雄等。因为钓月狗的数据每天都在更新,所以在不同的时间爬行数据可能会有所不同。Python代码如下:导入所需模块:importrequestsimportportpandasaspd设置头部信息:head={'User-Agent':'你自己的头部信息'}设定正则获取国服王者信息:rem=re.compile(r'class="subStrTitle">(.*).*server">(.*).*class="icon-dan">(.*).*(.*)(.*)<.*\t/.*(.*)(.*).*"percentage">(.*).*/score/(.*).png.*color-zhongdan">(.*).*alt="(.*)"/>.*alt="(.*)"/>.*alt="(.*)"/>',re.S)外服正则用于获取外服王者信息:reh=re.compile(r'(.*).*player-server">(.*).*(.*).*(.*)(.*).*.*(.*)(.*).*"percentage">(.*).*score/(.*).png.*"color-zhongdan">(.*).*src="(.*)">.*src="(.*)">.*src="(.*)">',re.S)获取国服对应的战区,存储在zhanqu_list_cn中:url_cn='http://www.laoyuegou.com/x/zh-cn/lol/lol/godrank.htmlregion=cn&area=1'html_cn=requests.get(url_cn,headers=head)reg=re.compile(r'class="cn-li.*href="(.*)">',re.S)zhanqu_list_cn=re.findall(reg,html_cn.text)#国服战区获得外服对应的战区,存储在zhanqu_list_en中:url_en='http://www.laoyuegou.com/x/zh-cn/lol/lol/godrank.htmlregion=foreign&area=kr'html_en=requests.get(url_en,headers=head)ren=re.compile(r'class="foreign-li.*href="(.*)">',re.S)zhanqu_list_en=re.findall(ren,html_en.text)定义下载中国战区数据的函数:defupdown_cn(zhanqu_list_cn): forzhanquinzhanqu_list_cn: forminrange(1,11): url=zhanqu '&page=' str(m) im=requests.get(url,headers=head) ifim.status_code==200: data=re.findall(rem,im.text) #数据rem代表国服数据 data=pd.DataFrame(data) data.to_csv('/home/wajuejiprince/文档/LOLDT/LOLDT.csv',header=False,index=False,mode='a ')#写csv文件,'a '是追加模式 data=[]定义下载外服战区数据的函数:defupdown_en(zhanqu_list_en): forzhanquinzhanqu_list_en: forminrange(1,11): url=zhanqu '&page=' str(m) im=requests.get(url,headers=head) ifim.status_code==200: data=re.findall(reh,im.text) #获取数据reh代表外服数据 data=pd.DataFrame(data) data.to_csv('/home/wajuejiprince/文档/LOLDT/LOLDT.csv',header=False,index=False,mode='a ')#写csv文件,'a '是追加模式 data=[]下载数据:updown_cn(zhanqu_list_cn) #下载中国战区数据updown_en(zhanqu_list_en) #下载外服战区数据下载的数据保存格式为CSV格式,内容如下图所示:查看数据后,只发现几个格式异常数据(已手动删除)。R语言数据初步探索下面用R软件分析数据,看看能不能发现一些有趣的东西!R语言程序包用于导入分析:library(data.table)library(plotly)library(magrittr)library(wordcloud2)导入数据:dt=fread(file.choose()国服数据:dt_cn=dt[1:2500]#即前2500个外服数据:dt_en=dt[2501:4480]各战区王者数量(国服):>dt_cn[,.(.N),by=.(战区) 所在战区 N1: 艾欧尼亚 902: 祖安 803: 诺克萨斯 804: 班德尔城 905:皮尔特沃夫 90...25: 扭曲丛林 9926:教育网专区 2527: 巨龙之巢 9028: 男爵领域 9029: 峡谷之巅 80 所在战区 N概览数据(国服):>summary(dt_cn[,.(.N),by=.(战区)) 所在战区 N Length:29 Min. :25.00 Class:character 1stQu.:80.00 Mode :character Median:90.00 Mean :86.21 3rdQu.:90.00 Max. :100.00 #王者最少的区>dt_cn[,.(.N),by=.(战区)[N==25] 所在战区 N1:教育网专区25#王者有100人(最多100人)>dt_cn[,.(.N),by=.(战区)[N==100] 所在战区 N1:均衡教派1002:守望之海100外服王者数量:plot_ly(dt_en[,.(.N),by=.(战区),x=~所在战区,y=~N,type="bar")外服王者数量较多(相对于国服一区),可能是有些外服只是服务器,比如韩国,也和捞月狗的统计数据有关。国服各区平均胜点:dt_cn[,.(mean=mean(胜点),by=.(战区)这里看不出艾欧尼亚是最强的战区。王者通常处于什么样的游戏状态?wordcloud2(dt_cn[,.(.N),by=.(最近状态))英雄联盟的评价等级是这样增加的D-,D,D ;C-,C,C ;B-,B,B ;A-,A,A ;S-,S,S !国王通常处于什么样的游戏状态:wordcloud2(dt_cn[,.(.N),by=.(最近状态))英雄联盟的评价等级是这样增加的D-,D,D ;C-,C,C ;B-,B,B ;A-,A,A ;S-,S,S !大多数王者最近的状态往往是S级状态。不幸的是,数据集中没有其他部分的数据。如果是这样,你也可以比较每个部分玩家的通常游戏状态。王者擅长的位置:各地的王者更喜欢打野和上单的位置。这两个位置也是英雄联盟中受伤较多的位置,也可以说他们可能更倾向于玩“肉”的英雄。职业联赛中常说这样的英雄容错率比较高。换句话说,有肉有输出英雄。王者本命英雄(2017.08.05):#因为有些本命英雄在爬数据的时候并不是我们预期的,所以在这里删除(也就是3~4).dt_all=fread(file.choose())dt_cn<-dt_all[1:2497]dt_1<-dt_cn[,本命英雄1]dt_2<-dt_cn[,本命英雄2]dt_3<-dt_cn[,本命英雄3]all_hero�ta.frame()%>%wordcloud2(shape='star')#以星形的形式绘制云图。不愧为王者玩家,玩盲僧这样
推荐阅读
- java开发是做什么的
JAVA主要是用来干什么的?百战程序员IT问题专业解答 java是一种面向对象的编程语言 现在我们日常使用的很多软件都是java语言开发的。 比如安卓上的各种app,界面都是使用java语言写的。 当然java最强大的地方还不是写a…查看详情
- 用什么软件去做市场?市场管理软件排名
对于市场管理软件来说,是一个十分庞大的数据,所做的行业不同所需要的数据就不一样,比如说销售,在销售中,产品的库存销各种数据,还有每日经营数据对比,及时发现商品数据波动等等,那我们今天就盘点一下市场管理软件都有哪些把。1、企管宝CRM企管宝C…查看详情
- 拼车软件哪个好用又便宜 哪个拼车平台比较靠谱
现在人们的出行方式都越来越多样化了,拼车算是人们常用的一种出行方式,市面上的拼车软件也是有很多的,下面万商云集小编给大家来详细介绍一下拼车软件哪个好用又便宜 哪个拼车平台比较靠谱方面的内容,希望能帮助到大家解决出行问题。 1.滴滴出行 …查看详情
- 营销|没客户电话也能短信联系,这是什么黑科技?
每到618、双十一和双十二你的手机是不是也会经常收到促销短信呢? 短信群发较于传统的推广方式而言算是一种成本低、速度快、阅读量大而且比较“接地气”的宣传方式之一但许多中小企业却…从未接触过活动的内容编辑重要吗?短信的内容决定用户是否会点击活…查看详情
- 杀毒软件排名,这些可以放心用
现在的工作和生活中都会使用电脑,其中的信息也是比较多的,除了公司内部的信息之外,还有个人的一些隐私,如果不小心受到病毒的感染,那么危害不可小视,甚至还会导致信息泄露影响严重,所以杀毒软件的选择很重要,下面就针对于杀毒软件的排名进…查看详情
- 质量管理软件如何选择?这几款值得尝试
产品的质量是一个企业的生存命脉与基础,本所以说企业对于产品的质量,往往是要求比较严格的,而通过使用质量管理软件,则可以很好的进行质量方面的管理和规范的实施,能够让操作变得更为规范,也是针对于产品的设计人员,还有制造的人员等等,所…查看详情
- 已失效的专利可不可以转让?
依据我国相关法律的规定,向专利管理部门申请专利后,经专利管理部门批准,申请人获得专利权,而专利权是可以依法转让的,那么已失效的专利可不可以转让?下面万商云集小编就给大家来介绍一下这方面的详细内容,希望能帮助到大家解决这一块的问题。 …查看详情
- msf是什么文件
1、什么是MSF文件?2、什么是NLB文件?3、什么是LST文件?MSF是流媒体功能的内容格式为.msf,兼容avi等格式是通过专用工具制作内容分为头文件和动画文件用专门的软件打开如新版的暴风影音NLB是Oracle7数据文件LST是列表文…查看详情
- 新媒体运营怎么自学 怎么学好新媒体运营
现在新媒体一运营算是比较热门的一个职业,很多人都转行做新媒体,下面万商云集小编给大家来详细介绍下新媒体运营怎么自学 怎么学好新媒体运营这方面的内容。 01内容的价值性 不管是做文章还是做视频,内容最重要的一点就是带有价值含量,说得简…查看详情
- 盘点好用的微信分销系统,适合创业新手
目前做微信分销系统的很多,商家到底应该如何选择一款适合自己的微分销系统呢?市面上主流的分销系统特别多,主流的微信分销系统哪个好大致包括HiShop销客多等等,企业或者创业新手往往不知道如何挑选。 1、微巴人人店分销系统 人人…查看详情
- 微信小程序定制开发都需要经过哪些流程
微信庞大的流量资源对于做线上营销的人有着巨大的吸引力,各类小程序层出不穷只为能获得一部分资源。想要在数量众多的微信小程序中占据有利的竞争优势,那进行微信小程序定制开发就是很好的选择。如果你对这一领域还不太清楚,不妨跟小万一起来看看都有哪些流…查看详情
- 客户端是什么意思啊
客户端是计算机网络中的一个术语,通常指的是连接到网络的设备或软件,用于与服务器进行通信和交互。客户端一般用于请求服务器上的资源或服务,例如发送电子邮件、下载文件或访问网站等。在互联网上,客户端是与浏览器或移动应用程序等一起使用的。 在…查看详情
- 如何强制删除文件夹
在计算机使用过程中,经常会遇到一些无法删除的文件夹,这些文件夹可能由于权限问题、病毒感染、损坏等原因导致不能删除。本文将详细介绍如何强制删除文件夹。 一、使用命令行删除文件夹 命令行是Windows操作系统中一个十分强大的工具,可以…查看详情
- 网站怎样做流量分析
流量对于网站来说非常重要,网站运营的首要目的就是获得流量,但是流量不同价值也不同,我们需要对流量进行分析,通过流量的分析更好的运营我们的网站,流量的分析主要是流量的来源以及流量在网站上的流向两个方面的分析。通常流量的来源主要有三个途径:搜索…查看详情
- 飞鱼CRM是什么东西?高效低成本的客户管理系统
让用户接触到广告不难,但想要留住客户,产生最大的投放收益却一直是一项难题,飞鱼CRM系统作为一款优秀的客户管理系统,究竟有哪些作用?下面小万就来详细为大家介绍一下究竟飞鱼CRM是什么东西。 飞鱼CRM是什么东西? 飞鱼CRM系统是巨量引擎推…查看详情
猜你喜欢
最新文章
扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121
关注微信公众号
和10万中小企业共同成长
扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有 蜀ICP备12001963号-2 川公网安备 51010402000322号
快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
免费查找信息保护中请放心填写-
-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP
企业首选的数字选用平台