服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

Python爬取捞月狗数据分析

2020-12-30 10:32:11 阅读(178 评论(0)

本文利用Python从捞月狗网站上获取国服各区和外服王者的数据信息,然后利用R软件对数据进行初步探索和分析。在数据背后找到有趣的东西!爱生活,爱数据!Python爬月狗数据要抓取的数据如下图所示:主要包括王者游戏ID、区服、胜点、胜点、负场、胜率、最近状态、擅长位置、本命英雄等。因为钓月狗的数据每天都在更新,所以在不同的时间爬行数据可能会有所不同。Python代码如下:导入所需模块:importrequestsimportportpandasaspd设置头部信息:head={'User-Agent':'你自己的头部信息'}设定正则获取国服王者信息:rem=re.compile(r'class="subStrTitle">(.*).*server">(.*).*class="icon-dan">(.*).*(.*)(.*)<.*\t/.*(.*)(.*).*"percentage">(.*).*/score/(.*).png.*color-zhongdan">(.*).*alt="(.*)"/>.*alt="(.*)"/>.*alt="(.*)"/>',re.S)外服正则用于获取外服王者信息:reh=re.compile(r'(.*).*player-server">(.*).*(.*).*(.*)(.*).*.*(.*)(.*).*"percentage">(.*).*score/(.*).png.*"color-zhongdan">(.*).*src="(.*)">.*src="(.*)">.*src="(.*)">',re.S)获取国服对应的战区,存储在zhanqu_list_cn中:url_cn='http://www.laoyuegou.com/x/zh-cn/lol/lol/godrank.htmlregion=cn&area=1'html_cn=requests.get(url_cn,headers=head)reg=re.compile(r'class="cn-li.*href="(.*)">',re.S)zhanqu_list_cn=re.findall(reg,html_cn.text)#国服战区获得外服对应的战区,存储在zhanqu_list_en中:url_en='http://www.laoyuegou.com/x/zh-cn/lol/lol/godrank.htmlregion=foreign&area=kr'html_en=requests.get(url_en,headers=head)ren=re.compile(r'class="foreign-li.*href="(.*)">',re.S)zhanqu_list_en=re.findall(ren,html_en.text)定义下载中国战区数据的函数:defupdown_cn(zhanqu_list_cn):  forzhanquinzhanqu_list_cn:    forminrange(1,11):      url=zhanqu '&page=' str(m)      im=requests.get(url,headers=head)      ifim.status_code==200:        data=re.findall(rem,im.text) #数据rem代表国服数据        data=pd.DataFrame(data)        data.to_csv('/home/wajuejiprince/文档/LOLDT/LOLDT.csv',header=False,index=False,mode='a ')#写csv文件,'a '是追加模式        data=[]定义下载外服战区数据的函数:defupdown_en(zhanqu_list_en):  forzhanquinzhanqu_list_en:    forminrange(1,11):      url=zhanqu '&page=' str(m)      im=requests.get(url,headers=head)      ifim.status_code==200:        data=re.findall(reh,im.text) #获取数据reh代表外服数据        data=pd.DataFrame(data)        data.to_csv('/home/wajuejiprince/文档/LOLDT/LOLDT.csv',header=False,index=False,mode='a ')#写csv文件,'a '是追加模式        data=[]下载数据:updown_cn(zhanqu_list_cn) #下载中国战区数据updown_en(zhanqu_list_en) #下载外服战区数据下载的数据保存格式为CSV格式,内容如下图所示:查看数据后,只发现几个格式异常数据(已手动删除)。R语言数据初步探索下面用R软件分析数据,看看能不能发现一些有趣的东西!R语言程序包用于导入分析:library(data.table)library(plotly)library(magrittr)library(wordcloud2)导入数据:dt=fread(file.choose()国服数据:dt_cn=dt[1:2500]#即前2500个外服数据:dt_en=dt[2501:4480]各战区王者数量(国服):>dt_cn[,.(.N),by=.(战区)   所在战区 N1: 艾欧尼亚 902:   祖安 803: 诺克萨斯 804: 班德尔城 905:皮尔特沃夫 90...25: 扭曲丛林 9926:教育网专区 2527: 巨龙之巢 9028: 男爵领域 9029: 峡谷之巅 80   所在战区 N概览数据(国服):>summary(dt_cn[,.(.N),by=.(战区)) 所在战区       N     Length:29     Min. :25.00 Class:character 1stQu.:80.00 Mode :character Median:90.00           Mean :86.21           3rdQu.:90.00           Max. :100.00 #王者最少的区>dt_cn[,.(.N),by=.(战区)[N==25]  所在战区 N1:教育网专区25#王者有100人(最多100人)>dt_cn[,.(.N),by=.(战区)[N==100] 所在战区 N1:均衡教派1002:守望之海100外服王者数量:plot_ly(dt_en[,.(.N),by=.(战区),x=~所在战区,y=~N,type="bar")外服王者数量较多(相对于国服一区),可能是有些外服只是服务器,比如韩国,也和捞月狗的统计数据有关。国服各区平均胜点:dt_cn[,.(mean=mean(胜点),by=.(战区)这里看不出艾欧尼亚是最强的战区。王者通常处于什么样的游戏状态?wordcloud2(dt_cn[,.(.N),by=.(最近状态))英雄联盟的评价等级是这样增加的D-,D,D ;C-,C,C ;B-,B,B ;A-,A,A ;S-,S,S !国王通常处于什么样的游戏状态:wordcloud2(dt_cn[,.(.N),by=.(最近状态))英雄联盟的评价等级是这样增加的D-,D,D ;C-,C,C ;B-,B,B ;A-,A,A ;S-,S,S !大多数王者最近的状态往往是S级状态。不幸的是,数据集中没有其他部分的数据。如果是这样,你也可以比较每个部分玩家的通常游戏状态。王者擅长的位置:各地的王者更喜欢打野和上单的位置。这两个位置也是英雄联盟中受伤较多的位置,也可以说他们可能更倾向于玩“肉”的英雄。职业联赛中常说这样的英雄容错率比较高。换句话说,有肉有输出英雄。王者本命英雄(2017.08.05):#因为有些本命英雄在爬数据的时候并不是我们预期的,所以在这里删除(也就是3~4).dt_all=fread(file.choose())dt_cn<-dt_all[1:2497]dt_1<-dt_cn[,本命英雄1]dt_2<-dt_cn[,本命英雄2]dt_3<-dt_cn[,本命英雄3]all_hero�ta.frame()%>%wordcloud2(shape='star')#以星形的形式绘制云图。不愧为王者玩家,玩盲僧这样

内容来源:数据分析网,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

电商平台系统简单版:基础功能有以下这些即可,简单易操作

目前电商业越来越发达,人们越来越离不开线上购物,企业要吸引客户、留住客户,发展线上是一个方向。所以现在越来越多的企业开始开发属于自己的电商平台系统。那么一个电商平台系统应该有哪些功能才能满足企业需求呢?下面为大家介绍,最为适合中小企业的电商…查看详情

c语言在哪里编写程序

c语言程序在电脑咋编写?1、打开VC++6.0; 2、在文件里点新建,然后在projects里选择win 32 co1ole application; 3、然后再次点文件的新建,然后在files里选择C++source file…查看详情

著作权侵权认定标准是什么样的

著作权侵权认定标准是指确定是否存在著作权侵权行为的法律标准。不同国家或地区的法律体系可能会有所不同,但通常有以下几个方面的考量: 1.著作权对象:首先需要确认涉及的作品是否符合著作权保护的要求。著作权通常适用于原创的文学、艺术、音乐、戏剧、…查看详情

58门店管理系统的6大核心功能

作为一个优秀的店长,所有的员工及顾客如何才能管理的更好,那就需要“外挂”了,门店管理系统可以更好地管理日常经营,可以提高收银效率,减少记账的麻烦,减少客源外流,提高工作效率,这篇58门店管理系统的6大核心功能介绍供大家参考。 一、会员管理 …查看详情

分公司税收如何缴纳(附上详细缴纳办法)

  众所周知很多公司在经营的过程中逐渐规模变得较大,就会在不同的地方开设新的分公司,对于纳税方面而言,分公司在税务方面也有诸多不同,主要表现在增值税和企业所得税两个税种上。下面小编就给大家来详细介绍一下分公司税收如何缴纳这一块的详细内容,希…查看详情

怎么创建自己的小程序?这五点做好是关键

小程序是当下非常火爆的一款应用,平时逛街吃饭都经常有用到小程序,相比于这些商业版的,个人版的小程序有吗?怎么创建自己的小程序? 图片来源于网络1、确定商城定位首先要确定商城的定位,是要做订餐类的小程序还是做b2c商城小程序,然后再去确定小程…查看详情

电商商家应拿起法律武器抗击“职业索赔”

一直以来,电商平台的“职业索赔”案件备受社会关注,2019年互联网那个法律大会发布行业观察报告显示,目前的“职业索赔”呈现团伙化、年轻化、产业化等趋势,报告建议有关部门进一步完善相关法律,用明确的政策法规来规范行为。图片来自网络国家市场监管…查看详情

上市公司减税降费的作用是什么?

减税降费对企业的意义,用高中政治经济生活的知识怎么回答?意义: 1.对企业实施税收减免,可以为企业转型升级添加动力。 对于企业,尤其是处于经营难关的企业而言,意义非常大,它既可以降低小微企业的生产经营成本,也可以让小微企业有更多的资金投…查看详情

股票分析软件哪个好 用什么软件分析股票行情

  股票软件其实有很多,如果是针对选股方面的话,小编会推荐三个选股神器——大智慧365、同花顺旗下的i问财、选股宝。  这三个涵盖了基本面、资金面、技术面、政策面、消息面5大方面的选股方式,投资者可以结合自己的喜好,优选自己偏好的那一款,另…查看详情

免费创建网站的平台有哪些?

棋牌游戏网站怎么搭建?棋牌游戏网站怎么搭建很简单,就像普通网站建设一样的,重点是棋牌游戏怎么搭建,是自己找团队开发,还是找游戏开发公司开发。 如果自己比较足,游戏本身需求又比较多,还是可以自己做团队开发。可以招聘相关游戏开发人员,组建团队…查看详情

光盘刻录软件哪个好?这几款比较实用

虽然说随着时代的不断发展和创新,目前刻录光盘方面应用的越来越少,但是光盘刻录软件的使用需求还是比较多的,通常这种软件主要是指刻录视频DVD,或者是高清DVD光盘等等,其中也支持各种格式。那么光盘刻录软件哪个好呢?这几款比较实用,…查看详情

杭州网站建设多少钱?四种网站建设方式价格皆不同

很多企业在建设网站之初,都会想先了解价格。但由于网上、网站建设公司都没有一个统一的标准,所以企业都不知道该价格是否合理,都会有所顾虑。实际上,网站建设的价格受许多因素影响,有的或许是几千、有的或许是上十万。那今天,小万就以杭州网站建设多少钱…查看详情

电商小白应该要知道的网店运营流程

十多年前,淘宝店还很稀奇,但是今天看来,已经不足为奇了,各个年龄阶段的人都有开网店,越来越多的人加入到开网店的行业中来,但是还是有很多朋友对网店运营流程不是很清楚,想加入但又犹豫不决,小万在此为大家整理了一些关于“网店运营流程”的基础介绍。…查看详情

快手如何修改个人资料 快手修改个人资料教程

  很多的人在玩快手的时候经常会涉及到修改个人资料,但是很多的小伙伴不知道在哪里修改,下面小编就给大家来详细介绍一下快手如何修改个人资料 快手修改个人资料教程这一块的内容,希望能帮助到大家。  快手如何修改个人资料  1、首先打开手机的…查看详情

注册一个小公司需要多少费用

  注册一个小公司需要多少费用主要取决于公司的种类、注册地点和业务范围等因素。一般来说,主要费用包括公司起名费用、注册费用、税费、相关证件申请费用等。  1. 公司起名费用:公司的名称是公司运营中的第一步,因此起一个好的名字是很有必要的。…查看详情

最新文章