Python如何爬数据?3个关键点
2020-12-28 14:14:03 阅读(142) 评论(0)
几天前,我看到一家公司对数据分析师有一个招聘要求:分析客户的购买习惯,并通过客户的购买行为进行相关的数据分析。好的项目,正好让大家练Python,于是决定研究亚马逊Top100的细分类——女式内衣!!!销售情况。这个话题,遐想空间很大,老司机坐稳了!分析分为三个步骤:数据采集、数据清理、可视化分析的第一步,数据采集。没有数据怎么办?用万能Python爬。爬行产品排名和详细页面链接,所需字段为:排名、产品名称、详细页面链接。爬取商品细节,所需信息为:店铺:即竞争对手。分析爆炸性产品,保留商店链接,后续有针对性的挖掘分析;价格:分析爆炸性产品的价格范围,有助于商品定价;货架时间:什么时候?爆炸需要多长时间;星级、评论数量、评论标签、所有评论链接:爬上评论内容,分析爆炸性产品的优缺点;尺寸和颜色:嗯哼?同时也是非常有价值的参考资料;图片链接:难道你不想看看商品是什么样子吗?第三步是将数据转换为可视化图表并进行分析。你迫不及待地想看看这个过程吗?来吧~如何爬内衣数据Python爬数据很简单。我个人的总结大致有三点:数据处理写数据的第一点可能有几种:1、非常简单的html页面,直接requests可以要求成功;2、js渲染的页面太多了,requests要求一堆js数据;3、需要登录才能获得,到目前为止我用cookie登录,但是应该有更好的办法;4、json数据;数据处理的第二点有几种可能性:1、要求的数据是简单的html结构页面-直接BS4分析、要求的数据是json-导入json模块进行分析3、请求的数据是简单的js渲染html页面遇到这个页面通过抓取包或简单地在网站上审查请求,然后找到你想要的部分数据,如果是js渲染的html,实际上是js拼写的html,只要匹配其他无用的数据,找到剩下的html文本。然后BS4分析。第三点是编写数据open方法,打开文件中的参数,设置文件格式,读写文件,编码格式操作withopen("XXX.xxx","a",encoding="utf-8")asf:f.write('''编写的数据''')我用过txtt的文件格式、csv、大多数文本格式都支持xml。a–每次创建文件时,都会重新创建w–是追加a–读数据encoding=utf-8″不添加encoding=在windows系统下报告编码错误,linux不会。a–每次创建文件时,都会重新创建w–是追加a–读数据encoding=utf-8″这句话不加encoding=编码错误会在windows系统下报告,linux不会。然后数据量太大,用sqlite写入数据库数据库。记得引入模块importsqlite3,即创建数据表。好了,不要啰嗦,开始爬数据。爬行过程分为三个步骤,完整代码见文末,无需感谢。1、爬行商品排名和详细页面链接需要爬行的具体字段:排名(Rank),商品名(item_name),链接产品详情页面(item_link)、商品图片链接(img_src)。2、更多商品信息商店名称、商店链接、商品名称、价格星级、评论标签核心:构建函数获取单个商品的详细信息;使用for循环,通过商品详细信息页面链接列表获取每个商品的详细信息3、星级核心:从上一步的csv文件中,读取Rank,item_name,reviews,reviews_link字段构建函数通过for循环读取每个商品的所有评论,并将所有商品的所有评论存储在数据库和CSV文件中4、爬行size和color数据与第三步基本相同,代码基本相同,主要是确认每页评论的size&color个数。1.数据清洗和预处理、从CSV文件中读取100个商品的数据,筛选出所需的字段,进行数据清洗。1.数据清洗和预处理、读取和清理CSV文件中100种商品的数据,筛选所需字段进行数据清理。这里需要注意的是,一些读取的数据似乎是值,但实际上是字符。因此,需要参与数值计算的Nan需要转换类型(如price拆分后,也需要转换为float类型),并使用平均值进行替换。2、从业务维度处理数据获取所需数据:业务星级、评论总和、评论平均值、最低平均值、最高平均值、价格平均值、商品数量和比例。标准化星级、评论平均值、价格平均值和商品数量,并计算加权点。分析:歪果情趣内衣哪个强1?、不同商家的星级排名平均为4.15分,超过一半(17/32)Top1的LALAVAVA高达4.9分,其次有5家达到4.5分。倒数第一N-peari只有3.2分,让我看看LALAVAVA长什么样。亚马逊上的商品看起来像普通泳衣。米国人还是很保守的~但是高分真的意味着产品好吗?让我们来看看评论数。②首先,不同企业的平均评论数量只有193条,只有不到30%(12/32)高于平均水平。想想淘宝,我们的人口优势让米国人羡慕不已;让我们来看看星级前1的LALAVA。如果评论数量很少,我们将怀疑其商品的真实质量;星级倒数N-pearI,同样的评论数也很少,很有可能它的产品不是很好;另一方面,Garmol的星级评价是4.4,有很多口碑好的评论,似乎是不错的产品;接下来,它的星级分数低于平均分。那么,亚马逊的星级评价只受评论数的几颗星的比例影响吗?我在网上查阅了一些信息,发现亚马逊评价星级评价的三个重要因素:评论距离现在,评论被买家投票,评论是否有verifiedpurchase标志(意思是真正的买家)。我在网上查阅了一些信息,发现亚马逊评估星级评估的三个重要因素:评论从现在开始,评论被买家投票,评论是否有verifiedpurchase标志(意味着真正的买家)。此外,评论的字符数、点击次数和其他因素也可能对评论星级产生影响。亚马逊对评论的监控和管理似乎非常严格和复杂!当然,最重要的是看评论第一的Garmol长什么样:比上面的泳衣更有问题,大家都说好才是真的好,verysexy!2、从图中可以看出,ELOVER明显锁定了高端市场,定价范围约为49刀;相反,Godesvan的定价只有0.39刀,只有一刀。猜测可能是亏损冲动,增加商家曝光率,抢占低端市场。从均价来看,基本分布在10-20刀间,这表明这是性感内衣市场的主要价格范围;但20-40刀范围没有企业,可以深入研究,看看是否能找到蓝海的证据,具有更大的市场潜力,从每个企业的价格范围来看,大多数采用多色或风格策略,一方面为用户提供更多的选择,另一方面,它也反映了企业的新能力;只有少数采用单一热风格策略的最豪华的ELOVER看起来更像女神,缩略图比其他家庭更小心。那么,哪个企业的策略更可靠,市场份额更大呢?那么,哪个企业的策略更可靠,市场份额更大呢?3、在Top100的商品比例中,Avidlove以28%的巨大优势占据主导地位,而其他商家基本上占据了个位数。Avidlove内衣没有明显的优缺点,很酷。我喜欢。毕竟单方面还是很难衡量哪个商家更好。最好综合多个指标来分析~4、不同商家的加权分数标准化星级、平均评论数、平均商品价格和商品数量后,由于加权比例难以确定,将四项分类结果x10后直接累积得到总分,并制作成条形堆积图。而每个商家四项指标的比例,则侧面反映了自身的优缺点。Avidlove,刚才酷酷的内衣,在其他三种情况下,以商品数量优势获得综合得分第一,有一种乡村包围城市的感觉,主要依靠声誉(星级、平均评论)优势,赢得第二ELOVER,主要依靠高端市场的准确划分,赢得第三N-pearI,没有优势,意想不到的光荣垫底口碑最差的N-pearI,能找到的商品也最少,不过图片很刺激,emm...但是,如果我的菜不粗略,想要排名靠前,口碑一定不能太差,至少要保持在平均水平以上!5、不同商家的星级/价格散点图由Python制作。x轴是商家的平均商品价格,y轴是商家的星级,点的大小是商品的数量。商品数量越大,点越大,点的颜色是评论的平均值,评论的平均值越大,颜色越深。利用价格平均值和星级平均值,将图片分为四个象限:①左上象限:实惠好评的商家②右上象限:有点贵,但一分钱一分货的商家③右下象限:昂贵但质量差的商家④左下象限:便宜的商家没有好商品,所以在这张散点图的帮助下,选择商家买东西要容易得多:追求成本效益,你可以选择Avidlove,有很多商品,你可以选择;追求高端,可以选择ELOVER,这是有道理的;追求大众,可以选择Garmol,评论最多,赞不绝口。顾客可以根据自己的喜好选择合适的商家,那么作为商家如何提升自己呢?6、在爬行过程中,前面的词频分析也爬行了评论标签,对此进行了词频分析,可以发现,客户最关心的依次是:①是否合身:size、fit等相关字眼多次出现,排名靠前②质量:goodquality、wellmade;softandcomfortable、fabric是对材料的肯定③款式:cute、sexy、你知道likethepicture吗?④价格:cheaplymade勉强算价格,但更多的是对商品质量的怀疑。⑤口碑:highlyrecommend,评论仍然很有参考价值的评论标签数量较少,进一步分析2.4w条评论的词频,并制作成词云:表扬我的底图选择得很好!最直观的还是和“是否合身”、质量或者款式有关。然后我们从客户那里购买商品的Sizee&Color在这里继续分析,Size&Color的词频数据有几个问题:1、数据量少,只有约6000条2、Size&color无法更好的区分,所以我们一起分析3、商家的命名规则不同,比如同样是黑色的,有一个商家会命名black,有些可能是style1(所以一些奇怪的数字号实际上是商家的风格号)4、一些奇怪的词,比如trim,可能是爬虫时爬错了,也可能是导出csv时格式混乱。可以清楚地看出:size:large、medium、small肯定有涵盖,但除了xlargeee,还有、xxlarge、xxxlarge,亚马逊主要是欧美客户,也许体型比较大,所以商家应该为体型较大的客户开发和备货更多的商品。Color:非常直观:Black>red>blue>green>white>purple….所以黑色,红色永远不会错;绿色出乎我的意料,企业也可以大胆尝试。Color:非常直观:Black>red>blue>green>white>purple….所以黑色和红色永远不会错;绿色出乎我的意料,商家可以大胆尝试。style:trim出现在词频中、lace字眼,蕾丝最高!!!最后,在分析了Top100的商品信息和2.4w条评论后,作为一项严肃的Python数据分析研究,我们将总结亚马逊性感内衣产品和销售策略:1、Garmol必须注意竞争产品、ELOVER、Avidlove在口碑、定价、产品数量三个方面都有其核心优势,是需要重点研究的竞争对手。2、Review和星级是影响口碑的重要因素。有必要深入研究其算法机制,制定有针对性的营销策略。Review和星级有基本要求平均星级达到4.15分。超过一半的商家的平均评论只有193条,约30%的商家的平均评论比淘宝少。亚马逊的算法复杂,惩罚力度大。因此,Review的重精度优于重多3、定价策略主流市场竞争激烈,价格主要集中在10-20刀间高端市场,目前只有ELOVER,价格在40-55刀间低端市场价值不大,利润率小,为了提高曝光率或数量可以考虑,但不利于未来影响高端市场机会,20-40刀间没有其他业务,4.市场潜力巨大、产品策略应结合目标市场和定价,提高研发和创新能力,先尝试更多的产品错误,然后尝试单一的热风格来巩固市场内衣的大小:合身是最重要的,需要适合外国客户的大小,一般标志或以上。颜色:黑色和红色可以保守使用,绿色可以大胆尝试。款式:蕾丝装饰质量和质量控制是底线5、拓展&思考:亚马逊BestSellers每小时更新一次。理论上,你可以每小时爬一次,看看商品的排名变化,是否有新产品等。你可以尝试自动爬虫;对于最后一点,但商品的评论内容并不经常更新。如何避免重复爬行?(类似于断点续传功能);还有一个链接可以爬上商品图片,可以全部下载;在积累了一定的图片材料后,你可以在一定程度上看到颜色甚至风格的趋势。(类似于断点续传功能);这一次,还有一个链接可以爬上商品图片,可以全部下载;在积累了一定的图片材料后,你可以在一定程度上看到颜色甚至风格的趋势。最后,这是一个脸红和心跳的数据分析,Python的研究也结束了。
推荐阅读
- 小程序开发的价格贵吗?贵有贵的方式,便宜有便宜的方式
当下比较火的就是微信小程序了,现在大家都把小程序它当做一种APP开发的运用,因为使用起来方便,深受广大用户青睐,很多商家也都加入了开发小程序的队伍之中。但是大家也都很关心一个问题:小程序开发的价格贵吗?图片来源于网络 为什么开发小程序?小程…查看详情
- 超高播放量的古装剧排行榜,每一部都不会踩雷
不知不觉,追剧可能已经成为我们生活中的一部分了,还有许多超高播放量的古装剧也是非常好看的,下面我给大家推荐了一些好看的古装剧,你只要从开头看到结尾不会有一点踩雷的,因为都是我全部都看过的,今晚就开始追剧吧。第1名:《琉璃》改编于14郎小说琉…查看详情
- amd显卡和英伟达显卡哪个好
显卡是电脑硬件中非常重要的一个组件,它能够提供图形处理的能力,使得计算机可以显示高质量的图像和视频。AMD和NVIDIA是两个主要的显卡制造商,它们的显卡性能都很强大。那么,哪个更好呢?下面我将对AMD和NVIDIA的显卡进行详细的比较…查看详情
- 用上系统维护软件,电脑不再卡顿
相信很多长时间使用电脑的人都有过类似的感觉,明明自己电脑的配置很高,为什么在使用了一段时间之后仍然会很卡,甚至会出现蓝屏或是频繁死机的情况,使用软件也频频闪退。实际上这种情况大多与没有进行及时的电脑维护有关。今天为大家推荐几款系…查看详情
- 电子行业erp应该怎么选型?明白三点轻松搞定
如今电子产品已经逐步渗入到我们生活的各个角落,其业务规模在近年来得到了空前的增长,同时电子行业的市场竞争也在不断加剧。大多数民营的中小型电子企业为了适应市场与客户的需求,正迫切需要电子行业erp来缓解信息化改造的压力。那么对于中小电子企业来…查看详情
- crm系统多少钱?主要还是看这三点
越来越多的企业都体验到了实施crm系统所带来的的翻天覆地的变化,因此crm系统的地位也变得越来越高。但是随之而来就是越来越多crm厂商的诞生,对应的价格也参差不齐。导致很多企业的管理者们面对众多的crm系统时,不仅疑惑这些crm系统功能,还…查看详情
- 什么是数据可视化?
数据分析的出现是因为人类难以理解海量数据所呈现出来的信息,不能从中找到相应的规律来对现实中的事物进行对应,我们都知道数据有很高的价值,但不能利用的价值,没有任何意义。 为了解决这一问题,数据分析在长期的数据利用过程中不断完善,简单来说…查看详情
- 选择可靠的商标代理需要留意以下几点
商标注册流程也是非常重要的,找到一家商标注册代理公司也非常关键,其实现在的商标注册代理公司有很多,只有找到了正规可靠的,才能够省时省心。所以说在选择上多注册代理公司的时候,一定要谨慎,应该要找到比较好的。那么商标注册代理公司如何选择?选择可…查看详情
- 好用的打印系统,get轻松打印的乐趣
在办公与学习环境当中重要资料的打印、文档的打印、图片内容及照片内容的打印都是比较常见的打印需求。很多人将重要的文件内容储存于手机等移动终端当中,希望能够更为便捷地完成打印操作,今天就为大家介绍几款好用的打印系统,帮助人们get轻…查看详情
- 杀毒清理软件哪个好?这几款功能强大
如果电脑出现了中病毒的问题,那么危害是非常大的,毕竟现在的电脑往往拥有着大量的个人信息,甚至还会牵扯到企业的一些内部信息,所以缺少不了一款杀毒清理的软件,可以深层的清理电脑中的垃圾,修复漏洞问题,让大家的网络环境更为安全,那么杀…查看详情
- 这些合同管理软件免费版一定不能错过!
随着互联网的快速发展,互联网+的思想和技术开始运用于各行各业,合同管理系统就是互联网+的产物。合同管理软件使用互联网+的思维,帮助企业更加规范有效的管理合同,大大降低了出错的几率,有利于提高企业形象,是企业的核心竞争力。下面就是小编整理的一…查看详情
- 系统性红斑狼疮怎么引起的
系统性红斑狼疮是一种自身免疫性疾病,其具体病因尚不完全清楚。然而,研究表明,遗传、环境和免疫因素在系统性红斑狼疮的发生中起着重要作用。1. 遗传因素:遗传因素在系统性红斑狼疮的发病中扮演着重要角色。有研究表明,特定的基因变异可能增加患者患上…查看详情
- 视频剪辑用什么软件最好?这些软件不容错过
很多人都特别喜欢拍摄视频,其实现在很多人也都喜欢观看一些小视频,那么想要带来不一样的视觉体验,就应该要学会视频的剪辑与制作。在进行视频剪辑的时候应该要找到不错的软件来使用,这样能够让自己在制作的过程当中更加容易也能够得心应手。那…查看详情
- 好用的练字软件有哪些 好用的练字软件排行榜
虽然说大家现在大多数都是在使用手机电脑进行办公,但是练字软件这一块平时还是有很多的朋友在使用,下面小编就给大家来详细介绍一下好用的练字软件有哪些 好用的练字软件排行榜这一块的相关内容,希望能帮助到大家。, 好用的练字软件排行榜 …查看详情
- fprintf函数的用法matlab
matlab中的fprintf('y[%2.0f]=%12.6f'?1、首先,fprintf如果没指定文件句柄,则直接在屏幕上输出。 2、格式字符串中,其它内容都是原样输出,只有百分号后面的内容是要转换的,%2.0f表示要…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP

企业首选的数字选用平台






