服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

分析案例丨朝阳医院在2018年里的销售情况

2020-12-28 11:18:47 阅读(172 评论(0)

1、数据分析的目的数据分析是指通过适当的统计分析方法对收集到的大量数据进行分析,提取有用的信息,形成结论,并对数据进行详细研究和总结的过程。在本文中,假设以2018年朝阳医院的销售数据为例,目的是了解2018年朝阳医院的销售情况,需要了解月平均消费次数、月平均消费金额、客户单价、消费趋势等几个业务指标。2、数据分析的基本过程包括:数据获取、数据清洗、模型构建、数据可视化和消费趋势。2.1获取数据Excel中数据部分的截图:先导入包,再读取文件,读取时用object读取,防止一些数据无法读取:In[1]:importpandasaspdIn[2]:#读取数据(最好使用object类型) ...:data=pd.read_excel("2018年朝阳医院销售数据.xlsx",dtype="object")In[3]:#修改为DataFrame格式 ...:dataDF=pd.DataFrame(data)In[4]:dataDF.head()Out[4]:       购药时间     社保卡号  商品编码  销售商品名称的数量 应收金额 实收金额0 2018-01-01星期五   001616528 236701 强VC银翘片  6 82.8  691 2018-01-02星期六   001616528 236701 清热解毒口服液  1  28 24.642 2018-01-06星期三  0012602828 236701   感康  2 16.8  153 2018-01-11星期一 0010070343428 236701  三九感冒灵  1  28  284 2018-01-15星期五  00101554328 236701  三九感冒灵  8 224  208查看In[5]这些基本信息:#查看数据的形状,即几行几列 ...:dataDF.shapeOut[5]:(6578,7)In[6]:#查看索引 ...:dataDF.indexOut[6]:RangeIndex(start=0,stop=6578,step=1)In[7]:#查看每列列表头的内容 ...:dataDF.columnsOut[7]:Index(['购药时间','社保卡号','商品编码','商品名称','销售量','应收金额','实收金额'],dtype='object')In[8]:#查看每列数据统计数量 ...:dataDF.count()Out[8]:购药时间  6576社保卡号  6576商品编码  6577商品名称  6577销售数量  6577应收金额  6577实收金额  6577dtype:int64共有6578行7列数据,但“药品购买时间”和“社会保障卡号”两列只有6576个数据,“商品代码”到“实收金额”这两列只有6577个数据,这意味着数据缺失值,可以推断数据缺失值,除了“药品购买时间”和“社会保障卡号”两列各有一个缺失数据,这些缺失数据需要在以下步骤中进一步处理。2.2数据清洗数据清洗过程包括:选择子集、列名重命名、数据处理缺失、数据类型转换、数据排序及异常值处理2.2.1在我们获得的数据中选择子集,数据量可能非常大,不是每个列都有价值需要分析。此时,我们需要从整个数据中选择合适的子集进行分析,以便从数据中获得最大的价值。在这种情况下,不需要选择子集,这一步暂时可以忽略。2.2.在数据分析过程中,一些列和数据容易混淆或模棱两可,不利于数据分析。此时,需要将列替换为易于理解的名称,可以通过rename函数实现:In[9]:#使用rename函数,把"购药时间"改为"销售时间" ...:dataDF.rename(columns={"购药时间":"销售时间"},inplace=True) ...:dataDF.columnsOut[9]: Index(['销售时间', '社保卡号', '商品编码', '商品名称', '销售量', '应收金额', '实收金额'], dtype='object')2.2.在缺失数据处理获得的数据中很可能存在缺失值,通过查看基本信息,可以推断“购药时间”和“社保卡号”存在缺失值。如果不处理这些缺失值,会干扰以下数据分析结果。缺失数据的常用处理方法是删除包含缺失数据的记录或使用算法来补充缺失数据。为方便起见,dropna函数直接用于删除缺失的数据,具体如下:In[10]:#在删除缺失值之前  ...:dataDF.shapeOut[10]:(6578,7)In[11]:#使用dropna函数删除缺失值  ...:dataDF=dataDF.dropna()In[12]:#删除缺失值后  ...:dataDF.shapeOut[12]:(6575,7)2.2.在导入数据时,4数据类型的转换是为了防止导入不进来,所有数据都是object类型,但在实际数据分析过程中,“销售数量”、“应收金额”和“实收金额”需要浮点类型(float)数据、“销售时间”需要改为时间格式,因此需要转换数据类型。可以将astype()函数转换为浮点数据:In[13]:#将字符串转换为浮点数据  ...:dataDF["销售数量"]=dataDF["销售数量"].astype("f8")  ...:dataDF["应收金额"]=dataDF["应收金额"].astype("f8")  ...:dataDF["实收金额"]=dataDF["实收金额"].astype("f8")  ...:dataDF.dtypesOut[13]:销售时间  object社保卡号码  object商品编码  object商品名称  object销售数量  float64应收金额  float64实收金额  64dtypefloat64dtype:在“销售时间”这一列数据中,object存在星期这样的数据,但是在数据分析过程中不需要使用,所以要用split函数来划分销售时间列的中日期和周期,分割后的时间,Series数据类型返回:In[15]:#星期去除定义函数  ...:defsplitsaletime(timeColser):  ...:  timelist=[]  ...:  fortintimeColser:  ...:    timelist.append(t.split("")[0]) #[0]表示选定的分片,这意味着切割后选择第一个分片  ...:  timeser=pd.Series(timelist) #将列表转换为一维数据Series类型  ...:  returntimeser  ...:In[16]:#获取"销售时间"这一列数据  ...:t=dataDF.loc[:,"销售时间"]  ...:#调用函数去除周,获取日期  ...:timeser=splitsaletime(t)  ...:#修改"销售时间"这一列日期  ...:dataDF.loc[:,"销售时间"]=timeser  ...:dataDF.head()Out[16]:     销售时间     社保卡号  商品编码  商品名称 销售数量 应收金额  实收金额0 2018-01-01   001616528 236701 强大的VC银翘片 6.0 82.8 69.001 2018-01-02   001616528 236701 清热解毒口服液 1.0 28.0 24.642 2018-01-06  0012602828 236701   感康 2.0 16.8 15.003 2018-01-11 0010070343428 236701  三九感冒灵 1.0 28.0 28.004  2018-01-15    00101554328  236701    三九感冒灵   8.0  224.0  然后将切割后的日期转换为时间格式,以下数据统计方便:In[17]:#字符串转日期  ...:#errors='coerce'如果原始数据不符合日期格式,则转换值为Nat  ...:dataDF.loc[:,"销售时间"]=

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

autodesk material library可以卸载吗

Autodesk桌面应用程序有什么用,能卸载吗?Autodesk桌面应用程序这个软件其实没什么用!可以卸载! 1.退出Autodesk桌面应用程序:在系统托盘中,右键单击。单击“退出”。 2.卸载Autodesk桌面应用程序:依次单击“…查看详情

苏宁易购和京东商城有什么不同点?

京东买手机靠谱还是苏宁易购靠谱?个人肯定是建议买京东,因为京东的售后服务,物流配送都会非常的快,苏宁相对于京东来说,已经算一个比较小的平台,而且配送服务基本上属于外包给第三方的快递公司,配送质量和配送速度都没有保障。但话也不能说绝对很多时候…查看详情

推广在哪个平台推比较好?这些平台可以尝试一下

  相信很多创业者都存在这样的困扰,有了项目,有了产品,却不知道怎样能让市场快速接受,正所谓“酒香也怕巷子深”,下面小编就来盘点一下推广在哪个平台推比较好这一块的内容。希望能帮助到大家!网络处处能推广,关键在于找到一个适合自己的方式,以下为…查看详情

html怎么设置网页背景

如何在html中插入整个页面的背景图?用Dreamweaver软件编辑 一、打开Dreamweaver,然后选中html,出来了一个html标准文档。 二、在在html中插入整个页面的背景图?在html中插入整个页面的背景图的方法如下:…查看详情

mybatis和hibernate的区别

mybatis缓存分类及实现方法?Mybatis与Hibernate一样,支持一二级缓存。一级缓存指的是Session级别的缓存,即在一个会话中多次执行同一条SQL语句并且参数相同,则后面的查询将不会发送到数据库,直接从Session缓存中…查看详情

2021抖音最火音乐排行榜,看有哪些是你熟悉的BGM

个别音乐歌曲备受人民群众的钟爱,在众多软件快速最火了起來,成为人人皆知的音乐歌曲,那些音乐歌曲促进了身边的开场,使人们多了点欢乐,接下去的几首歌音乐歌曲,喜爱音乐歌曲的网民适合关注起來!1.《爱人错过》是潘云安、告五人一同协作成功的一首歌,…查看详情

efi系统分区有什么用

EFI(Exte1ibleFirmwareInterface)系统分区是计算机硬盘上的一小块空间,用于存储引导和固件配置信息。EFI系统分区:简化引导和提供固件配置 在现代计算机系统中,EFI系统分区起着至关重要的作用。它不仅简化了操作系统…查看详情

2017第六届蓝海基业BOSS会晚间新闻

经过120天的不懈努力,来自全国各地的英雄们克服无数艰难险阻,终于在11月1日,胜利会师总部成都,正式开启了第六届蓝海基业BOSS的旅程。 极具科技感的签到,正式拉开了本届BOSS会的序幕。 短暂休整过后,就开启了今天的重头戏——“秋实之约…查看详情

随机抽号app

有没有软件可以。我自己输入几个数字,然后随机选数字的软件啊?可以试一下这款抽号软件,由本人自主开发,Win8风格,多种抽取模式,系统设置里面可以任意修改抽取范围。希望你喜欢。在手机上如何设置随机抽号?登录交管12123APP,在【业务中心】…查看详情

如何选择简单的crm系统?这几款可以参考

随着crm系统带来的管理和销售效率,越来越多的企业开始引进crm系统。然而每个crm厂商的侧重点与目标客户群体的不同,企业在选择crm时容易混淆,不仅怕复杂的crm系统无法操控,还怕花了冤枉钱,所以接下来小万为大家介绍2019年最受欢迎的简…查看详情

制作图片的软件app哪个好?制作图片的软件app推荐

平时用到图片的时候就应该要对图片进行制作,通过制作才会让整个图片变得更加精致,才能够得到更好的使用,效果也是比较好的,所以说制图软件一定不能少。平时的时候使用手机的频率比较多,所以说下载一款制作图片的软件app也是非常重要的,那…查看详情

客户管理软件哪个好用?这几款是不错的选择

有些企业在发展的过程当中会有很多的客户,如果对客户进行记录的话,就是一个麻烦的事情,但是想要对客户进行更好的维护就应该要做好客户管理,所以说这个时候一款客户管理软件就显得十分重要,找到一款好的客户管理软件,才能够达到理想的效果,…查看详情

淘宝运费险是什么意思?有什么作用?

  优质答案(1)  淘宝商家赠送的运险费,意思是收货后想退货(最好先和商家达成退货协议),你寄回去的运费由你先垫付后,在退货完成后由保险公司赔付你的运费。  保险公司是按投保规定赔付你的运费,可能和你实际花的运费由稍微差异。  淘宝联合保…查看详情

伦勃朗光怎么打

伦勃朗的绘画特点是什么?荷兰伟大的油画家伦勃朗,以其精湛的绘画技艺和独具特色的油画语言,特别是在"光"、"色"、"笔触"、"肌理"等探索方面达到了极高的水平,对后世产生了巨大的影响,特别是当前我们研究伦勃朗的艺术对提高我国油画水平有着现实意…查看详情

开公司好还是个体户好

  对于很多人来说,开公司和成为个体户都是一种很好的工作选择。虽然两者都可以让你独立工作,但它们之间也有一些差别。在选择开公司或成为个体户之前,应该先了解两者的优缺点,然后根据自己的需求和目标来做出选择。在本文中,我们将详细描述什么是开公司…查看详情

最新文章