模型上线该如何评估以及选择最终的预测结果?
2020-12-28 11:13:36 阅读(224) 评论(0)
在最后一篇文章中,我们介绍了正式的数据源。通过pandas提供的一些dataframe函数,我们对数据进行了初步观察。然后,基于matplotlib提供的scatter散点图函数,我们逐一观察了可能发挥预测作用的部分特征的最原始分布关系,然后用多种分类模型算法逐一完成了从训练到预测再到模型评估的过程。一般来说,基本过程已经过去了。至少让每个人都知道最简单的过程是什么。事实上,这并不神秘。但这确实是最简单的过程,我们不知道有更深层次的惯例。因此,接下来,我们应该尝试看看如何使用文本类的特征,是否有更合理的特征选择方法,如何调整模型的参数,并仅仅依靠train_test当然,无论是否有更合理的方法来分割数据,然后进行训练和验证,是否有其他更合理的方法来观察效果,以及如何评估和选择最终的预测结果。然后补充这些,我们将从零开始梳理完整的机器学习过程,基于这些CASE,基于这个CASE也可以完成一个完整的过程。在02文本分类的最后一篇文章中,我们几乎使用了可能影响性别的数值和LABEL特征,只有少数文本特征不敢开始。包括随机选择的推文text、账户描述信息description和账户昵称。文本特征不同于传统的数值特征,数值特征是一个非常标准的模型输入格式,类型特征只需要做字典编码,也可以转换为有限的数字特征,只有一段文本特征,以及账户昵称。文本特征不同于传统的数值特征,数值特征是一个非常规的模型输入格式,而类型特征是一个非常标准的特征,类型特征也只需要做字典编码,也可以模仿为有限的数字类型特征。the”“a”“are“等等。一般来说,这些词对类别的判断没有多大帮助,但它们会影响标记的性能。毕竟,最终拆卸的标记维度会更多,并形成干扰。因此,鉴于文本的特征,首先是单词分割,然后是停止单词的过滤。此外,由于句子中单词的重用性,同一标记将不可避免地出现多次,特别是一些长文本,这是一个非常常见的情况。仅仅依靠是否出现来进行特征是不够的。我们可以尝试量化特征在特征阶段的重要性,并给出不同的权重,这必然会在实际预测中带来积极的影响。对于单词的权重,标记sklearn.feature_extraction.text提供了两种常规方法,一种是词频统计,很容易理解,即以词频的数量为权重,另一种是tfidf。tfidf是从全球思维的角度量化单词权重的一种方式。其中,tf即词频=单词出现在文档中的次数/文档的总数。你可以认为这里有多少文本记录,比如有多少text。这里量化的是单个文档中单词的权重。idf是反向文档的频率=log(文档总数/(包含该词的文档数) 1),idf从整体角度加权分布特征独特的单词,变相减权通用性强的单词。两者结合后,一方面考虑单个记录中单个单词特征的权重,另一方面也考虑单词的整体权重,最终获得tfidf的综合权重。更具体的可以从其他渠道理解,简而言之,这并不是很困难。##由于特征包含了文本属性、文本特征和更高的信息区分,因此优先考虑fromsklearn.feature_extraction.textimportCountVectorizerfromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.naive_bayesimportMultinomialNBc_vec_s=CountVectorizer(analyzer='word',stop_words='english')df_text=pd.concat([df['description_norm'],df['name_norm'],df['text_norm']],axis=1)# 类型转换x_text_count=c_vec_s.fit_transform((df['text'] df['description']).tolist())x_train,x_test,y_train,y_test=train_test_split(x_text_count,y,test_size=0.35#贝叶斯nb=MultinomialNB()nb.fit(x_train, y_train)y_predict=nb.predict(x_test)text_confusion=confusion_matrix(y_test,y_predict,labels=[0,1,2])print(f'confusion_matrix: \n{text_confusion}')print_score(y_test,y_predict,text_confusion)这里使用了简单贝叶斯的分类模型,并使用了多项分布NB,我们将借此机会补充一些理论知识。简单贝叶斯分类的核心是通过现有样本的特征构建先验概率,然后通过先验概率计算未知分类的概率。结合这个例子,可以计算已知单词特征和结果之间的可能概率,类似于先验概率。在预测阶段,可以计算测试数据或实际数据的单词的权利特征。通过结合培训计算获得先验概率,可以计算或预测每个类别的概率,从而达到预测的目的。其中,P(A |B)是指事件B发生时事件A发生的概率(条件概率)。在传统的简单贝叶斯分类中,先验概率的计算与特征的分布有关,分为三种分布:高斯分布,即正态分布。此时,计算先验概率将认为特征是根据正态分布的,例如,常见的身高分布是正态分布。在这个例子中,词分布显然很难形成标准正态。当然,你也可以画出分布图。多项分布-有点难解释,或者结合文本分类,对于特征矩阵有N维,N维分布是离散的,所以对于每个类别有N个抽样概率计算,当然,每个维度的单词特征仍然是权力,最终得到一个整体概率。一个更流行的描述是,许多分布有点像扔N硬币的总概率(当然,有时你没有硬币——没有这个词,所以这次不需要扔,自然这个词的相应概率不需要计算),但实际上可能不是每个扔硬币的重心是绝对中间的,所以最终结果自然不是0.5。伯努利分布-结合这个例子,对于一个样本,其特征是整体特征,即不同于多项分布,虽然最终可能是N维字矩阵,但实际上每个样本参与概率计算字特征远低于N,正如上面所说,有时你不能得到硬币,自然不需要扔。然而,与伯努利不同,他相当于从全局的角度观察样本的概率,这对于没有出现的单词特征也是有意义的,即“未出现”也是一种特征表征,也需要参与概率计算,最终是一个真正的ND概率。所以对于文本分类,经常使用简单的贝叶斯分类很容易理解,先验概率计算逻辑使稀疏和分散的场景最大化每个细微特征的概率影响,使机制非常稳定,稳定到简单的贝叶斯很难做模型水平的优化,本身没有几个参数,所以从模型水平尝试优化,count特征化和tfidf特征化是上述两种思路。这是MultinomialNB中使用count特征化的结果:confusion_matrix:[[1593 507 236][8631052 283][305 3481406]]0-precision:0.57696486780152120-recall:0.68193493150684941-precision:0.5516518091242791-recall:0.47861692447679712-precision:0.73038961038961042-recall:0.6828557552209811avg-precison:0.6196687624384702avg-recall:0.614920373477:0.61439571060215这是MultinomialNBTfidf特征化的结果:confusion_matrix:[[1875 352 130][1072 922 242][460 2761264]]0-precision:0.55033754035808620-recall:0.79550275774289351-precision:0.59483870967741941-recall:0.412343470483005352-precision:0.77261613691931542-recall:0.632avg-precison:0.6392641289849403avg-recall:61320760752996accuracy:0.61596306239以下使用伯努利分布(BernoulliNB)简单的贝叶斯,并采用tfidf特征结果:confusion_matrix:[[2001 253 123][1148 779 196][526 2361331]]0-precision:0.54448979591836730-recall:0.8418174169120741-precision:0.61435331230283911-recall:0.366933584550164842-precision:0.80666666666666662-recall:0.6359292881032012avg-precison:0.6551699249626243avg-recall:0.61493429556:accuracy最好的结果是0.623,0.623,0.623,183072956,真的不好,但是和之前最大的不超过0.55比,简直好多了,感动得哭了。然而,仍然非常痛苦的是,1-male类别仍然是最糟糕的类别,这真的有可能是male的特征没有相对的显著性。这里再次解释,文本类的特征信息量仍然相对较大。虽然特征维度相对较高(),看起来非常复杂,但正因为如此,一些东西越能反映在侧面。对于文本特征,样本数量越多,分类就越容易更准确:x_train.shape(12243,66195)#前面是行数,即样本数,后面是列数,也就是说,在最后一篇文章中,我们首先使用经验来判断最终特征维度03更合理的特征选择 通过肉眼观察相关分布来选择数值型特征,实际上还有更合理的判断方法。第一种,判断特征变化与Y的相关系数(Pearsonr相关系数):from scipy.stats import pearsonrprint(f"tweet_count-y(pearsonr):{pearsonr(df_x['tweet_count'],y)}")print(f"retweet_c
推荐阅读
- 你还在忽略平台运营的重要性吗?
我们为什么要做平台运营呢?因为我们的平台「没有效果」。一个什么都不做的平台是没有办法引来流量的,更没有办法形成转化带来业绩。很多中小企业在搭建平台后,都会忽视平台运营的重要性,事实上,平台运营对平台价值的发挥十分关键。图片来源于网络 要做好…查看详情
- 行业不同商标注册类别不同,布料行业通常选择第24类商标注册
各行各业申请注册商标时,都会根据自己的产品或服务进行不同类别的注册。如布料行业通常会在第24类商标注册,服装行业通常会在第25类商标注册,计算机行业可能会在第42类商标注册。 图片来源于网络 第24类商标注册主要包括:织物和家用织物覆盖物。…查看详情
- 网络营销的特点有哪些?
在这个迅猛发展的新时代,万事万物都在迅速变化。之前的营销方式,落伍了;之前的营销渠道,萎缩了;之前的营销观念,老土了。在这个不断变化的世界里,唯有紧跟时代的步伐,才不容易被淘汰。 在这个迅猛发展的新时代下,万事万物迅速变化。几乎所有行…查看详情
- 冰箱什么牌子的好,还是要看以下的推荐
家家户户基本上都会用到一些冰箱,但是因为家庭人口不一样以及家庭需求不一样,所以选择的冰箱类型也基本上都不一样,在我们日常生活当中,冰箱什么牌子的好,还是要看以下的推荐。 1、海尔冰箱 海尔这个品牌也算是知名的大品牌了,在消…查看详情
- 香港公司不年审不注销有什么后果
香港公司账户开设后,一直没有使用、没有申报,会有什么问题? 香港公司银行账号一直不使用,会被冻结或进入久悬状态,就不能再使用。如果要重新使用,需要激活或者重新开户。公司不经营以及没有其他方面的用途,建议尽快注销,不然长时间没有年审会产…查看详情
- 下载一个windows10镜像多久
下载Windows10镜像需要的时间取决于许多因素,包括您的网络连接,下载源的速度和质量以及您的计算机硬件和软件性能。此外,Windows10官方镜像在一定程度上下载速度缓慢的原因是由于许多用户正在下载相同的文件。 Windows10…查看详情
- 中小企业分销管理系统怎么选
分销管理系统哪个好?应该怎么选?因为每个中小企业的实际情况不同,所以具体的答案也会不同。但是无论怎么样,分销管理系统的作用是不容置疑的。下面小万就从三个方面来介绍一下电商分销管理系统该如何选择。图片来源网络1、安全性分销管理系统对分销商的管…查看详情
- 盘点6款免费crm软件排名
随着经济的发展和管理系统的升级,越来越多的企业开始使用CRM来帮助企业进行管理,对于一些小的企业来说,他们往往都会考虑的是免费CRM软件。所以小的企业介绍5款免费CRM软件如下。 1ZohoCRM免费crm软件 ZohoCRM是当今市场上最…查看详情
- 微信如何群发,10大群发微信工具推荐
群发工具可实现快速操作,达到事半功倍的神器效果,互联网时代工具的运用是运营的核心关键,那么在不限制数量和快捷的情况下,微信如何群发?下面就教大家10大群发微信工具,帮你提升工作效率。 1、微信电话本 一款由腾讯制作的手机短消息群发软件.高清…查看详情
- 盘点工作中高效又专业的在线办公软件
日常的工作中我们都离不开办公软件,一款好的在线办公软件能高效的提高工作,避免我们重复的做无用功,今天就来为大家介绍几款超级强大实用的在线办公软件,一起看看吧。1、石墨文档这款软件能够轻松的满足对于基本数据以及文档的处理,十分优秀的远程办公系…查看详情
- 你的生意不好,有可能是这个原因造成的!
时代抛弃你时,连一声再见都不会说!——前央视主持人张泉灵这句话这几年很流行,虽然很残酷,但是话糙理不糙,真实的生存法则就是如此。跟不上时代的步伐,注定要被时代淘汰,这个是亘古不变的真理。干掉诺基亚的不是同时代的摩托罗拉,而是代表未来的智能手…查看详情
- datetimepicker默认值是什么
c#DatePicker如何显示时分秒?C#的datepicker是指日期选择器,自然不带时分秒的,只能对年月日进行格式的变化。 DatePicker日期选取器提供了一种标准化途径,用户可以通过触控、鼠标或键盘输入选择本地化格式的日期。 …查看详情
- “域名可以免费申请吗”,这不该是中小企业提出的问题!
域名是有数字、文字、符号构成的特定识别码,它作为网站的入口和标识,也是企业无形资产之一。优质的域名是一种全球性稀缺资源,伴随企业发展壮大,在互联网营销中,域名与商标具有同样的品牌价值和商业价值,它同样代表了一家企业的品牌形象。所以,“域名可…查看详情
- 好用的音乐制作软件有哪些 音乐制作软件排行榜
现在大家身边都有很多从事自媒体的朋友,而且现在制作短视频的话对音乐剪辑也是有一定的要求的,下面小编就给大家来详细介绍一下好用的音乐制作软件有哪些 音乐制作软件排行榜这一块的内容,希望能帮助到大家! 好用的音乐制作软件有哪些 1、…查看详情
- css的优先级怎么判断?
css的优先级怎么判断?css选择器优先级怎么比较 CSS选择器中比较常见的有标签选择器、ID选择器、类选择器以及子选择器。而事实上,CSS选择器如果细分下来,竟然多达40多种。那他们的优先级该怎么比较呢,下面就来看看吧。 ●不同级别 …查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP

企业首选的数字选用平台






