懂数据的人会怎么去思考和解决问题?
2021-01-08 08:58:46 阅读(173) 评论(0)
对于数据岗位的员工来说,互联网公司有一些不同的名称,比如统计工程师、大数据工程师、数据分析师、算法工程师、数据科学家等等。每一种技能之间的差距都是无与伦比的。然而,我认为对数据职位的需求是不断变化的。真正能通过数据解决问题的人不仅要了解两到三个职位的技能,还要深入了解数据方法论,并在掌声中玩数据。我称这种人为数据极客。就像武侠小说中的顶尖大师一样,杀人不再需要剑,剑意可以无形中杀人。数据极客需要具备哪些能力?懂数据的人会如何思考和解决问题?我想举四个我自己遇到的小例子来解释。在大多数人的常识中,知道如何创造数据是客观存在的,既不会增加也不会减少。当他们画报告、分析和构建模型时,很容易遇到的瓶颈是没有数据。俗话说,聪明的女人没有米饭很难做饭。真实的情况是:数据是无穷无尽的,即使有时我们和数据之间的距离很远,就像远离天空的星星,「手可摘星辰」这只是一个传说,但经过大气层的折射,我们总能感受到它们的光辉。数据不仅可以折射,还可以折射。举个小例子:实习生Q来问我:「老板赶紧要求大厅发言的数据来对付投资者,但由于后台发言的数据量级太大,从来没有保存过,数据库和日志系统都没有记录。」我想了想,问:「客户端进入大厅页面的事件一直受到监控。可以用数据代替吗?」「但数据并不准确,因为进入大厅的人并没有完全转化为演讲。」「是的,虽然不是很准确,但是这个数据可以暂时近似。然后,朋友添加的数据也可以在一定程度上反映大厅演讲的热度,因为之前的统计数据显示,70%的朋友来自大厅。哦,顺便说一句,你注意大厅界面发送按钮的事件统计吗?这将是一个更精确的替代数据。」这是一个数据是否有创建的例子。虽然原始数据没有保存,但数据极客的任务是通过其他可能获得的数据接近原始数据,从而恢复更真实的情况。如果没有数据可以作为罢工的借口,那么我相信90%的数据极客可能会失业。但另一方面,如果你不知道业务收集的数据,你就无法快速实现这种数据变化的戏法。数据是立体的。20世纪初,毕加索兴起了立体绘画的趋势,追求以多种组合的碎片形式描述对象,并将其放置在同一张图片中。物体的各个角度交错重叠,创造了一个多维的迷人空间。这与理想的数据显示有多相似:客观问题通过多维数据解释显示在二维平面上,让读者即使只站在一个角度,也能从各个角度看到问题的表现。再举一个小例子(是的,这个例子与数据岗位完全无关,是客户端工程师的麻烦):W是U公司负责海外业务的Android工程师。最近,我专注于视频播放项目。有一次,我在聊天时说,我最近优化了几个底层数据库的性能,但从指标的角度来看并没有显著提高。每次我向老板汇报,我总是感到内疚。「如何统计性能优化的指标?」「海外业务的网络状况普遍较差,因此我们最关心的是视频页面的加载时间。统计的是从页面打开到视频完全加载的时差,以及所有用户的平均值。」「这个指标似乎不那么全面。如果用户等待时间过长,他可能会提前关闭页面。关闭页面的数据有统计吗?还有,你见过这个时差的分布吗?如果性能优化针对一些特殊的客户端(如型号,CPU、内存),有没有看过特殊客户端下的指标有没有提升?」我默想W的下一份报告会大肆炫耀,呵呵。这就是数据的魔力所在。通过层层分析,我们总能找到与问题相关的不同数据,然后通过数据的变化定位问题的原因或发展趋势,并得出无可争议的结论。因此,在解决任何问题(不限于数据职位)之前,您必须首先建立一个三维的数据监控系统,以有效地确认您的解决方案是有效的。厌恶抽样,无论是推荐系统、精准营销还是反欺诈,都会遇到一个现实问题:如何检测模型的实际效果?除了观察指标外,还需要选择一小部分标记用户来观察他们的行为模式,并人工验证该模型的准确性。但如果抽样被泛滥,它不是补充剂,而是毒药。再举一个小例子:G是团队的新人。有一段时间,我看到他日夜加班。我忍不住问了几句,看看他最近在业务上是否遇到了瓶颈。问有点讽刺:G负责反欺诈模型的建设,需要一些黑色标签,他从所有用户中提取了几个特征用户组,然后从每个用户组中提取一批用户,通过日志观察是否有欺诈,所以花了两天时间。抽样是一种从局部角度看整体的方法。在抽样上,你也应该控制整体。例如,G的做法不符合数据极客的行为指南。由于您可以通过日志观察用户的行为特征,您应该首先将此行为特征转换为可用的统计指标(如识别欺诈,可以使用与收入相关的指标),然后计算这些用户组的平均特征,以便一目了然,节省时间和精力。感谢谷歌在这个时代创造了最便宜的数据核武器–Hadoop(当然,如果Spark有更少的bug,我会考虑把AMPLab放在谷歌前面),数据的规模对大多数企业来说已经是一个无忧无虑的问题。但数据极客不会满足于使用工具的水平,了解工具的原理,灵活使用工具,使工具更容易,才能真正实现「善」使用工具的状态。再举一个小例子:Z博士毕业后不久,我们的推荐系统使用了高机器学习算法,但第一个计算结果实际上需要8个小时才能完成,远远不能满足产品团队的更新要求。所以老板鼓励我帮助Z提高整个环节的效率,我们在白板上梳理了整个计算过程,我发现有几种方法是浪费资源来降低效率:原始数据由单机处理,然后上传到Hadoop、事实上,多个Mapreduce可以合并为一个,甚至Hadoop的参数也可以根据机器的性能稍微调整:增加节点数,增加Map和Reduce的可用内存,增加压缩,以减少节点之间的传输时间。稍作改造,计算时间只剩下原来的四分之一。经过一点改造,计算时间只剩下原来的四分之一。说到这里,你可能会觉得数据极客并不聪明。他们的方法论与所有工作方法论没有什么不同。他们将使用更多的大脑、更多的工具和各种角度来看待问题。在这种情况下,我可以祝贺你,你已经完全理解了数据的奇妙使用,我一直认为理解一些数据将对人们的工作和生活有很大的帮助。
推荐阅读
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP

企业首选的数字选用平台






