《工业数据分析实战中的常见误区与对策》读后感

2022-03-08 · 2030 words · 5 minute read 读书

某年某月某日在统计之都主站上读到了一篇好文章,《工业数据分析实战中的常见误区与对策》。此文章的面向对象大概是数据分析师,也确确实实总结了许多数据分析实战中的误区。文章的目录如下。

  • 规划层面
    • 1.言不及义:脱离业务逻辑的数据分析是浪费
    • 2.指雁为羹:脱离约束条件的 “乌托邦” 很难成功
    • 3.空中楼阁:与组织形态失配的数据分析很难落地
  • 技术路线方面
    • 4.避实就虚:追 “时髦”,讲 “套路”,忘记了本来可行的做法
    • 5.闪烁其词:在 “科学” 名义下,以 “非科学” 的态度去做 “科学” 的事情
      • 5.1.场景考虑不全面,只考虑 “正常” 场景,忽略很多例外场景
      • 5.2.对数据的迷信
      • 5.3.对既有知识体系的无视
  • 执行层面
    • 6.舍本从末:把一个简单的问题复杂化
    • 7.因陋就简:数据基础不健全,就轻易放弃

文章作者从数据分析实战过程中按做事情的先后顺序提炼出三个层面,即合理规划问题、选择合适技术、具体实施执行。

在合理规划问题的层面上,“言不及义”是说当我们拿到一个业务方给的问题时,在正式分析之前,应该先审视问题是否贴合真实的业务逻辑,不然的话我们可能需要重新定义问题;“指雁为羹”是说在我们定义问题时,应充分考虑具体应用时的业务场景,问题应是具体的、符合现实的,这样数据分析的结果才会真正起到作用;“空中楼阁”是说不管是分析还是建模,最终成果都是要拿去给业务方应用的,应多关注业务方的真实需求,不要造成“你给我不是我想要的”情况。

在选择合适技术路线的层面上,“避实就虚”是说技术应为业务服务,不要看到什么牛哄哄的新模型或新的分析方法就直接套用在自己的项目上,牛哄哄的东西不一定就是万试万灵的,应该根据实际业务情况去找最合适的技术路线;“闪烁其词”是说建好的模型通常都是有针对的特定场景的,一般不能随便迁移应用到别的场景上,所以建模时对实际应用场景要尽量考虑全面,不要过度迷信数据,必要时站在巨人肩膀上摘苹果也很省时省力。

在具体实施执行的层面上,“舍本从末”是说要透过现象看本质,要是手握牛刀却偏偏碰到的问题是杀鸡,那也不要直接用牛刀杀,要是用杀牛的方法来杀鸡,那只鸡不委屈,因为浪费时间的是杀鸡用牛刀的人;“因陋就简”是说虽然数据是数据分析的基础,但是种种现实问题都会让数据有残缺,分析数据的人也不要太受数据的束缚。业界广泛流传一句话:数据和特征决定了机器学习的上限,模型和算法只是无限逼近这个上限。一般正式建模前,数据分析师都会做点探索性数据分析来看看是否可行,这样即使上限有限,若是有可为,当然可以去为,但不为所欲为。

只不过,讲道理总是容易的。文章作者为了避免说教味太重,总结的每一点下面都描述了一个亲身经历的例子。但这些例子在我看来仍然有些理想化了,加上最初看到这篇文章时我不认识“指雁为羹”这个成语,便武断地认为作者取的小结标题有硬凑嫌疑。于是乎,在某年某月某日的后几日再一次看到这篇文章时恰好内心起了一点情绪波动,又恰好忽然觉得统计之都论坛上的言论太过和谐统一,又恰好内心的捣蛋凡出来透了口气,于是我恰好想扔个小炸弹试试水,最后我在该文章下面冲动留言:

差点意思,没写到点子上。学术界写工业界就是这么喜欢理论性总结,触不到根本。

结果没过一会就被好心的小闪电1看到,给我删了,删的理由说得我心服口服。不过,从此以后我也一直惦记着写写这篇文章的读后感。话说回来我想吐一些此文章以外的槽。

  • 文章的隐藏背景是数据分析师和领域专家一起解决问题,但现实工作中“领域专家”的角色很有可能不存在,存在也不一定能配合,配合也大概率是懂业务不懂技术。倘若有业务方配合技术方一起做项目,要做好一个真正能够落地应用的数据类项目往往耗费极大的时间成本,在把业务方的经验知识转换为特征时需要业务和技术反反复复磨合。跨领域沟通确实是数据分析师常常感到头痛的问题,但往往知易行难。

  • 有时候不明就里的业务方会觉得人工智能不是很厉害嘛,不是能用历史数据预测未来嘛,为什么这也不行那也不行。唉,数据分析本就不是万能的,更加不可能无中生有。要是沟通许多次以后,业务方终于能对这件事抱有合理的期待,那干活的人真是谢天谢地了。撒叫合理的期待呢?那就是,要做一桌丰盛的饭菜需要去买菜,要买鱼呀肉呀青菜呀,可是指着一碗白米说让做一份佛跳墙那就愁煞人了,无奈的是指挥的人有时候不知道那只是一碗白米还等着要大吃大喝呢。

  • 从我个人角度来看,做数据分析其实会碰上很多心理误区:比如觉得数据里一定蕴藏着很多重要的真理,只要耐心挖掘就能挖出来,说不定各种折腾后发现最终得到的结论和最初的一致,有可能都只是做无用功,只是多了一个确定无用的过程……讲真,其实我也搞不清楚到底何时应该当机立断换方向,何时应该持续死磕到底。

写着写着我忽然想起来当时为何会有情绪波动了,大概是以为文章作者顶着这么多头衔去跟企业合作做项目,一定不会像我这种小螺丝钉一样被“数据分析”这件事本身以外的因素干扰。


  1. 小闪电,即版主,在统计之都论坛里,头像上带有闪电标记的就是版主,有管理帖子的义务和权限。