创业公司数据课讲点啥?

risk

创业公司数据培训课程会面向哪些人,有哪些不同的内容,怎么讲才有效果?

以往的文章曾经提到创业公司数据落地的三板斧:数据理念的推广、数据价值的展示、文化制度的要求。

数据理念推广这部分有一个重要内容,就是数据相关培训,为此曾在公司内部讲过一年的数据课,每周一次,面向公司各个层面的同事,内容包括数据分析,机器学习,量化决策等不同主题。

过去两周访问了加州的几个学校,遇到了一些老师和朋友,聊到数据教育的问题,收获不少新鲜想法,很受启发,也借机会梳理了一下在创业公司的数据课中面对不同人都讲了什么?

按工作职能分,参与的人主要有以下四类,下面会分别说明:

  • 各团队负责人
  • 一线工作人员
  • 开发工程师
  • 数据团队成员

1. 各团队负责人

各团队负责人很多时候是数据的消费者,首先是要学会看报表。比如Vintage图,留存率图这些报表,一开始不是特别容易理解,要细致的一点一点讲明白,还要看出意义。

看报表的核心是做细分,然后做对比。对比不同行业,不同地区,不同时间,企业内外,找出差距,定位问题,当数据的消费者有更清晰的思路时,就可以提出更加合理的需求,即节省数据团队的时间,也提升自己团队的效率。

各个团队负责人重要的工作就是做各种决策,包括方向性的决策和操作性的决策。相比传统成熟行业,创业公司的决策场景,会有更多的不确定性,创业就是在试错,这就需要了解一些风险决策的思想和方法

每个决策都可能有不同的结果,判断一个决策好不好,不是只看最后结果,就像卖了保险,最后没有出险赔偿,不能说买保险这个决策是错误的,很多时候未来是不能预测,只要在平均期望上达到最佳就可以,不能以成败论英雄,这个主题可以另开一篇,更加深入的探讨一下。

给业务人员讲概率,风险,决策的内容,不能讲的太理论,就像加州大学戴维斯分校的蔡知令老师所说:统计知识要讲的让祖母也听得懂,才能影响更多的人,才真的有用。他在戴维斯商学院给MBA学生讲授统计课,被MBA学生14次评选为年度教师,除了学术严谨之外,学生能够听懂,并且用在自己的工作是更主要的原因。

这方面还需要不断的探索和总结,一个例子对于知识点需要做适当的简化,但又能体现出核心的思想,这是不容易的,前辈看似信手拈来的例子,其实背后也是几经挑选和打磨,才能拿出来分享的。

2. 一线工作人员

一线人员包括财务,账务,客服,运营等各个部门,对于创业公司来说,可能还没有非常完善的后台系统,很多时候需要Excel操作很多工作,这时候学习一些基本的Excel技巧,就能大大提高工作效率,同时也减少人员的流失。

这个内容里面包括一些主要的函数,比如vlookup,match,相对引用的公式,透视图,透视表等,网上有很多Excel课程,但是人们往往没有毅力学下去,或者看了之后在工作中用不起来。

所以这种培训不能只是讲Excel功能,只讲讲回头就忘了,而是先对照实际工作流程,找到典型的重复工作场景,实际案例,再结合excel功能来讲。只有在每日面对的繁重工作瞬间完成的那一霎那,人们才能真正体会这些课程的作用。

3. 开发工程师

公司开发工程师使用python做开发,数据团队的分析师也是用python做数据处理和建模,天然在工具上没有障碍,数据团队相互学习分享的时候,也会吸引开发的工程师一起交流,一方面开发工程师了解基本数据概念和方法后,在某些后台功能的开发时,可以和数据团队更好的衔接,对于非常有兴趣,深入钻研的同学,也会有机会转到数据团队来工作。

这个方面的内容包括基本的统计概率知识,比如不同的分布,均值,方差,估计等,这里比较推荐一本参考书,《Think Stats : Probability and Statistics for Programmers》,以python为工具来讲解统计的基础知识,作者还有一系列的相关书籍,都是以python为工具,比较推荐。

另外也会有机器学习相关的内容,包括python的scikit-learn库及其相关概念的介绍,scikit-learn库的帮助文档非常好,不仅有库函数的介绍,还有机器学习相关算法的介绍,是个很好的入门教材。

4. 数据团队成员

数据团队内部的培训更多的是教学相长的方式,每个人都要自学,自己尝试实践,然后准备自己的主题,把学习的结果和经验贡献给其他人。

这种方式不仅提高了团队整体的学习效率,也能改善主讲人个人的学习效果,从学习金子塔可以看出,学习内容留存率最高的就是教授给他人,这也是教学相长的一个体现。

learning

数据相关的课程网上有很多,但其中最难讲,也比较少讲的就是数据诊断清理。斯坦福统计教授David Donoho去年在他的文章《数据科学50年》中,也提到了这个问题。诊断,清理,整合数据在数据工作占到70%以上时间,对于结果的影响很多时候也超过模型的选择,但是在实际数据课程中却比较少提及。

这其中原因包括“教”和“学”两个方面,一方面可这个工作有更多经验性的内容,不像讲模型算法那么清晰明了,不好讲;另一方面这些工作都是平时所说的脏活累活,不像建模算法那么高大上,刚入门的同学反而不愿意听这部分内容。

可能在工作中会 对于不同数据工具这部分多有针对性内容需要练习,SAS中就是DATA步的工作,在R里有reshape,dplyr包,在Python里有pandas包,在Spark里也有spark sql模块,熟练运用这些工具,把数据像削瓜切菜一样,整成不同的丁丁快快,才能准备好进入下一个步骤“炒菜” - 分析建模。

这部分如果是做成课程的话,最好不要每个命令用一个单独的数据集,而是使用一个完整的数据集,针对一个建模目标,模拟实际情况,覆盖主要的数据处理命令和函数,这样练习的人会更有实战的体会,更接近实际的需要。

创业企业变化快,情况各异,大家都可以尝试和寻找适合自己企业的数据课程内容和方法,但最终目的还是让不同人都能体会数据的好处,不求高深,只求对工作有用,让“数据”这个词更加深入人心。

推荐阅读:理念,价值,制度 - 数据落地三板斧