写在开头
烤:上一次说努力做月更博主,但是现在成了季更博主...这段时间发生了很多的好的和不好的事情,也对自己想要做什么,公众号要做什么等一些各种事情有了一个更清晰的定位和想法,在年终总结里再一起和大家分享探讨这些事情吧。
这一次的作者是bro特皮雷的实习经验。本文适合数据分析小白/业务导向的数据分析,算法导向的机器学习工程师建议略过。
特皮雷BG简介:
金融本+Incoming 美国MSBA硕士,小红书社区数据分析组+Wish(湾区跨境电商) Supply DS Team,找实习过程中同时拿到滴滴国际化、字节教育业务、快手商业化等国内大厂数分实习offer。
如何找到对口的数据分析实习
01
国内互联网数据分析实习岗位概况
北京
快手,实习待遇好,Data-Driven文化,Exposure非常不错
字节,业务导向,看重Product Sense
美团,title叫商业分析,其实和数分一样
亚马逊中国(物流+AWS业务)BA/BIE岗
Linkedin DS岗,非常看重产品思维,可理解为PM+DS,个人认为是国内最好的数分实习
此外还有滴滴、网易、京东、知乎、爱奇艺等海量数分实习机会。
上海
eBay,招人很多,对于申请国外数据类研究生项目是非常大的bonus
PayPal,Summer Intern为主,录取难度大,分为风控策略和风控模型两个方向,含金量很高
还有Afterpay、Wish、亚马逊中国(Kindle、AWS)、虾皮上海,携程、小红书、趣头条、大众点评、哈啰出行等公司。
其他地区
+
深圳
腾讯,Summer Intern为主,分为业务和技术两个方向,录取难度较大
eBay深圳(岗位较少)
虾皮深圳(BI为主)
+
杭州
阿里,正式的实习生均为Summer Intern,录取难度较大
滴滴(两轮车业务)、网易等
02
核心要求
Q:国内数据分析岗位对学历、专业要求高么?
A:互联网数分实习岗位对学历上的要求没有金融/咨询严格,211/985不是决定性因素,更重要的是相关实习/项目经历+本科/研究生专业,尤以信管、BA/DS、统计等专业较为对口。
Q:数据分析实习岗位的投递技巧
A:投递渠道主要是实习僧、官网、邮箱投递(公众号、实习群上的JD)等渠道。对于数据分析实习岗位来讲,实习僧和邮箱的投递方式回复效率较高,如果是组里直招,找身边的peer内推也是一种好方法。
Q:数据分析岗位的简历应该怎么写?
A:总体来讲,应突出和数据分析相关的实习经历/项目/技能/相关课程,不相关的经历不用放在简历上面。
实习经历部分,建议按照工作内容分类概述,比如可以分为产品侧业务分析、运营侧业务分析、基础报表搭建、底层数仓建设、看板搭建等维度描述。同时,也可以按照不同的项目来概述,比如项目1,项目2,项目3这一格式进行分别叙述。总之,要让自己的简历读上去显得比较有逻辑和层次感。
项目部分,其重要性相对来说是在高质量实习之后的,但在没有多段高质量实习的情况下,也可以放数据类项目在简历上,比如课堂上做的项目、学校和企业合作的项目(Capstone Project),Kaggle项目等。
技能方面,或许大家都在一定程度上了解数分岗位的技能和分析方法,都能轻易地列出Python/SQL/R/Tableau等技能,但这部分可以写的更加细化,比如Python、R掌握的包有哪些,SQL掌握的查询方法有哪些,掌握的具体分析方法(比如AB实验,时间序列分析,数据可视化等等)
一个小tips:大厂的数分实习岗位对于技能上的要求SQL是Top Priority的,高于Python和R,所以SQL的能力和使用经历建议重点强调。
烤:这里给大家推荐一篇文章,嘻嘻
数据分析实习岗位的面试准备
一般来讲,大厂的数分实习岗位会有2-3轮面试,业务+技术+简历是主要的形式,举例几个业务上高频问题:
+
核心指标异动的原因分析
或许大家都能想到的思路是从不同维度、链路拆分核心指标,找出具体哪一部分指标的下降最明显,但可以回答的更完整一点:排除技术原因(Bug/取数错误)-全局还是局部下降-外部swot分析-内部原因(链路拆解(漏斗模型、AARRR模型等等)/维度拆解(比如电商的人、货、场三个维度))
+
某业务的指标体系搭建
不同的业务/产品的指标体系有一定差异,比如社区类产品(抖音、小红
书、知乎),基本指标体系包括人口、生产(发布)、消费、Top榜单等等。
这就需要我们对具体业务多做了解,
+
A/B Testing
推荐大家先看一下Udacity的AB Testing课程,掌握基本原理,然后在实习中尽量接触A/B实验,同时提高自己的Product Sense,推荐一本AB Testing的书:<Trustworthy online controlled experiments>,英语好的同学也可以看看Medium上面大佬的分享,或者请教一下A/B Testing经验丰富的学长、学姐,有时候20分钟的咨询可能比自己空想有意义的多,因为实际工作中的A/B Testing和理论还是有一定gap。
技术面试90%的情况是SQL,需要熟练掌握group by、窗口函数、子查询等高频查询方式。同时少部分情况下会考察Pandas,Numpy的基本操作,比如使用pandas处理Excel文件,当然也不排除一些组的mentor偏好R语言。
在大厂数分岗位的实习反思
理想和现实区别大
不少同学期待的数据分析实习:
做高大上的机器学习预测模型+花式A/B Testing+日常工具上使用Python/R
然而实际的数据分析实习:
整天疲于应付产品、运营等业务方的取数和报表(Dashboard)需求,也就是大家经常调侃的SQL Monkey(取数机器人,茶树菇)+日常工具上基本只使用SQL+Excel
理想是美好的,现实总是残酷的,相信这种心理落差是很多在大厂数分实习同学都有经历过,大家时常抱怨自己天天都在用SQL取数而没有太多分析、建模的工作,甚至取数之后连这些数据的用途也不知道是什么。其实我在实习中也遇到过类似的困境,也和经验丰富的学长学姐、同事交流过,这是非常正常的现象,无论是技术导向的Data Scientist还是业务导向的Data Analyst,数据清洗和取数在实际工作中也是基础而必要的,而作为数据分析实习生来讲,很多时候的取数工作是为了Mentor的深入业务分析或者业务方的决策在做前期支持。
如何克服这种困境或者说从取数中学习到除了SQL提升之外的技能呢?
首先可以和mentor或者提出取数需求的业务同学confirm一下这些数据是不是很有必要去取,即这些指标是否有意义。因为业务的同学有时候也不知道数据库的不同表的特点,是根据自己主观想法提出的取数需求。如果这个取数需求是必要的,那么可以多了解这些数据背后的用途以及Business上的impact是什么,这样能加深大家对于具体业务的理解和指标体系的熟悉,在简历里面也能更好描述。
如果业务同学经常提出类似的取数需求,不妨汇总常用的维度和指标,使用公司的BI平台(Tableau,PowerBI等等)建立对应的看板(数据可视化),再使用Data Pipeline定时更新数据或者发送邮件给业务同事,这样自动化报表的更新,能较大地提高工作效率,不至于整天挣扎在取数工作中。
Documentation的意识
在实习中每完成一个分析任务/一个看板后,有必要完整地记录一下这个项目,描述该项目的背景、分析过程、分析结果以及指导意义。这样不仅有利于同事或者老板更好地了解你的项目,也有利于自己的沉淀和进步。
以一套简单的Dashboard举例,通常输出的结果是BI平台上的图表,基本没有文字描述,在Document中通常包含以下内容:
制作看板的背景和意义是什么。
图表里面出现的各种指标的计算逻辑
计算各指标的SQL链接,方便自己和同事的检查和改进。
实习到全职的转变
在通往优秀的全职数据分析师道路上,高质量实习的经验积累是非常重要的。个人经历来看,在实习过程中,大家可以在以下2个方面锻炼自己的实力,为找全职工作做充分的准备:
1、尽可能完整地参与一个数据分析的project,而不仅仅是做一些辅助性的任务,同时也要尽量参与分析的核心工作,有机会的话最好能在项目完成后做一次Pre。
以A/B Testing举例,一般对于实习生来讲,可能只会参与前期的实验埋点或者实验结束后的数据提取工作,这样零碎参与的话可能不能很完整的积累A/B Testing的经验,通常A/B Testing的完整流程是:和产品经理讨论实验的必要性——设计实验(埋点方案、相关假设、样本容量、对照组实验组分配、实验时间、实验衡量指标)——运行实验(数据监控、实验参数修正)——实验结果分析(定性定量判断、显著性水平检验等)——产品迭代更新
2、在老板布置任务的基础上,能自己探索一些潜在的分析方向或者内容。这一部分是业务导向数据分析师比较高阶的工作内容——Open-Ended Analysis(开放式分析)。对于自身的Product/Business Sense的提高非常有帮助,例如在电商平台的数分工作中,看到平台的退款率/退款数量异常高,这样对平台的核心KPI造成了很大的影响,这时候就可以从退款的角度deep dive,分析退款率高的原因以及应对方案。
End结尾
以上大部分观点烤都赞成,这里也补充一些烤的个人想法。
关于impact和visibility:
大家可以思考一个问题,那就是是不是所有任务都是mentor说什么做什么,自己听完也就去做了?如果想要involve进更多的decision making process,或者了解更多business, 那么一个简单切实可行的方式并不局限于请教数据是否要取(你问不问都逃不了取数据的命运的), 个人认为更关键在于参与,参与mentor和pm沟通的过程,参与他们的meetings,参与到他们的email threads里面,你要提出这样的需求,才会有更多的visibility。而只有参与大家的讨论,你才会了解到他们是怎么一步一步讨论到最后的结论,为什么会选择这些metrics,又碰到了什么样的conflicts,你才有思维和能力上的其他方面的提升,这是我认为entry level的FTE必做的事情,也是当年我作为实习生没能意识到的事情(sigh)
关于doc
非常赞同doc,同时建议结束项目后进行反思,写下可以improve的地方在哪里。实际工作中一定会有类似于数据不够干净,要和上游部门沟通;需求不清晰,要和产品业务部门沟通;时间过紧,无法赶上ddl。我们应该反思的,就是如何让减小所有环节带来的风险。分享一个我doc里思考过的一个点:和DE聊好的数据,直接拿来build semantic layer,最后发现数据totaly off,花很多时间去查发现是source data incorrect,最后提ticket去改,来回沟通又要耽误很久的时间。这里我想表达的是,不要100%相信沟通好的东西,需求会变,给到的数据也不一定全部准确,所以我们要做data profiling,gap analysis, quaility test等等,相信数据,但是也要质疑数据,在处理数据的中间去发现问题,才能及时避免后面的问题。
也欢迎大家和我一起讨论职场,生活,然后向我投稿哈哈哈!最后,year review时再见
微信扫一扫
关注该公众号