回顾——2015

小赵的数据分析师之路

Posted by Bruce Zhao on January 17, 2016

Estimated reading time: 37 minutes. {Life} [review]

目录

{: .no_toc}

写在前面的话

这篇2015年的总结本应该在2015-12-31晚上写完的,因为那个时候还在修改博客界面布局和版式。另外,我本人的拖延症比较严重,再加上周扁桃体发炎,咳嗽严重,所以一直拖到了今天。目前这个布局是第5次改版,暂时不会变。第4版在 这里。后面我会专门写一篇如何搭建一个像小赵这样博客的指南,感兴趣的同学可以持续关注我的博客以及我的微博。

我最开始萌发搭建一个自己的博客的想法的来源有:

废话就不多说了,开始正文吧。

大学的最后一个学期

这一块主要包括考研、实习找工作、毕业答辩和毕业旅行这几个方面。我觉得还是按照时间线来讲比较好,如果按照主题来讲感觉略混乱。

考研经历(1-2月)

这一届的考研日期提前了一个星期,但是结果还是在2015年出来的,姑且算在了2015年。考研到这段经历,估计是大学最有意义的时光之一了。过来人都懂,我就不在多说了。这次失利的主要原因在于数学,个人太过自信,相信自己的底子太好,投入的时间少,解题速度慢。关于考研的攻略各大论坛网站都有指南,这里讲这些也没有意义,关键的一点是你下的决心够不够大。我的潜意识里面认为考研并不是自己的唯一出路,在考研的这段时间中,我有一部分时间都在弄一些跟考研无关的事情,加上自己的自制力并不强,考研计划完全被自己打乱。如果认定只有考研这一条路可以走,人在绝境下必然能够激发一系列潜能,包括强烈的自我驱动,就一定能够成功。所以在决定考研的时候,就应该有将自己逼上绝路的觉悟。当然这只是我个人的想法与感想,并不适合其他人,这算是自己对考研这段经历的反思吧。

等待考研结果的那段时间是漫长,同时也是大学最后的一段轻松的日子。这段时间可以去做在考研的时候想到的事情,总之可以尽情的去玩,去享受这最后的时光。我在考完研后,就跟着室友们一起去泡温泉、滑雪。总之,在结果没有出来之前不要让自己变得忧虑,活在当下。

年后,考研结果陆续公布。我心里早就有底,失败的结果我也坦然接受。这个时候摆在我面前有两条路,二战还是工作。我在想研究生两年我到底能够学到多少东西,工作后又能学到多少东西。我查了很多学校的应用统计研究生培养计划,大部分学校的课程安排还是本科专业课的那一套,只不过在前面加了“高等”两个字。而我感兴趣的数据挖掘方向个人感觉还是偏向理论。我个人还是比较爱好技术类的东西,更关注是如何去实现与运用。这个时候我冒出了一个想法:如果我能边工作边将理论知识运用到工作中,岂不是一举两得。问题是哪里去找到这么好的工作?在与老师的交流中,再结合实际情况,我发现经典的统计方法在现实较大的数据集中并不能很好的运用。描述性统计没有技术含量,推断统计并没有很大的用处,非参数统计与多元统计感觉往深处走就是统计学习与数据挖掘的那一套。有几个学校的大数据方向设置还是不错的,比如人大、北大、交大、上财等,但是极为难考,推免占绝大部分,再来一年也没有把握能考上。

两年的统计专业课的学习,让我形成了专业的归属感,对数据分析这一个行业充满了美好的憧憬,感觉像是被洗了脑。于是我制定的策略是先去找相关的工作,到4月中旬还没有找到满意的工作就专心写论文毕业,然后准备二战,考一个有把握而且相对来说资源比较多的学校。

实习与找工作(3-4月)

大四下学期的要求是完成社会实习。托家人的关系,年后在一家的工程公司的经营管理部做统计工作,主要的工作是完成各种统计报表。这样的工作是非常乏味的,熟练Excel操作就ok。其实Excel还是很强大,有很多函数还可以用VBA编程来完成重复性的工作。部门经常遇到的问题是导出的Excel文件中字母与数字总是在一起,一般都是手动操作。我研究了几天,给他们写一个小的宏文件,加载一下就能识别字母与数字并分离。这样的一份工作,根本用不上数据分析的一些方法,于是我有空的时候就开始到处投简历。

花了好几天制作了两份简历,一份中文一份英文。能写的经历与奖项全部写进去,连学生会干事都写进去了。各大网站注册账号,每天投到规定的上限,持续了两个星期。首先投的是武汉的数据分析与挖掘工作相关的工作,感觉非常少,全部投完了也没有什么回音。虽然北京这类的工作很多,但是考虑到北京的空气状况以及北漂的情况,就排除了北京,接着开始投杭州上海广州深圳一带的。很多公司都要求工作经验,而且会这个会那个的。然而我一门编程语言都不会,R也算是勉强入门,不敢说掌握。死马当活马医,干脆全部投,把自己吹的很流弊的样子。连续几天,一天差不多100份左右的样子,接着就听天由命了。之后的一个星期完全是没什么反应,收到的几封邮件也都是拒绝,理由是没有工作经验,略失望。

惊喜往往是需要酝酿的,接到了第一个邀请面试电话已经是3月中旬了,当时非常的兴奋。接着陆续接到了好几个,上海有四家,武汉两家,深圳两家。当然首先是去跑武汉的两家,公司略令人失望,传统的excel打天下的那种,连数据库都没有。较大的一家是什么宜信,搞个人贷款的。进去一看,公司一大半都在打电话,当时就很反感,毕竟经常被这样的电话骚扰,虽然我应聘的不是这的工作,但是对这样的公司没有什么好感。面试的时候比较消极,问到的问题完全跟数据分析不相关,我直接跟面试官闹僵就byebye了。

在第一次受挫后,我想去上海试一试,毕竟有四家。在去面试前做足了功课,去公司网站看了好几遍,了解公司是做什么的。有三家公司还是不错的。一家是做车联网的,在车上装上传感器,通过数据分析驾驶员操作习惯,以及路径动态规划避免拥堵。不足的地方是这个公司是初创公司,条件简陋了一点,关键的一点是没有人带,自己的水平在哪里,这么复杂的数据肯定分析不来。当时我面试表现的还是很专业的,多元统计的方法谈一谈,以前做的小统计实验说一说。那个时候还没有毕业,算是实习,主管给出的是150一天,做得好以后可以转正。第二家是做销售的,居然还要我去做题,excel算一算,做个PPT展示结果。说实话,我对这样的公司还是不感冒的。第三家是做化妆品快消的,面试官非常好,我表现的也很有水平,拿了一些以前做的统计实验小论文给他看看。感觉他还是比较懂的,他说他们公司目前用不上这样的分析,但是会留意这方面的工作给我推荐。他的推荐的电话的到来已经是一个月后了,转正的薪资是5K。但是那个时候我已经找到了一家待遇更好的公司了。第四家,也就是我现在的公司,当时面试我的就是我现在的数据组组长。我之所以选这家公司是因为在面试的时候他问了我很多基础的统计学知识,包括分布性质,t检验,卡方检验等,让我觉得这家公司就是实实在在干数据分析的。当时表现的也是非常好,卡方检验当时忘记了,我没有瞎说,直接承认了。后来恶补了一下卡方检验,发现卡方非常神奇,非参数统计里面很多最后都化为了卡方统计量。就这样一天跑了四家,下午买了一张卧铺,第二天早上到的武昌。这就是小赵独闯上海的经历了。只能说我非常的幸运,能碰到这样的一家公司,也非常感谢公司给了我一个自由发展的空间,这个博客的搭建大部时间是在公司完成的,希望主管不要看到。

在上海落脚

一个星期后,我接到了二面的通知。我知道应该能被选上的,于是带了一些基本的衣物和电脑就来到了上海。很顺利的就在通过了二面,下个星期一就可以上班了。这意味着我要在一个星期内在上海租好房子,安排好基本的生活。

刚开始被上海的房价吓了一跳,找了一家一室户的,还是老房子,要2K多一个月还不算是中介费。上海这边中介费按第一个月房租的35%收,真尼玛黑心。也是没有办法,必须要找个地方住,旅馆是150一天。找了两天,正好有一间合租房的单间,看了看环境,比大学寝室好,最起码有一个张1米5的大床,还有一张电脑桌。当天下午找了一家杂货店,买了生活必需品,就这样住进来,一直到了现在。渐渐的也习惯的这样的环境,小区的周围比较安静,附近还有篮球场,房东人也很好,答应房租按月交。最大的缺点是没有厨房,虽然我也不会做饭。自己做饭能省下不少钱,而且还能吃的比较好,周末炖个汤也是不错的。后来我是买了一个多功能的电饭煲,知道电饭煲功能也可以很强大,具体可以知乎一下——电饭煲菜谱一个月不重样。

第一天上班是2015年3月30号。HR带着同一批新入职的新人环绕了一下公司,介绍了基本情况。然后,数据组开始简单介绍目前的工作,主要是两大块,数据库的维护管理和数据分析报告,当时觉得还是比较高端的,因为之前没有接触过数据库这类的东西。我当然是写数据分析报告的,利用的数据就是数据库里面的。 我去的时机比较好,当时公司并不忙,我主要的工作就是熟悉业务了。一直到5月份,每天就看看数据分方面网站博客,对数据分析这个行业也有了较为充分的认识。目前的情况我觉得主要可以分为两派,一派是计算机类出身的,熟悉SQL、Python、Hive、Hadoop、spark、C++、java等,有实际数据处理经验,却不懂得运用合适的分析方法解读数据;一派数学统计经济出身的理论派了,观点致胜,会吹牛逼,比如把大数据炒的火热的人,几个观点新颖、出乎常理的例子能讲好几年。当然也有会吹牛逼,又懂实干的人,目前这样的人是稀缺的,年薪30w不是梦。吹牛逼也是一项技术,因为数据分析比较专业,公式大家是看不懂的。能结合业务给出乎意料的观点,再加上数据支撑,就会让人不明觉厉,瞬间感觉高大上。

小赵是准备成为数据攻城狮的,将合理的算法运用到合理的数据集中,得到合理的结论。目前算是完成了万里长城的第一步,基本了解数据库,会一点SQL,能够整理接近GB级别的数据。明年的主要方向是深入理解数据挖掘十大算法,并实践运用到业务中。作为攻城狮,怎么能不懂github呢,各种流行的开源软件的代码基本上都在github上面,连前一阵子最火的微软牛津计划 —— 人脸识别都在github上面开源了,更不用提各种流弊的机器学习/数据挖掘算法代码与工具了。感觉像是扯远了,回到主题吧。

毕业(5月)

又是一年毕业季,我请了一个月的假回到学校完成毕业论文以及毕业旅行。毕业论文数据如果好找,走传统方向——经典统计学方法,多元统计(聚类、判别、因子、logistic回归)或者来一点时间序列分析就ok了。如果数据不好找,那就走技术类,比如小赵的毕业论文研究的是文本分析(从网上抓取数据,中文分词,词云,统计语言模型,关键字提取,文章分类等)。其实也是在网上找的教程,当时时间有限,后来也没有去研究,只实现了部分功能,说来惭愧。毕业论文也是蒙混过关,关键是老师们没有人研究这个的,所以也没有问原理之类的问题。其实通过答辩很容易,只要是自己写的,用几个模型,格式什么的按照要求来,稳过的。

顺利通过答辩后,就开始了毕业旅行了,选择的目的地是北海和涠洲岛。第一次坐飞机,第一次在海里游泳,第一次吃超级大的芒果,第一次吃新鲜又便宜的海鲜。有机会一定要跟小伙伴们一起来一次毕业旅行,机会难得。

初入职场(6月)

定位与业务理解

前面讲了很多废话,时间也有限,这么一篇写下了都好几个小时了,接下来就只讲要点了。

找准自己的定位,积极了解公司业务是初入公司第一要务。这有助于快速融入公司,为后续工作打好基础。而我一开始并没有找准自己的定位,看到各种炫酷的东西都想去弄一下,比如数据可视化方面研究了D3 ,echarts等交互式js网页图形。 对应的R包是networkD3,htmlwidgets, recharts ,ggvis, rCharts等,感兴趣的可以去了解一下,真的很炫酷。然而这些并没有运用到实际的业务中,这导致了后面在完成一些任务的时候很被动,因为错过了完成公司主要业务的基本技能的学习时间。我觉得初入职场首先要思考今后的主要任务是什么,需要什么技能,有针对性去加强,安全度过试用期。基本的数据分析技能我觉得应包括熟练Excel,特别是透视表;会基本SQL,自己提取需要的数据;对统计学基本原理有深刻的认识;会R或者Python用于进一步数据处理分析。会了这些基本上就能胜任一开始的工作。

平衡工作与生活(10月)

这个方面我自己觉得没有做好,总是习惯将工作带入生活,将生活带入工作。比如工作的时候想,没有完成可以带回家弄,降低了工作效率以及培养了拖延症;自己私人研究的东西比如这个博客的搭建,大部分时间是在公司完成的。这个毛病一定要改,否则会让自己生活的很痛苦,一度我都不想干下去,甚至想转行。时间的关系就不谈这段经历了,关键词是该不该把兴趣当职业(知乎/我的微博)。

职业生涯规划(12月)

说实在,到现在我也没有一个明确的职业生涯规划。谈到这个问题,说明我已经开始在想了。等有了明确的想法再写出来。

大半年工作小结

开始的安逸日子,让自己第一次碰到实际任务不知所措,完成的稀烂,主管最后约谈。人无远虑必有近忧,高度的自我驱动是快速提升与进步的主要动力。一旦呆在了comfortable zone,就要患懒癌了。

总结

说实话,这篇文章写的实在不容易。很久没有写一些东西,文笔超烂。一些想法在脑袋里却不知如何表达出来。大家有什么想法和问题就在下面评论区留言吧,支持各种主流社交账号登陆评论,有时间我会尽量回复。当然,写这么一篇回顾也就意味着改变与进步了。2016,立足当下,放眼未来!