lz和男友今年都申请了h1b,这是lz最后一次机会啦,去年工作的公司没有sponsor楼主。。。 分享下之前找DS工作的经验,希望对找工作的mm能有所帮助,也希望能攒人品抽到h1b,大家把bless都扔向我吧!
先跟大家大概介绍下自己的背景,lz本科在国内学的应用数学,之后来到美国东部学校读统计master。毕业后第一份工作在南加一个公司做BI analyst,,因为觉得BI的工作有一些repetitive不太能学到太多新东西了,一年半之后开始准备跳槽做DS。楼主面试大概经历了两个月,但之前有学习准备将近3-4个月的时间,面试的公司大概有10几家左右,最后拿到了两家的onsite, 运气比较好on-site都拿到了offer。因为楼主男友在北加,同时自己很喜欢北加的公司和team,所以最后从了这个offer.
根据之前面试经验,建议想转DS的同学们主从以下三个方面准备:
1. 编程: 楼主在上学时很少接触编程,主要是用统计软件SAS和R为主,后来第一份工作用SQL比较多,但是SQL还不算真正的coding,主要是一个query language 来做data pull。SQL在BI 领域还是应用比较多的。编程是楼主的超级大短板,所以之前找工作准备都是以自学coding为主。鉴于python比较容易上手,就从python开始入门啦。如果mm自己有比较好的编程基础基本可以略过楼主的编程经验。
python:
入门的话推荐大家看udacity上面的cs101开始,这里面介绍了最基础的data type, function 等等,整个学习过程中有好多小quiz可以自测,还做一个网络爬虫的project,可以写到resume上
[url=https://www.udacity.com/wiki/cs101]https://www.udacity.com/wiki/cs101[/url]
如果大家还有空的话推荐再看一看udacity上的另一门课Design of Computer Programs, 这门课更深一些融入了很多算法的东西,很有意思。
[url=https://www.udacity.com/course/cs212]https://www.udacity.com/course/cs212[/url]
大家还可以上code academy上看一看, 跟着上面python课程的步骤一点点写也可以很快入门。
pandas,scipy这些非常好的python module建议大家熟悉下,很好用滴!!
mapreduce:
map reduce还是很重要的,建议大家至少看一看概念,很容易理解。但是要真正的深入了解可能还是要做一些big data的project。我现在的工作中用的很多,都是用python写的。
还是推荐audacity上面的课程,instructors来自cloudera,对hdfs, hadoop cluster和map reduce都有介绍。
[url=https://www.udacity.com/course/ud617]https://www.udacity.com/course/ud617[/url]
强烈推荐下面这门课,对许多big data tools都有介绍,不管是sql还是nosql。pig很强大呀,楼主现在在工作中经常用到,非常方便也容易学。这门课里还介绍了很多machine learning algorithm, statistics概念和visualization tools, 上了这门课之后可以对big data的各方面都有一个广泛的认识,从而知道该从哪里入手。
[url=https://class.coursera.org/datasci-002/lecture]https://class.coursera.org/datasci-002/lecture[/url]
还有一些零碎的东西,比如git和unix,这些只要稍微花时间了解一些基本的command都很容易上手。
楼主现在在学spark, 由于现在做的project要处理的data 很大,spark在这方面非常有优势, 在看Data bricks上面的tutorial跟着学,推荐大家有空可以看一看。
2. 统计: 楼主虽然是统计的master,但是因为学制比较短所以并不算学的很深,不过楼主以前本科有数学的背景,对矩阵,概率和微积分等数学概念并不太怵, 所以即使碰到自己以前没学过的模型或method,也很喜欢看看相关的书和paper研究一下。
针对面试准备的话,基本的统计概念大家还是要复习一下的,比如sampling experiment(test statistics, sampling method), 各种统计模型以及modeling的基本步骤等都要非常清楚,要能条理清晰地计算stats或者选择方法。
参考资料的话当然element of statistical learning是很值得看的,对于像楼主这种学传统stats的人, Andrew Ng的machine learning 课程是非常好的ml入门。
[url=https://www.coursera.org/course/ml]https://www.coursera.org/course/ml[/url]
3. soft skill: 这方面其实楼主不是很有发言权,仍在摸索中,因为自己来美国的时间不算长,口语没有很流利,在presentation中和老美比起来没有什么优势。但是我还是强烈建议大家多展示自己的工作成果,多学一些visualizaion tools将自己的project成果像更多的人展示。在面试过程中其实我觉得只要能将自己以前无论是在学校还是工作中做过的project有逻辑性的清晰地描述出来,能抓住project主线,解释清楚自己用什么方法解决了什么问题、自己的contribution和学到的东西就可以了,尤其对于很多fresh graduate来说interviewer并没有期望大家有做过多么impressve的research或者working experience,而是想看大家有没有足够的learning capacity和逻辑性。
以上就是我之前找工作总结下来的一些经验,希望对那些对DS感兴趣的mm们有所帮助,也真心祝福正在找工作的同学们,希望大家不要着急,找工作也是一个自我提高和学习的过程,积累够了offer自然就来啦。还有bless那些今年抽h1b的同学们,尤其是最后一次机会的同学们呀。楼主还准备申请itu作为backup plan, 不知道有没有mm可以分享下在那申请或上学的经验,非常感谢!