随着互联网的发展数据分析越来越重要,许多人在工作上会遇到很多数据但会分析数据的却不多,本文旨在为入门的同学准备,高手就不要浪费时间了。开始数据分析的相关之旅吧。
图书[1]片:
- 深入浅出数据分析 (豆瓣) 这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。难易程度:非常易。
- 啤酒与尿布 (豆瓣) 通过案例来说事情,而且是最经典的例子。难易程度:非常易。
- 数据之美 (豆瓣) 一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助。难易程度:易。
- 集体智慧编程 (豆瓣) 学习数据分析、数据挖掘、机器学习人员应该仔细阅读的第一本书。作者通过实际例子介绍了机器学习和数据挖掘中的算法,浅显易懂,还有可执行的Python代码。难易程度:中。
- Machine Learning in Action (豆瓣) 用人话把复杂难懂的机器学习算法解释清楚了,其中有零星的数学公式,但是是以解释清楚为目的的。而且有Python代码,大赞!目前中科院的王斌老师(微博: 王斌_ICTIR)已经翻译这本书了 机器学习实战 (豆瓣)。这本书本身质量就很高,王老师的翻译质量也很高。难易程度:中。我带的研究生入门必看数目之一!
- 推荐系统实践 (豆瓣) 这本书不用说了,研究推荐系统必须要读的书,而且是第一本要读的书。难难易程度:中上。我带的研究生入门必看数目之二!
- 数据挖掘导论 (豆瓣) 最近几年数据挖掘教材中比较好的一本书,被美国诸多大学的数据挖掘课作为教材,没有推荐Jiawei Han老师的那本书,因为个人觉得那本书对于初学者来说不太容易读懂。难易程度:中上。
- The Elements of Statistical Learning (豆瓣) 这本书有对应的中文版:统计学习基础 (豆瓣)。书中配有R包,非常赞!可以参照着代码学习算法。难易程度:难。
- 统计学习方法 (豆瓣) 李航老师的扛鼎之作,强烈推荐。难易程度:难。
- Pattern Recognition And Machine Learning (豆瓣) 经典中的经典。难易程度:难。
工具[2]篇:
- Excel:这个软件大多数人应该都是比较熟悉的。Excel满足了绝大部分办公制表的需求,同时也拥有相当优秀的数据处理能力。其自带的 ToolPak(分析工具库)和Solver(规划求解加载项)可以完成基本描述统计、方差分析、统计检验、傅立叶分析、线性回归分析和线性规划求解工 作。这些功能在Excel中没有默认打开,需要在Excel选项中手动开启。除此以外,Excel也提供较为常用的统计图形绘制功能。这些功能涵盖了基本 的统计分析手段,已经能够满足绝大部分数据分析工作的需求,同时也提供相当友好的操作界面,对于具备基本统计学理论的用户来说是十分容易上手的。
- SPSS: 原名Statistical Package for the Social Sciences(社会科学统计软件包),现在已被IBM收购,改名后仍然是叫SPSS,不过全称变更为Statistical Product and Service Solutions(统计产品与服务解决方案)。SPSS是一个专业的统计分析软件。除了基本的统计分析功能之外,还提供非线性回归、聚类分析 (Clustering)、主成份分析(PCA)和基本的时序分析。SPSS在某种程度上可以进行简单的数据挖掘工作,比如K-Means聚类,不过数据 挖掘的主要工作一般都是使用其自家的Clementine(现已改名为SPSS Modeler)完成。需要提一点的是SPSS Modeler的建模功能非常强大且智能化,同时还可以通过其自身的CLEF(Clementine Extension Framework)框架和Java开发新的建模插件,扩展性相当好,是一个不错的商业BI方案。
- R:R是一个开源的分析软件,也是分析能力不亚于SPSS和Matlab等商业软件的轻量级(仅指其占用空间极小,功能却是重量级的)分析工具。官网地址:www.r-project.org。 R支持Windows、Linux和Mac OS系统,对于用户来说非常方便。R和Matlab都是通过命令行来进行操作,这一点和适合有编程背景或喜好的数据分析人员。R的官方包中已经自带有相当 丰富的分析命令和函数以及主要的作图工具。但R最大的优点在于其超强的扩展性,可以通过下载扩展包来扩展其分析功能,并且这些扩展包也是开源的。R社区拥 有一群非常热心的贡献者,这使得R的分析功能一直都很丰富。R也是我目前在工作中分析数据使用的主力工具。虽然工作中要求用Matlab编程生成结果,但 是实际分析的时候我基本都是用R来做的。因为在语法方面,R比Matlab要更加自然一些。但是R的循环效率似乎并不是太高。
- Matlab: 也是一个商业软件,从名称上就可以看出是为数学服务的。Matlab的计算主要基于矩阵。功能上是没话说,涵盖了生物统计、信号处理、金融数据分析等一系 列领域,是一个功能很强大的数学计算工具。是的,是数学计算工具,这东西的统计功能只不过是它的一部分,这东西体积也不小,吃掉我近3个G的空间。对于我 来说,Matlab是一个过于强大的工具,很多功能是用不上的。当然,我也才刚刚上手而已,才刚刚搞明白怎么用这个怪物做最简单的Garch(1,1)模 型。但毫无疑问,Matlab基本上能满足各领域计算方面的需求。
- python:Python是一个非常流行的编程语言, 无论在网络程序员中(比如Google的相当多的产品就是用Python编写的,Python也是豆瓣的主要开发语言), 还是在科学计算领域, Python都有很广泛的应用。python拥有大量的库所以作为数据统计和分析的工具当然可以。而且比R方便,简单,易学。
网络视频课程:
现在网上已经有很多这方面的经典视频以及一些国际学院的教授提供的课程,很值得大家学习。
- 网易公开课:网易公开课是国内最大的在线视频教育平台,上面有很多学科的视频和国际公开课,网易公开课团队给出了大量的中文翻译以帮助英文不好的中国人也能学到最新的知识,感谢他们无私奉献。课程:加州理工学院公开课:机器学习与数据挖掘
- MOOC在线课堂。MOOC是Massive Open Online Course的缩写。它最早在08年的时候由一位加拿大的学者提出,经过了几年的沉寂,终于在2012年随着几大课程平台:Coursera、edX、Udacity的崛起而迅速成为全球最为热门的教育话题之一。MOOC是什么?MOOC通常被译为大型开放式网络课程,这是一种在线教育形式,任何人都能免费注册使用,它有与线下课程类似的作业评估体系和考核方式。按时完成作业和考试的学习者还可能收获导师签署的课程证书。在MOOC提供商Coursera,edX的平台上,我们可以接触到来自全球各个顶尖高校的课程和全球知名的大学教授,课程涉及高等教育的方方面面,包括人文、社科、理工、医学等各个方向。学生可以在上面自由选择想要修读的课程,享受和哈佛耶鲁一样的优质教学资源,更多介绍 。推荐课程:機器學習基石 (Machine Learning Foundations)
- 网易云课堂:网易云课堂是网易公司研发的一款大型在线教育平台服务,该平台面向学习者提供海量免费、优质课程,创新的个性化学习体验, 自由开放的交流互动环境。Excel 2007标准教程
- oeasy会玩才会学:这是比较基础的从零开始学习excel教程。讲的幽默详细,适合入门的excel学习。网址:http://oeasy.org/
最后:就是加入公司,或者自己完成一个课题在网上找相关的朋友一起学习了,社区,网站,QQ群都是可以利用的阵地。另外,我也是在学习中啊。有好的想法求分享哦。。
[1]:资料来自:http://zhi.hu/PzNj
[2]资料来自:http://www.douban.com/note/165547144/
评论前必须登录!
注册