1 min read

Data Scientist (2)

Cloudera的Data Scientist的考试提供了以下的参考书
http://university.cloudera.com/certification/prep/datascience.html

Books
Hadoop: The Definitive Guide 3e by Tom White (Chapters 4, 7, 12, 15, 16)
Hadoop In Practice by Alex Holmes (Chapters 2, 3, 8, 9, 10)
Programming Collective Intelligence by Toby Segaran
Algorithms of the Intelligent Web by Haralambos Marmanis and Dmitry Babenko
Mahout In Action by Sean Owen, et al.
Data-Intensive Text Processing with MapReduce by Jimmy Lin, et al. (PDF download) (Chapter 6)
Beautiful Data by Toby Segaran, Jeff Hammerbacher (Chapter 5)
Hadoop In Action by Chuck Lam (Chapter 12 – Case Studies)
Introduction to Data Science online textbook (PDF download or interactive .epub)
Pattern Recognition and Machine Learning
A Programmers Guide to Data Mining (Free PDF download)

*Programming Collective Intelligence by Toby Segaran虽然是2008版,仍然有其价值,探讨了各种实践于collective intelligence的智能算法及应用, 主要是机器学习和计算统计领域,包括过滤器、聚类算法、支持向量机、遗传算法、优化技术,以及鼎鼎大名的PageRank算法,解决了推荐、寻找相似特征的群组、搜索排名、寻找最佳航班、文档过滤、用决策树预测、构建价格模型等具体问题。书中提供了可供运行的示例Python代码,可重用,也使用了不少开放API注意书中放于github的 HYPERLINK “https://github.com/cataska/programming-collective-intelligence-code” \t “_blank” 代码是Python2, 学习和使用时要用2to3 转成现在的Python3的代码。*Algorithms of the Intelligent Web by Haralambos Marmanis and Dmitry Babenko2009年版 比较喜欢中译版阿稳的前言。这本书可视为算法工程师的入门书籍,介绍了在业界已获得成熟应用的概念和算法,包括搜索、推荐、聚类、分类和分类器融合,难能可贵的是本书的代码一直在更新,Google Code上有最新的2013年的 HYPERLINK “http://yooreeka.googlecode.com/files/Yooreeka-20130127.zip” \t “_blank” 代码,当然要付诸工程实践,还是需要打磨一下样码的*Beautiful Data by Toby Segaran, Jeff Hammerbacher2009年版 可以开阔视野,了解数据处理的广泛应用。 Beautiful code的续集, 39位业内最佳数据实践者介绍了各种数据方案,如火星着陆探测器等,书中涵盖了从数据收集到数据存储,组织,检索,可视化及数据分析的内容。

Leave a Reply

Your email address will not be published. Required fields are marked *