# 1  数学

• 麻省理工学院线性代数（18.06）胡安H Klopper博士

http://www.juanklopper.com/opencourseware/mathematics-2/ipython-lecture-notes/

• 统计学导论Thomas Haslwanter

http://work.thaslwanter.at/Stats/html/

https://github.com/thomas-haslwanter/statsintro

• 使用Python的统计简介

https://github.com/rouseguy/intro2stats

• Python中的计算统计

https://people.duke.edu/~ccc14/sta-663/

• Python中的统计信息

“统计在Python”euroscipy 2015教程的材料。

http://gaelvaroquaux.github.io/stats_in_python_tutorial/

# 3  CS 109数据科学，哈佛大学，2014

http://cs109.github.io/2014/

# 4  文学文本分析艺术，麦吉尔，2015年冬

http://nbviewer.ipython.org/github/sgsinclair/alta/blob/master/ipynb/ArtOfLiteraryTextAnalysis.ipynb

# 5  频率主义和贝叶斯主义

https://jakevdp.github.io/blog/2014/03/11/frequentism-and-bayesianism-a-practical-intro/

http://jakevdp.github.io/blog/2014/06/06/frequentism-and-bayesianism-2-when-results-differ/

http://jakevdp.github.io/blog/2014/06/12/frequentism-and-bayesianism-3-confidence-credibility/

http://jakevdp.github.io/blog/2014/06/14/frequentism-and-bayesianism-4-bayesian-in-python/

# Python中的6个贝叶斯统计分析

https://github.com/fonnesbeck/scipy2014_tutorial/tree/master/

• Python中的贝叶斯建模

https://github.com/markdregan/Bayesian-Modelling-in-Python

# 7  模式分类

https://github.com/rasbt/pattern_classification#collecting-data

# 8  Nitin Borwankar学习数据科学

1. 线性回归

2. Logistic回归

3. 随机森林

4. K均值聚类

https://github.com/nborwankar/LearnDataScience

# 10  用IPython介绍科学计算

**

IPython中进行机器学习方面的研究的入门教程。

# 11  简单机器学习方法教程

0 - Python Intro.ipynb

1 - PCA.ipynb

2 - KMeans.ipynb

3a - 线性回归1D.ipynb

3b - 线性回归2D.ipynb

4 - Logistic Regression.ipynb

5 - k最近Neighbors.ipynb

# 12  机器学习

01_Introduction.ipynb

02_Linear_Regression.ipynb

03_Linear_Classification.ipynb

04_Neural_Networks.ipynb

05_Decision_Trees.ipynb

06_Graphical_Models.ipynb

Performance_Prediction.ipynb

REF_linear_algebra.ipynb

http://nbviewer.ipython.org/github/masinoa/machine_learning/tree/master/

# 13  挖掘社交网络（第2版）

https://github.com/ptwobrussell/Mining-the-Social-Web-2nd-Edition

# 魏旭14社交媒体与文本分析

http://socialmedia-class.org/index.html

# 15  数据分析

https://www.dataquest.io/course/data-analysis

# 用Python实现数据挖掘 16

https://dzone.com/refcardz/data-mining-discovering-and

# 17  Scipy讲义

1.开始使用Python进行科学研究

1.1。科学计算与工具和工作流程

1.2。Python语言

1.3。NumPy：创建和操作数字数据

1.4。Matplotlib：绘图

1.5。Scipy：高级科学计算

1.6。获得帮助和查找文档

2.高级主题

2.1。高级Python构造

2.2。先进的Numpy

2.3。调试代码

2.4。优化代码

2.5。SciPy中的稀疏矩阵

2.6。使用Numpy和Scipy进行图像处理和处理

2.7。数学优化：找到函数的最小值

2.8。与C接口

3.软件包和应用程序

3.1。Python中的统计信息

3.2。Sympy：Python中的符号数学

3.3。Scikit-image：图像处理

3.4。特点：建立交互式对话框

3.5。与Mayavi 3D绘图

3.6。scikit-learn：Python中的机器学习

****

http://www.scipy-lectures.org/

# 18  计算和推理思维：数据科学的基础，2015年秋季

http://data8.org/

# 19  非参数方法

• Dirichlet分布和Dirichlet过程：通过类比Dirichlet分布快速回顾Dirichlet分布和Dirichlet过程的介绍。

http://nbviewer.ipython.org/github/tdhopper/notes-on-dirichlet-processes/tree/master/

https://github.com/tdhopper/notes-on-dirichlet-processes/tree/master/

• 非参数潜在狄利克雷分配

http://nbviewer.ipython.org/github/tdhopper/notes-on-dirichlet-processes/blob/master/2015-08-03-nonparametric-latent-dirichlet-allocation.ipynb

• 关于Hierarchal Dirichlet过程模型中Gibbs抽样的注记

http://stiglerdiet.com/blog/2015/Sep/11/notes-on-gibbs-sampling-in-hierarchal-dirichlet-process-models/

• 显微镜-LDA

• 第十届贝叶斯非参数会议

# Part II。  机器学习库

• 数据科学之5个最佳的Python库，为初学者定制的教程

http://bi.dataguru.cn/article-6903-1.html

• 一系列教程和示例，用于解决和理解机器学习和模式分类任务

https://github.com/rasbt/pattern_classification

• 使用NumPy，Matplotlib和Pandas进行Python数据探索的最终指南

http://www.analyticsvidhya.com/blog/2015/04/comprehensive-guide-data-exploration-sas-using-python-numpy-scipy-matplotlib-pandas/

• Bot or Not：在Python中进行端到端的数据分析

***

http://www.erinshellman.com/bot-or-not/

• IPython中的笔记本电脑

https://github.com/jdwittenauer/ipython-notebooks

• 概率，悖论和合理的人本原则

***

http://nbviewer.ipython.org/url/norvig.com/ipython/Probability.ipynb

# 20只  熊猫

• 用大熊猫做Python数据分析和数据科学

• 熊猫的事情我希望我早就知道了

http://nbviewer.ipython.org/github/rasbt/python_reference/blob/master/tutorials/things_in_pandas.ipynb

• 14个最佳的Python Pandas功能

http://dataconomy.com/14-best-python-pandas-features

• 黑客教育与Python - 数据挖掘Coursera流行课程

• 熊猫教程

https://bitbucket.org/hrojas/learn-pandas

• 在Python Pandas中汇总，汇总和分组数据

http://www.shanelynn.ie/summarising-aggregation-and-grouping-data-in-python-pandas/

• 10分钟到熊猫

http://pandas.pydata.org/pandas-docs/stable/10min.html

# 21  Scikit学习

• 学习scikit-learn：Python中的机器学习

https://github.com/gmonce/scikit-learn-book/tree/master/

• PyCon 2015简介Scikit-Learn教程，由Jake VanderPlas提供

1.预赛

01-Preliminaries.ipynb

2.使用Scikit-Learn介绍机器学习

02.1，机器学习，Intro.ipynb

02.2-Basic的Principles.ipynb

3.深入监督学习

03.1分类，SVMs.ipynb

03.2回归 - Forests.ipynb

4.无监督学习深入

04.1维性，PCA.ipynb

04.2聚类，KMeans.ipynb

04.3密度，GMM.ipynb

5.模型验证深入

05-Validation.ipynb

https://github.com/jakevdp/sklearn_pycon2015

• 用scikit-learn介绍机器学习

• 介绍机器学习使用scikit学习

http://nbviewer.ipython.org/github/raghothams/bangpypers-intro-to-ml/blob/master/Bangpypers-June-2015.ipynb

• SciPy 2015 Scikit-learn教程

• 办公NFL池

https://github.com/tanyaschlusser/office-nfl-pool

• Sklearn-大熊猫

https://github.com/paulgb/sklearn-pandas

• 10 Scikit学习案例研究，示例和教程

http://www.baglom.com/b/10-scikit-learn-case-studies-examples-tutorials-cm572/

• 5使用SciKit学习的文本分类案例研究

http://www.datasciencecentral.com/profiles/blogs/5-text-classification-case-studies-using-scikit-learn

• 2015年开放数据科学大会的幻灯片和笔记本

https://github.com/amueller/odscon-sf-2015

• 深入机器学习

****

http://hangtwenty.github.io/dive-into-machine-learning/?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io

# 22  PyMC

http://pymc-devs.github.io/pymc/

https://pymc-devs.github.io/pymc3/

• 概率规划与黑客贝叶斯方法

https://camdavidsonpilon.github.io/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers/

• 橄榄球分析和FinTech - 教程

http://nbviewer.ipython.org/github/springcoil/TutorialPyMCRugby/blob/master/Bayesian_Rugby_Tutorial.ipynb

• 贝叶斯相关与PyMC

http://nbviewer.ipython.org/github/psinger/notebooks/blob/master/bayesian_correlation_pymc.ipynb

• 贝叶斯回归与PyMC：一个简单的教程

http://sabermetricinsights.blogspot.com/2014/05/bayesian-linear-regression-with-pymc.html

• 采用PyMC封装的LDA算法

http://nbviewer.ipython.org/github/napsternxg/ipython-notebooks/blob/945f10d1a45339490408fa857cdfbebc4b3e2617/PyMC_LDA.ipynb

# 23  Gensim

• Gensim和LDA：快速浏览

http://nbviewer.ipython.org/gist/boskaiolo/cc3e1341f59bfbd02726

# 24  bnpy

bnpy支持最新的在线学习算法以及标准的离线方法。我们的目标是提供一个推理平台，使研究人员和从业人员可以轻松比较模型和算法。

https://bitbucket.org/michaelchughes/bnpy-dev/

# 25  将军

Shogun是一个机器学习工具箱，专注于用C ++编写的支持向量机（SVM）。它是积极开发和维护的，提供了一个Python接口，并且Python接口大部分记录良好。但是，与Scikit-learn相比，我们发现它的API很难使用。此外，它不提供许多诊断或评估算法。但是，它的速度是一个很大的优势。

http://www.shogun-toolbox.org/page/home/

# 26  NLTK

• 原型ML / NLP代码教程系列Lessonhs22 06KC580（ML / NLP入门教程Python版）

# 27  算法实现

• 18大经典数据挖掘算法小结

http://blog.csdn.net/androidlushangderen/article/details/43964589

• 十大机器学习算法库

K均值

k-最近的邻居

C4.5

http://www.carolam.com/b/machine-learning-libraries-by-algorithm-cm604/

• 10种机器学习算法的要点（附Python和R代码）

SVM

ķ最近邻算法

ķ均值算法

• Python中实现ID3算法

http://yuenshome.sinaapp.com/2015/04/python%E5%AE%9E%E7%8E%B0id3%E7%AE%97%E6%B3%95/

• 文本的向量空间模型

http://stanford.edu/~rjweiss/public_html/IRiSS2013/text2/notebooks/tfidf.html

• 从示例中了解支持向量机算法（以及代码）

http://www.analyticsvidhya.com/blog/2015/10/understaing-support-vector-machine-example-code/

• 在Python的中使用线性回归预测数据

http://python.jobbole.com/81215/

• 线性回归简介

http://nbviewer.ipython.org/github/justmarkham/DAT4/blob/master/notebooks/08_linear_regression.ipynb

• 使用Python进行回归分析

https://www.turingfinance.com/regression-analysis-using-python-statsmodels-and-quandl/

• Logistic回归与scikit学习

• 逻辑回归Vs决策树VS SVM：第一部分

Logistic回归vs决策树vs SVM：第二部分

***

• 在netflow数据中使用机器学习进行异常检测

• 如何在Python中从零开始实现朴素贝叶斯

http://machinelearningmastery.com/naive-bayes-classifier-scratch-python/

• 主题建模

http://nbviewer.ipython.org/github/sgsinclair/alta/blob/master/ipynb/TopicModelling.ipynb

• 我们来写：逻辑回归分类器

http://nbviewer.ipython.org/github/mfournierca/logistic-regression/blob/master/logistic-regression.ipynb

• 简单易学的机器学习算法 - 谱聚类（Spectal Clustering）

• 深入学习和Python入门

https://www.pyimagesearch.com/2014/09/22/getting-started-deep-learning-python/

• 使用scikit-learn的外核学习和模型持久化

http://nbviewer.ipython.org/github/rasbt/pattern_classification/blob/master/machine_learning/scikit-learn/outofcore_modelpersistence.ipynb

• 如何实现一个神经网络：第1部分

https://peterroelants.github.io/posts/neural_network_implementation_part01/

• 用于机器学习应用程序的内核函数

http://crsouza.com/2010/03/kernel-functions-for-machine-learning-applications/

• Python中的随机森林

http://blog.yhathq.com/posts/random-forests-in-python.html?EMAIL=

• 学习随机森林的强大指南（带有R＆Python中的代码）

http://www.analyticsvidhya.com/blog/2015/09/random-forest-algorithm-multiple-challenges/

• 随机森林解读与scikit学习。

• Python中的状态空间模型：Metropolis-Hastings

• 基于密度的聚类

http://blog.dominodatalab.com/topology-and-density-based-clustering/

• 我的与MCMC算法的幽会

http://mlwhiz.com/blog/2015/08/19/MCMC_Algorithms_Beta_Distribution/

• MCMC采样傻瓜

***

Python的实现

https://twiecki.github.io/blog/2015/11/10/mcmc-sampling/

• 随机森林介绍 - 简体中文

http://www.analyticsvidhya.com/blog/2014/06/introduction-random-forest-simplified/

• 学习随机森林的强大指南（带有R＆Python中的代码）

http://www.analyticsvidhya.com/blog/2015/09/random-forest-algorithm-multiple-challenges/

• 简单遗传算法在15行Python中的应用

http://outlace.com/Simple-Genetic-Algorithm-in-15-lines-of-Python/

• Python中从头开始实现神经网络 - 介绍

http://www.wildml.com/2015/09/implementing-a-neural-network-from-scratch/

• 什么是TF-IDF？10分钟指南

http://michaelerasm.us/tf-idf-in-10-minutes/

• 理解经验贝叶斯估计（使用棒球统计）

**

[R代码实现

http://varianceexplained.org/r/empirical_bayes_baseball/

• 关于贝叶斯方法的阅读列表

**

TomGriffiths的一个比较老的贝叶斯方法方面的论文列表：

EM算法

https://cocosci.berkeley.edu/tom/bayes.html

• 比较Python聚类算法

***

http://nbviewer.ipython.org/github/lmcinnes/hdbscan/blob/master/notebooks/Comparing%20Clustering%20Algorithms.ipynb

https://github.com/lmcinnes/hdbscan

• 迁移学习的资源

https://www.cse.ust.hk/TL/

• 机器学习中提高算法的快速入门

***

http://www.analyticsvidhya.com/blog/2015/11/quick-introduction-boosting-algorithms-machine-learning/

• 机器学习：用初等数学解读逻辑回归

https://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=400364257&idx=1&sn=ffefdf3c6caa741046ec80aac1db2eb1&scene=0#wechat_redirect

# Part III。  机器学习相关应用

• 真棒机器学习

https://github.com/josephmisiti/awesome-machine-learning

# 28  网络爬虫

• Python爬虫学习系列教程崔庆才的博客

Python的入门

1. Python爬虫入门一之综述

2. Python爬虫入门二之爬虫基础了解

3. Python爬虫入门三之Urllib库的基本使用

4. Python爬虫入门四之Urllib库的高级用法

5. Python爬虫入门五之URLError异常处理

7. Python爬虫入门七之正则表达式

8. Python爬虫入门八之美丽的汤的用法

Python的实战

1. Python爬虫实战一之爬取糗事百科段子

2. Python爬虫实战二之爬取百度贴吧帖子

Python爬虫实战三之计算大学本学期绩点

4. Python爬虫实战四之抓取淘宝MM照片

5. Python爬虫实战五之模拟登录淘宝并获取所有订单

Python的进阶

1. Python爬虫进阶一之爬虫框架Scrapy安装配置

http://cuiqingcai.com/990.html

• Python中写爬虫抓站的一些技巧

http://www.kuqin.com/shuoit/20150313/345239.html

• 蟒蛇实现带验证码网站的自动登陆

http://blog.sina.com.cn/s/blog_74a7e56e010177l8.html

• 蟒下用Scrapy和MongoDB的构建爬虫系统（1）

http://www.cnblogs.com/rrxc/p/4478936.html

• Scrapy +瓶+的MongoDB +夫特开发全攻略（1）（2）（3）（4）

http://www.cocoachina.com/ios/20150504/11719.html

http://www.cocoachina.com/ios/20150520/11866.html

http://www.jianshu.com/p/1f24a39f3c4f

http://www.jianshu.com/p/9ca7becdbf4a

http://www.jianshu.com/p/04055e814f88

http://www.jianshu.com/p/1a1ebff0f7bd

• python3爬虫之入门和正则表达式

***

• 斗志旺盛入门：百度贴吧图片爬虫

**

http://segmentfault.com/a/1190000003817510

• 报纸3k：文章刮和策展

https://github.com/codelucas/newspaper

• Python模块学习 - httplib HTTP协议客户端实现

http://python.jobbole.com/81542/

• 硒定向爬取海量精美图片及搜索引擎杂谈

***

http://blog.csdn.net/eastmount/article/details/48854535?utm_source=tuicool

• 利用scrapy集成社区爬虫功能

scrapyd：一个用于运行爬虫任务的Web服务

GitHub的上的一个项目。

https://segmentfault.com/a/1190000003891594

• Python爬虫的工具列表

**

http://www.36dsj.com/archives/36417

# 29  数据处理

• Python的数据分析入门

http://python.jobbole.com/81133/

• 用Python分析英国肥胖症

https://realpython.com/blog/python/analyzing-obesity-in-england-with-python/

• 数据处理和机器学习与Python

• 用Python进行文档聚类

http://nbviewer.ipython.org/github/brandomr/document_cluster/blob/master/cluster_analysis_web.ipynb

https://github.com/raj-kesavan/arrows

http://rajk.me/arrows/

• 数据分析

https://www.dataquest.io/course/data-analysis

• 橄榄球分析和FinTech - 教程

http://nbviewer.ipython.org/github/springcoil/TutorialPyMCRugby/blob/master/Bayesian_Rugby_Tutorial.ipynb

• 鲨鱼，Landsharks，Geoplotting和KDTrees！

http://blog.yhathq.com/posts/sharks.html

• 实际上是关键的数据科学工作技能的网页搜索

• 机器学习系列（3）_逻辑回归应用之Kaggle泰坦尼克之灾

*****

http://blog.csdn.net/han_xiaoyang/article/details/49797143

• CIKM竞赛数据挖掘竞赛夺冠算法

***

http://www.52nlp.cn/cikm-competition-topdata

• 实用的自然语言处理技术来确定旅馆的无线网络质量

**

http://www.racketracer.com/2015/11/18/practical-natural-language-processing-for-determing-wifi-quality-in-hostels/

## 29.1  数据清理

• 美丽的汤

• 解决10行数据提取问题

https://rodricios.github.io/posts/solving_the_data_extraction_problem.html

• 快速指南：在Python中执行文本数据清理的步骤

http://www.analyticsvidhya.com/blog/2015/06/quick-guide-text-data-cleaning-python/

• 常用的开源中文分词工具

http://www.scholat.com/vpost.html?pid=4477

• 机器学习中的数据清洗与特征处理综述

http://tech.meituan.com/machinelearning-data-feature-process.html?from=timeline&isappinstalled=0

## 29.2  特征选取

• 结合Scikit学习介绍几种常用的特征选择方法

http://dataunion.org/14072.html

• （Python）的专注于特征工程的工具库FeatureForge

https://github.com/machinalis/featureforge

• 数据分析领域中最为人称道的七种降维方法

http://www.cstor.cn/textdetail_9627.html

## 29.3  相似度度量

• 5种常用的相似度度量的蟒实现

http://dataaspirant.com/2015/04/11/five-most-popular-similarity-measures-implementation-in-python/

• “这样的人也喜欢...”

http://www.benfrederickson.com/distance-metrics/?hn=1

## 29.4  评价指标

https://github.com/benhamner/Metrics

• sklearn：自动学习方法的选择和调整

# 30  话题模型

• 主题建模在多方面评论

IPython Notebook文本详细介绍了方法，实现和结果

http://nbviewer.ipython.org/gist/benjamincohen1/d7caaa3d07bbb89cd39a

• NMF主题建模与scikit学习

http://nbviewer.ipython.org/url/derekgreene.com/notebooks/nmf_topic.ipynb#

• 主题模型及其变种的实现代码汇总

http://blog.sina.com.cn/s/blog_4c9dc2a10102vm80.html

• dynamic-nmf：动态主题建模

https://github.com/derekgreene/dynamic-nmf

• LDA的实施

Graphlab：https ://dato.com/products/create/docs/generated/graphlab.topic_model.create.html

sklearn：LatentDirichletAllocation：在0.17即将发布！http://scikit-learn.org/dev/auto_examples/applications/topics_extraction_with_nmf_lda.html#example-applications-topics-extraction-with-nmf-lda-py

• 大规模主题模型：对Spark LDA算法的改进

http://www.csdn.net/article/2015-11-02/2826097

• 通过仿真理解概率主题模型

**

http://nbviewer.ipython.org/github/tdhopper/pydata-nyc-2015/blob/master/topic-models-with-simulation.ipynb

# 31  情感分析

• 情绪分析的现代方法Michael Czerny

https://districtdatalabs.silvrback.com/modern-methods-for-sentiment-analysis

• 电影标语的情感分析

http://www.arimorcos.com/blog/post/Sentiment%20analysis%20of%20movie%20taglines/

• gensim doc2vec和IMDB情绪数据集

http://nbviewer.ipython.org/github/piskvorky/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb

• 使用Python和情感API探索故事的形状

*****

https://indico.io/blog/plotlines/

• 情感分析的新方法

https://mp.weixin.qq.com/s?__biz=MzA5NDQ3MDI4NA==&mid=210183372&idx=1&sn=edb4998952082c0518a7c84b8ab8d1e0#rd

# 32  行为分析

• 利用Python，SciKit和文本分类来实现行为分析

https://www.ibm.com/developerworks/cn/data/library/bd-natural-language/index.html?ce=ismxxxx&ct=swg&cmp=ibmsocial&cm=h&cr=crossbrand&ccy=cn

# 33  推荐系统

• 协作过滤推荐引擎在python中的实现

http://dataaspirant.com/2015/05/25/collaborative-filtering-recommendation-engine-implementation-in-python/

https://www.airpair.com/posts/review/55635b0ce7480311007471ee

• 推荐系统列表

https://github.com/grahamjenson/list_of_recommender_systems

• “纽约时报”如何打造新一代推荐系统

**结合应用的推荐系统设计的主要原则

http://geek.csdn.net/news/detail/38182#0-tsina-1-7003-397232819ff9a47a7b7e80a40613cfe1

• 应用k近邻算法预测豆瓣电影用户的性别

http://www.cnblogs.com/xiaff/p/4858332.html

# 34  可视化

• Python的可视化工具概述

http://www.thebigdata.cn/JieJueFangAn/13773.html

• ROC曲线在Python和R

http://blog.yhathq.com/posts/roc-curves.html

• 如何在Python中创建NBA镜头图表

http://savvastjortjoglou.com/nba-shot-sharts.html

• 映射NYC出租车数据

***

http://www.danielforsyth.me/mapping-nyc-taxi-data/

• 使用Bokeh进行交互式数据可视化（在Python中）

http://www.analyticsvidhya.com/blog/2015/08/interactive-data-visualization-library-python-bokeh/

• Python中的数据可视化：Seaborn中的高级功能

Seaborn是一个强调统计图的Python数据可视化库。

• 时间映射的辩论动态

https://alexperrier.github.io/jekyll/update/2015/11/19/timemaps-presidential-debates-dynamics.html

• 用Python的在地图上模拟疫情扩散

***

SIR模型的可视化。

• 数据可视化教程

http://www.imooc.com/article/2604

• 创建NBA镜头图表

http://www.danvatterott.com/blog/2015/12/22/creating-nba-shot-charts/

## 34.1  Matplotlib

• 如何使用matplotlib在Python中制作漂亮的数据可视化文件

http://www.randalolson.com/2014/06/28/how-to-make-beautiful-data-visualizations-in-python-with-matplotlib/

## 34.2  平

• 平装IPython笔记本

https://plot.ly/ipython-notebooks/

• 用Python，Pandas和Plotly生成HTML报告

http://moderndata.plot.ly/generate-html-reports-with-python-pandas-and-plotly/

## 34.3  文本网络分析

• 文本网络分析工具包textplot

https://github.com/davidmcclure/textplot

# 35  计算

• 大数据简介

***

https://github.com/haifengl/bigdata

• 解密神经网络

***

http://i.youku.com/u/UMjY3NTQzMDQ5Ng==

• 一个11行Python代码实现的神经网络

****

http://python.jobbole.com/82758/

• 大数据开源工具综述

**

http://www.journalofbigdata.com/content/2/1/24

## 35.1  大数据

• 本杰明·本福特（Benjamin Bengfort）开始使用Spark（Python）

https://districtdatalabs.silvrback.com/getting-started-with-spark-in-python

• 推荐引擎使用Spark和Python构建

http://tech.marksblogg.com/recommendation-engine-spark-python.html

• 加州大学伯克利分校的AMP Camp 5动手练习

*用Spark构建一个电影推荐器

http://ampcamp.berkeley.edu/5/exercises/index.html

• 用MLLib和Spark分类客户

https://www.mapr.com/blog/classifying-customers-mllib-and-spark#.VV1Lq7zLRyS

• pyspark画面

https://github.com/jkthompson/pyspark-pictures

• SparkHub

Databricks公司搞了一个叫SparkHub的网站把所有的星火资源集中在一起

http://sparkhub.databricks.com/

• 火花

http://nbviewer.ipython.org/github/tfolkman/learningwithdata/blob/master/Getting_Started_With_Spark_DataFrame.ipynb

• Databricks Referenece

http://databricks.gitbooks.io/databricks-spark-reference-applications/content/index.html

• 数据科学家在Spark中的快速开发和性能

**

• 从scikit学习到Spark ML

***

https://github.com/ybenoit/scikit-learn-to-spark-ml/blob/master/Scikit-Learn-To-Spark-ML.ipynb

• 初学者指南：带有大输入数据集的Apache Spark机器学习场景

***

http://fullstackml.com/2015/10/29/beginners-guide-apache-spark-machine-learning-scenario-with-a-large-input-dataset/

**

## 35.2  并行计算

• 并行机器学习与scikit学习和IPython

https://github.com/ogrisel/parallel_ml_tutorial

• Python并行分布式框架：芹菜超详细介绍

https://www.yidianzixun.com/n/0ATIkYBU?s=1

## 35.3  Numpy＆SciPy

• 用Python的做科学计算

• 从NumPy中获得最佳性能

Numpy的性能调优，http: //ipython-books.github.io/featured-01/

• “Python的科学计算”作者：张若愚

• 科学计算项目

https://jrjohansson.github.io/

• 用Python进行科学计算讲座

https://github.com/jrjohansson/scientific-python-lectures

• SciPy和NumPy教程的收集

http://www.erzama.com/scipy-numpy-tutorials-w-12023/

# 36  资源整理

• Python的网页爬虫和文本处理和科学计算和机器学习和数据挖掘兵器谱

http://www.kuqin.com/shuoit/20150414/345708.html

• Python的机器学习库

http://qxde01.blog.163.com/blog/static/67335744201368101922991/

• Python机器学习开源项目

http://pansop.com/1039/

• Python的语言下的机器学习库

http://python.jobbole.com/81135/

• ZEEF网站上聚合的关于蟒蛇的资源

https://python.zeef.com/alan.richmond

• Jobbole网站上的蟒蛇教程

http://python.jobbole.com/category/guide/

• 真棒Python

https://github.com/vinta/awesome-python#awesome-python

• 不断更新的数据科学Python笔记本

https://github.com/donnemartin/data-science-ipython-notebooks

• 算法：人工智能，数据挖掘，聚类，数据结构，机器学习，神经，自然语言处理，...

https://github.com/svaksha/pythonidae/blob/master/AI.md#classification-algorithms

• 基于Theano的深度学习库（展开式，循环神经网络等等）

https://github.com/fchollet/keras

• Python备忘单

https://crazyguitar.github.io/cheatsheet/python-cs.html

• 用于机器学习的Python工具

https://www.cbinsights.com/blog/python-tools-machine-learning/

• 真棒令人敬畏

https://github.com/bayandin/awesome-awesomeness

• 真棒Python

https://github.com/vinta/awesome-python#awesome-python

• 3000多个Python模块

GitHub的上流行的3000+个流行的Python项目，可以作为的Python代码搜索引擎使用

http://www.programcreek.com/python/index/module/list

• IPython提示，技巧和笔记

http://blog.rtwilson.com/ipython-tips-tricks-notes-part-1/

• IPython书籍

IPython Cookbook包含超过100个有关Python数值计算和数据科学的食谱。代码的完整性可以在GitHub上免费获得。另外，我已经发布了几个特色食谱。这些食谱不仅包含代码，还包含完整的食谱描述，解释和所有参考。它们涵盖了本书涵盖的各种主题。我打算在未来发布更多特色食谱。

http://ipython-books.github.io/featured-recipes/

• 16免费数据科学书籍

http://www.wzchen.com/data-science-books

• 学习朴素贝叶斯算法的6个简单步骤（用Python中的代码）

http://www.analyticsvidhya.com/blog/2015/09/naive-bayes-explained/

• 免费的数据科学书籍

http://www.learndatasci.com/free-books/

• 数据结构，动物园

https://github.com/QuantumFractal/Data-Structure-Zoo

• Python中最好的机器学习库

https://stackabuse.com/the-best-machine-learning-libraries-in-python/

• 8个最好的Python数据科学书籍

• 用Python掌握机器学习的7个步骤

http://www.kdnuggets.com/2015/11/seven-steps-machine-learning-python.html

• 数据科学iPython笔记本

https://github.com/donnemartin/data-science-ipython-notebooks

• 用Python的和Pygame的写游戏

http://eyehere.net/2011/python-pygame-novice-professional-1/

http://python.jobbole.com/83489/

# 37  基础教程

• 8步从Python的白板到专家，从基础到深度学习

http://bi.dataguru.cn/article-6939-1.html

• Python科学家的速成课程

http://nbviewer.ipython.org/gist/rpmuller/5920182

• 一个有趣的IPython笔记本画廊

https://github.com/ipython/ipython/wiki/A-gallery-of-interesting-IPython-Notebooks#statistics-machine-learning-and-data-science

• 一些ipython笔记本上的nbviewer的教程

http://nbviewer.ipython.org/

• 国内的IPython笔记本分享平台

http://datahub.top/

• 全栈Python

• 14个最受欢迎的Python的开源框架

http://www.html5dw.com/14%E4%B8%AA%E6%9C%80%E5%8F%97%E6%AC%A2%E8%BF%8E%E7%9A%84python%E5% BC％80％E6％BA％90％E6％A1％86％E6％9E％B6 /

• “零基础学蟒”（第二版）

https://github.com/qiwsir/StarterLearningPython/blob/master/index.md

• 慕课网（http://www.imooc.com）的Python的课程

http://www.imooc.com/view/177?from=itblog

http://www.imooc.com/view/317?from=itblog

• 学习的Python编程的19个资源

http://segmentfault.com/a/1190000004187319

• 科学家的Python碰撞课程（IPython Notebook教程）

http://nbviewer.ipython.org/gist/rpmuller/5920182#

• “Python Cookbook”第3版翻译

• Snakify - 通过挑战性的问题来学习Python 3

https://snakify.org/

• 旅游销售人员问题（IPython Notebook教程）

• 劳拉的数据科学笔记

http://www.lauraegerdal.com/datascience/

• 模式分类

https://github.com/rasbt/pattern_classification/tree/master/#statistical-pattern-classification-examples

• 一组有用的脚本，教程和其他Python相关的东西

https://github.com/rasbt/python_reference

• 学习机器学习的材料

iPython笔记本

R降价

MOOCS

OpenCV机器学习

http://www.jacksimpson.co/2015/06/07/materials-for-learning-machine-learning/

• 八大排序算法的Python的实现

http://segmentfault.com/a/1190000003788339

• 我常用的Python调试工具

http://python.jobbole.com/51062/

• 贝叶斯机器学习

**