中文Python机器学习资源网站

第一部分  IPython Notebook机器学习教程

1  数学

  • 麻省理工学院线性代数(18.06)胡安H Klopper博士

麻省理工学院(MIT)OpenCourseWare(OCW)关于线性代数(18.06)的ipython笔记本讲座

http://www.juanklopper.com/opencourseware/mathematics-2/ipython-lecture-notes/

  • 统计学导论Thomas Haslwanter

本书的最大特点是新,利用Python的最新的数值分析,统计库和可视化库来讲述统计学,理论和实战结合,让初学者容易上手。

http://work.thaslwanter.at/Stats/html/

https://github.com/thomas-haslwanter/statsintro

  • 使用Python的统计简介

https://github.com/rouseguy/intro2stats

  • Python中的计算统计

使用的Python代码讲解统计学的原理,包括了蟒蛇入门的部分,非常细致。

https://people.duke.edu/~ccc14/sta-663/

  • Python中的统计信息

“统计在Python”euroscipy 2015教程的材料。

数据表示和交互

假设检验:比较两组

线性模型,多重因素和方差分析

更多的可视化:seaborn统计探索

测试交互

完整的例子

http://gaelvaroquaux.github.io/stats_in_python_tutorial/

2  Monte Carlo方法,随机优化Verena Kaynig-Fittkau和Pavlos Protopapas(AM207),2015

哈佛课程

http://am207.org/ https://github.com/diguabo/Monte-Carlo-Methods-Stochastic-Optimization-AM207-2015

3  CS 109数据科学,哈佛大学,2014

家庭作业和实验室是用ipython编写的

http://cs109.github.io/2014/

4  文学文本分析艺术,麦吉尔,2015年冬

寻找意义(搜索不同的单词形式和词义)

词类(分析词类(名词,形容词,动词等)的文件

重复短语(分析重复的单词序列)

情感分析(测量意见或文字的心情)

主题建模(找到重复的术语组)

文档相似性(测量和可视化文档之间的距离)

http://nbviewer.ipython.org/github/sgsinclair/alta/blob/master/ipynb/ArtOfLiteraryTextAnalysis.ipynb

5  频率主义和贝叶斯主义

https://jakevdp.github.io/blog/2014/03/11/frequentism-and-bayesianism-a-practical-intro/

http://jakevdp.github.io/blog/2014/06/06/frequentism-and-bayesianism-2-when-results-differ/

http://jakevdp.github.io/blog/2014/06/12/frequentism-and-bayesianism-3-confidence-credibility/

http://jakevdp.github.io/blog/2014/06/14/frequentism-and-bayesianism-4-bayesian-in-python/

 Python中的6个贝叶斯统计分析

https://github.com/fonnesbeck/scipy2014_tutorial/tree/master/

视频:http : //pan.baidu.com/s/1o6j4HBG

  • Python中的贝叶斯建模

欢迎使用“Python中的贝叶斯建模”(Bayesian Modeling in Python) - 为那些有兴趣学习如何在python(PYMC3)中应用贝叶斯建模技术的人提供的教程。本教程并不旨在成为一个贝叶斯统计教程 - 而是为那些了解贝叶斯统计的基础,并希望学习如何使用python构建贝叶斯模型的人编写一本烹饪书。

https://github.com/markdregan/Bayesian-Modelling-in-Python

7  模式分类

一系列用于解决和理解机器学习和模式分类任务的教程和示例:

机器学习和模式分类简介

预处理

模型评估

参数估计

机器学习算法与分类模型

聚类

收集数据

数据可视化

统计模式分类的例子

会谈

应用资源

https://github.com/rasbt/pattern_classification#collecting-data

8  Nitin Borwankar学习数据科学

以IPython笔记本的形式收集数据科学学习资料。关联的数据集。

最初的测试版包含四个主要主题

  1. 线性回归

  2. Logistic回归

  3. 随机森林

  4. K均值聚类

以上每个IPython笔记本至少有三个覆盖

概述(对数学问题的技巧的阐述)

数据挖掘(现实世界中数据争夺的细节)

分析(使用技术来获得结果)

https://github.com/nborwankar/LearnDataScience

9  机器学习简介

数据集

用K-means聚类

用其他算法进行聚类

用k-最近的邻居分类

用其他算法分类

用决策树分类

随机森林分类

降维

https://github.com/Prooffreader/intro_machine_learning

10  用IPython介绍科学计算

**

IPython中进行机器学习方面的研究的入门教程。

http://nbviewer.ipython.org/github/diego898/ipython_intro_hawaii/blob/master/Introduction%20to%20IPython.ipynbhttps://github.com/diego898/ipython_intro_hawaii

11  简单机器学习方法教程

0 - Python Intro.ipynb

1 - PCA.ipynb

2 - KMeans.ipynb

3a - 线性回归1D.ipynb

3b - 线性回归2D.ipynb

4 - Logistic Regression.ipynb

5 - k最近Neighbors.ipynb

https://github.com/temporaer/tutorial_ml_gkbionics/blob/master/README.md

12  机器学习

01_Introduction.ipynb

02_Linear_Regression.ipynb

03_Linear_Classification.ipynb

04_Neural_Networks.ipynb

05_Decision_Trees.ipynb

06_Graphical_Models.ipynb

Performance_Prediction.ipynb

REF_linear_algebra.ipynb

http://nbviewer.ipython.org/github/masinoa/machine_learning/tree/master/

13  挖掘社交网络(第2版)

这个挖掘社交网络的版本广泛使用IPython Notebook来促进学习和开发过程。

第0章 - 前言

第1章 - 挖掘Twitter:探索热门话题,发现人们在谈论什么,等等

第2章 - 挖掘Facebook:分析粉丝页面,检查友谊等等

第3章 - 挖掘LinkedIn:挖掘职位,聚类同事等等

第4章 - 挖掘Google+:计算文档相似性,提取搭配等等

第5章 - 挖掘网页:使用自然语言处理理解人类语言,总结博客文章等等

第6章 - 挖掘邮箱:分析谁在谈论什么,经常,甚至更多

第7章 - 挖掘GitHub:检查软件协作习惯,建立兴趣图,等等

第8章 - 挖掘语义标记的Web:提取微格式,通过RDF推断等等

第九章 - Twitter的食谱

附录A - 虚拟机体验

附录B - OAuth入门

附录C - Python和IPython笔记本提示

https://github.com/ptwobrussell/Mining-the-Social-Web-2nd-Edition

 魏旭14社交媒体与文本分析

大数据社会科学

Twitter和Twitter API教程

社交媒体的自然语言处理(I,II,III)

案例分析 - 多推文摘要和PageRank算法

http://socialmedia-class.org/index.html

15  数据分析

发现强大的python数据分析库,包括numpy和pandas。学习如何操作和获取数据的见解(需要访问youtube.com)

https://www.dataquest.io/course/data-analysis

 用Python实现数据挖掘 16

这个Refcard是关于在实际的数据挖掘中使用的工具,用Python来查找和描述数据中的结构模式。

导入和可视化数据

分类和集群数据

使用回归和相关度量来发现数据中的关系

降低数据的维度,以压缩和可视化所带来的信息

分析结构化数据

https://dzone.com/refcardz/data-mining-discovering-and

17  Scipy讲义

关于科学Python生态系统的教程:快速介绍中心工具和技术。

1.开始使用Python进行科学研究

1.1。科学计算与工具和工作流程

1.2。Python语言

1.3。NumPy:创建和操作数字数据

1.4。Matplotlib:绘图

1.5。Scipy:高级科学计算

1.6。获得帮助和查找文档

2.高级主题

2.1。高级Python构造

2.2。先进的Numpy

2.3。调试代码

2.4。优化代码

2.5。SciPy中的稀疏矩阵

2.6。使用Numpy和Scipy进行图像处理和处理

2.7。数学优化:找到函数的最小值

2.8。与C接口

3.软件包和应用程序

3.1。Python中的统计信息

3.2。Sympy:Python中的符号数学

3.3。Scikit-image:图像处理

3.4。特点:建立交互式对话框

3.5。与Mayavi 3D绘图

3.6。scikit-learn:Python中的机器学习

****

操作性很强

http://www.scipy-lectures.org/

18  计算和推理思维:数据科学的基础,2015年秋季

数据科学入门课程建立在三个相互关联的视角上:推理思维,计算思维和现实世界的相关性。

数据科学与计算

图片的力量和危险

有区别吗?

做预测

模型和选择

http://data8.org/

19  非参数方法

  • Dirichlet分布和Dirichlet过程:通过类比Dirichlet分布快速回顾Dirichlet分布和Dirichlet过程的介绍。

从分层Dirichlet过程抽样:代码演示如何从层次Dirichlet过程抽样,而不先生成无限数量的参数。

非参数潜在Dirichlet分配:使用Dirichlet过程的潜在Dirichlet分配的另一种观点,以及如何使用分层结构容易地扩展到非参数模型(其中主题的数量变为随机变量拟合)的演示Dirichlet过程。

http://nbviewer.ipython.org/github/tdhopper/notes-on-dirichlet-processes/tree/master/

https://github.com/tdhopper/notes-on-dirichlet-processes/tree/master/

  • 非参数潜在狄利克雷分配

http://nbviewer.ipython.org/github/tdhopper/notes-on-dirichlet-processes/blob/master/2015-08-03-nonparametric-latent-dirichlet-allocation.ipynb

  • 关于Hierarchal Dirichlet过程模型中Gibbs抽样的注记

http://stiglerdiet.com/blog/2015/Sep/11/notes-on-gibbs-sampling-in-hierarchal-dirichlet-process-models/

  • 显微镜-LDA

非参数(HDP)潜在狄利克雷分配(LDA)

https://github.com/datamicroscopes/ldahttp://nbviewer.ipython.org/github/tdhopper/notes-on-dirichlet-processes/blob/master/2015-10-07-econtalk-topics.ipynb#主题= 6&拉姆达= 1&术语=

  • 第十届贝叶斯非参数会议

将于2015年6月22 - 26日在美国北卡罗来纳州罗利北卡罗来纳州立大学举行。

讲座:https : //stat.duke.edu/bnp10/index.html%3Fpage_id=279.html

Part II。  机器学习库

  • 数据科学之5个最佳的Python库,为初学者定制的教程

http://bi.dataguru.cn/article-6903-1.html

  • Add for Python,Numpy,Pandas和机器学习培训

https://github.com/addfor/tutorials

  • 一系列教程和示例,用于解决和理解机器学习和模式分类任务

https://github.com/rasbt/pattern_classification

  • 使用NumPy,Matplotlib和Pandas进行Python数据探索的最终指南

如何加载数据文件?

如何将变量转换为不同的数据类型?

如何转置表?

如何对数据进行排序?

如何创建情节(直方图,分散,框图)?

如何生成频率表?

如何做数据集的抽样?

如何删除一个变量的重复值?

如何将变量分组来计算count,average,sum?

如何识别和处理缺失值和异常值?

如何有效地合并/连接数据集?

http://www.analyticsvidhya.com/blog/2015/04/comprehensive-guide-data-exploration-sas-using-python-numpy-scipy-matplotlib-pandas/

  • Bot or Not:在Python中进行端到端的数据分析

建立一个分类器与熊猫,NLTK和scikit学会识别Twitter机器人

***

使用了三个简单的分类器。主要过程被证明。这不是一个可实现的ipn文件。

http://www.erinshellman.com/bot-or-not/

  • IPython中的笔记本电脑

关于:语言,机器学习练习,Spark大数据实验室等。

https://github.com/jdwittenauer/ipython-notebooks

  • 概率,悖论和合理的人本原则

***

几个概率的悖论问题和使用代码的分析

http://nbviewer.ipython.org/url/norvig.com/ipython/Probability.ipynb

20只  熊猫

  • 用大熊猫做Python数据分析和数据科学

新用户的IPython Notebook教程; pandas cookbook(IPython Notebook)

https://www.linkedin.com/pulse/doing-data-analysis-science-python-pandas-ali-syed

  • 熊猫的事情我希望我早就知道了

http://nbviewer.ipython.org/github/rasbt/python_reference/blob/master/tutorials/things_in_pandas.ipynb

  • 14个最佳的Python Pandas功能

http://dataconomy.com/14-best-python-pandas-features

  • 黑客教育与Python - 数据挖掘Coursera流行课程

http://adilmoujahid.com/posts/2015/03/coursera-data-mining/

  • 熊猫教程

https://bitbucket.org/hrojas/learn-pandas

  • 在Python Pandas中汇总,汇总和分组数据

http://www.shanelynn.ie/summarising-aggregation-and-grouping-data-in-python-pandas/

  • 10分钟到熊猫

http://pandas.pydata.org/pandas-docs/stable/10min.html

翻译:http//www.cnblogs.com/chaosimple/p/4153083.html

21  Scikit学习

  • 学习scikit-learn:Python中的机器学习

本书每章的IPython来源(由RaúlGarreta和Guillermo Moncecchi提供)

https://github.com/gmonce/scikit-learn-book/tree/master/

  • PyCon 2015简介Scikit-Learn教程,由Jake VanderPlas提供

1.预赛

01-Preliminaries.ipynb

2.使用Scikit-Learn介绍机器学习

02.1,机器学习,Intro.ipynb

02.2-Basic的Principles.ipynb

3.深入监督学习

03.1分类,SVMs.ipynb

03.2回归 - Forests.ipynb

4.无监督学习深入

04.1维性,PCA.ipynb

04.2聚类,KMeans.ipynb

04.3密度,GMM.ipynb

5.模型验证深入

05-Validation.ipynb

https://github.com/jakevdp/sklearn_pycon2015

  • 用scikit-learn介绍机器学习

简要介绍,包括视频,IPython笔记本,博客文章等

https://github.com/justmarkham/scikit-learn-videos/blob/master/README.md

  • 介绍机器学习使用scikit学习

使用熊猫导入数据

建立一个初始的线性模型

了解如何评估模型

建立在线性模型上,并添加交叉验证和正则化

建立逻辑回归模型 - 交叉验证和正则化

构建决策树模型构建随机森林模型

http://nbviewer.ipython.org/github/raghothams/bangpypers-intro-to-ml/blob/master/Bangpypers-June-2015.ipynb

  • SciPy 2015 Scikit-learn教程

https://github.com/amueller/scipy_2015_sklearn_tutorial

ipn:http : //nbviewer.ipython.org/github/amueller/scipy_2015_sklearn_tutorial/tree/master/notebooks/

  • 办公NFL池

一个有趣的熊猫和Scikit学习使用NFL数据的介绍。我会尝试定期更新玩家数据。

https://github.com/tanyaschlusser/office-nfl-pool

  • Sklearn-大熊猫

该模块为Scikit-Learn的机器学习方法和熊猫式数据框架提供了桥梁。

https://github.com/paulgb/sklearn-pandas

  • 10 Scikit学习案例研究,示例和教程

http://www.baglom.com/b/10-scikit-learn-case-studies-examples-tutorials-cm572/

  • 5使用SciKit学习的文本分类案例研究

http://www.datasciencecentral.com/profiles/blogs/5-text-classification-case-studies-using-scikit-learn

  • 2015年开放数据科学大会的幻灯片和笔记本

https://github.com/amueller/odscon-sf-2015

  • 深入机器学习

****

用Jupyter笔记本,Python和scikit-learn进入机器学习领域。

系统性的简要介绍机器学习的路径,包含了大量实用的,操作性强的链接。

http://hangtwenty.github.io/dive-into-machine-learning/?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io

22  PyMC

作为概率编程语言之一,PyMC是贝叶斯的首选工具。它包括用于模型收敛的贝叶斯模型,统计分布和诊断工具。它也包括一些分层模型。如果你想做贝叶斯分析,你应该检查出来。

http://pymc-devs.github.io/pymc/

https://pymc-devs.github.io/pymc3/

  • 概率规划与黑客贝叶斯方法

从计算/理解第一和数学第二的角度介绍贝叶斯推理。

https://camdavidsonpilon.github.io/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers/

  • 橄榄球分析和FinTech - 教程

介绍使用pymc实现概率编程的方法,由3个例子组成。

http://nbviewer.ipython.org/github/springcoil/TutorialPyMCRugby/blob/master/Bayesian_Rugby_Tutorial.ipynb

  • 贝叶斯相关与PyMC

在这本笔记本中,我将展示如何以简单而强大的方式确定贝叶斯框架内的相关系数。

http://nbviewer.ipython.org/github/psinger/notebooks/blob/master/bayesian_correlation_pymc.ipynb

  • 贝叶斯回归与PyMC:一个简单的教程

如何使用PyMC使用贝叶斯推断来估计线性回归问题的参数

http://sabermetricinsights.blogspot.com/2014/05/bayesian-linear-regression-with-pymc.html

  • 采用PyMC封装的LDA算法

http://nbviewer.ipython.org/github/napsternxg/ipython-notebooks/blob/945f10d1a45339490408fa857cdfbebc4b3e2617/PyMC_LDA.ipynb

23  Gensim

  • Gensim被定义为“人类话题建模”。如其主页所述,其主要焦点是潜在狄利克雷分配(LDA)及其变体。与其他软件包不同的是,它支持自然语言处理,这使得将NLP管道与其他机器学习算法结合起来更容易。如果您的域名在NLP中,并且您想要执行群集和基本分类,则可能需要检查它。最近,他们还引入了基于循环神经网络的文本表示,称为word2vec从Google到他们的API。这个库纯粹是用Python编写的。

http://radimrehurek.com/gensim/

  • Gensim和LDA:快速浏览

http://nbviewer.ipython.org/gist/boskaiolo/cc3e1341f59bfbd02726

24  bnpy

用于python的贝叶斯非参数机器学习

这个python模块提供了在大型数据集上训练流行聚类模型的代码。我们关注基于Dirichlet过程的贝叶斯非参数模型,但也提供参数对应模型。

bnpy支持最新的在线学习算法以及标准的离线方法。我们的目标是提供一个推理平台,使研究人员和从业人员可以轻松比较模型和算法。

https://bitbucket.org/michaelchughes/bnpy-dev/

25  将军

Shogun是一个机器学习工具箱,专注于用C ++编写的支持向量机(SVM)。它是积极开发和维护的,提供了一个Python接口,并且Python接口大部分记录良好。但是,与Scikit-learn相比,我们发现它的API很难使用。此外,它不提供许多诊断或评估算法。但是,它的速度是一个很大的优势。

http://www.shogun-toolbox.org/page/home/

26  NLTK

  • 原型ML / NLP代码教程系列Lessonhs22 06KC580(ML / NLP入门教程Python版)

译文:http : //www.thoughtly.co/blog/category/mlnlp-tutorial-series/

翻译:http : //python.jobbole.com/81397/

27  算法实现

  • 18大经典数据挖掘算法小结

http://blog.csdn.net/androidlushangderen/article/details/43964589

  • 十大机器学习算法库

K均值

支持向量机

先验

期望最大化

网页排名

AdaBoost的

k-最近的邻居

朴素贝叶斯

大车

C4.5

http://www.carolam.com/b/machine-learning-libraries-by-algorithm-cm604/

  • 10种机器学习算法的要点(附Python和R代码)

线性回归

逻辑回归

决策树

SVM

朴素贝叶斯

ķ最近邻算法

ķ均值算法

随机森林算法

降维算法

梯度提升

Adaboost算法

中文:http : //www.analyticsvidhya.com/blog/2015/08/common-machine-learning-algorithms/,翻译:http : //blog.jobbole.com/92021/

  • Python中实现ID3算法

详细实现步骤

http://yuenshome.sinaapp.com/2015/04/python%E5%AE%9E%E7%8E%B0id3%E7%AE%97%E6%B3%95/

  • 文本的向量空间模型

不采用NLTK和Scikits学习库实现

http://stanford.edu/~rjweiss/public_html/IRiSS2013/text2/notebooks/tfidf.html

  • 从示例中了解支持向量机算法(以及代码)

http://www.analyticsvidhya.com/blog/2015/10/understaing-support-vector-machine-example-code/

  • 在Python的中使用线性回归预测数据

http://python.jobbole.com/81215/

  • 线性回归简介

http://nbviewer.ipython.org/github/justmarkham/DAT4/blob/master/notebooks/08_linear_regression.ipynb

  • 使用Python进行回归分析

https://www.turingfinance.com/regression-analysis-using-python-statsmodels-and-quandl/

  • Logistic回归与scikit学习

http://nbviewer.ipython.org/github/justmarkham/gadsdc1/blob/master/logistic_assignment/kevin_logistic_sklearn.ipynb

  • 逻辑回归Vs决策树VS SVM:第一部分

Logistic回归vs决策树vs SVM:第二部分

***

易懂的描述,比较了3种算法

https://www.edvancer.in/logistic-regression-vs-decision-trees-vs-svm-part1/https://www.edvancer.in/logistic-regression-vs-decision-trees-vs-svm -第2部分/

  • 在netflow数据中使用机器学习进行异常检测

网络数据的异常检测,http ://nbviewer.ipython.org/github/eraclitux/machine-learning-netflow/blob/master/machinelearning-netflow.ipynb

  • 如何在Python中从零开始实现朴素贝叶斯

http://machinelearningmastery.com/naive-bayes-classifier-scratch-python/

翻译:http : //python.jobbole.com/81019/,代码(带注释):https//github.com/qiwsir/ApproachPython/blob/master/bayes/bayesfunction.py

  • 主题建模

http://nbviewer.ipython.org/github/sgsinclair/alta/blob/master/ipynb/TopicModelling.ipynb

  • 我们来写:逻辑回归分类器

http://nbviewer.ipython.org/github/mfournierca/logistic-regression/blob/master/logistic-regression.ipynb

  • 简单易学的机器学习算法 - 谱聚类(Spectal Clustering)

http://blog.csdn.net/google19890102/article/details/45697695

  • 深入学习和Python入门

https://www.pyimagesearch.com/2014/09/22/getting-started-deep-learning-python/

  • 使用scikit-learn的外核学习和模型持久化

http://nbviewer.ipython.org/github/rasbt/pattern_classification/blob/master/machine_learning/scikit-learn/outofcore_modelpersistence.ipynb

  • 如何实现一个神经网络:第1部分

https://peterroelants.github.io/posts/neural_network_implementation_part01/

  • 用于机器学习应用程序的内核函数

http://crsouza.com/2010/03/kernel-functions-for-machine-learning-applications/

  • Python中的随机森林

http://blog.yhathq.com/posts/random-forests-in-python.html?EMAIL=

  • 学习随机森林的强大指南(带有R&Python中的代码)

http://www.analyticsvidhya.com/blog/2015/09/random-forest-algorithm-multiple-challenges/

  • 随机森林解读与scikit学习。

http://blog.datadive.net/random-forest-interpretation-with-scikit-learn/,翻译:http : //www.csdn.net/article/2015-10-08/2825851

  • Python中的状态空间模型:Metropolis-Hastings

http://nbviewer.ipython.org/gist/ChadFulton/9f6f1ee34324dbc948be

  • 基于密度的聚类

http://blog.dominodatalab.com/topology-and-density-based-clustering/

  • 我的与MCMC算法的幽会

http://mlwhiz.com/blog/2015/08/19/MCMC_Algorithms_Beta_Distribution/

  • MCMC采样傻瓜

***

Python的实现

https://twiecki.github.io/blog/2015/11/10/mcmc-sampling/

  • 随机森林介绍 - 简体中文

http://www.analyticsvidhya.com/blog/2014/06/introduction-random-forest-simplified/

  • 学习随机森林的强大指南(带有R&Python中的代码)

http://www.analyticsvidhya.com/blog/2015/09/random-forest-algorithm-multiple-challenges/

  • 简单遗传算法在15行Python中的应用

http://outlace.com/Simple-Genetic-Algorithm-in-15-lines-of-Python/

  • Python中从头开始实现神经网络 - 介绍

http://www.wildml.com/2015/09/implementing-a-neural-network-from-scratch/

  • 什么是TF-IDF?10分钟指南

http://michaelerasm.us/tf-idf-in-10-minutes/

  • 理解经验贝叶斯估计(使用棒球统计)

**

[R代码实现

http://varianceexplained.org/r/empirical_bayes_baseball/

  • 关于贝叶斯方法的阅读列表

**

TomGriffiths的一个比较老的贝叶斯方法方面的论文列表:

总体介绍

关于概率解释的经典

模型选择和模型平均

EM算法

蒙特卡罗方法

图形模型

隐马尔可夫模型和

贝叶斯方法和神经网络

https://cocosci.berkeley.edu/tom/bayes.html

  • 比较Python聚类算法

***

通过程序结果比较了HDBSCAN和K-Means,Affinity Propagation,Spectral Clustering,Agglomerative Clustering,DBSCAN对于一个聚类问题的结果。代码完整,可参考。

http://nbviewer.ipython.org/github/lmcinnes/hdbscan/blob/master/notebooks/Comparing%20Clustering%20Algorithms.ipynb

https://github.com/lmcinnes/hdbscan

  • 用于Twitter趋势主题检测的非参数时间序列分类(MEng论文)

https://github.com/snikolov/rumor,论文?:http : //arxiv.org/abs/1302.3639

  • 迁移学习的资源

迁移学习资源汇总:代码,数据集,论文,书籍等(香港科技大学计算机科学及工程学系)

https://www.cse.ust.hk/TL/

  • 机器学习中提高算法的快速入门

***

有蟒蛇代码和原理解释

http://www.analyticsvidhya.com/blog/2015/11/quick-introduction-boosting-algorithms-machine-learning/

  • 机器学习:用初等数学解读逻辑回归

https://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=400364257&idx=1&sn=ffefdf3c6caa741046ec80aac1db2eb1&scene=0#wechat_redirect

Part III。  机器学习相关应用

  • 真棒机器学习

一个真棒机器学习框架,图书馆和软件(通过语言)的策划列表。

https://github.com/josephmisiti/awesome-machine-learning

28  网络爬虫

  • Python爬虫学习系列教程崔庆才的博客

Python的入门

1. Python爬虫入门一之综述

2. Python爬虫入门二之爬虫基础了解

3. Python爬虫入门三之Urllib库的基本使用

4. Python爬虫入门四之Urllib库的高级用法

5. Python爬虫入门五之URLError异常处理

6. Python爬虫入门六之Cookie的使用

7. Python爬虫入门七之正则表达式

8. Python爬虫入门八之美丽的汤的用法

Python的实战

1. Python爬虫实战一之爬取糗事百科段子

2. Python爬虫实战二之爬取百度贴吧帖子

Python爬虫实战三之计算大学本学期绩点

4. Python爬虫实战四之抓取淘宝MM照片

5. Python爬虫实战五之模拟登录淘宝并获取所有订单

Python的进阶

1. Python爬虫进阶一之爬虫框架Scrapy安装配置

http://cuiqingcai.com/990.html

  • Python中写爬虫抓站的一些技巧

http://www.kuqin.com/shuoit/20150313/345239.html

  • 蟒蛇实现带验证码网站的自动登陆

http://blog.sina.com.cn/s/blog_74a7e56e010177l8.html

  • 蟒下用Scrapy和MongoDB的构建爬虫系统(1)

http://www.cnblogs.com/rrxc/p/4478936.html

  • Scrapy +瓶+的MongoDB +夫特开发全攻略(1)(2)(3)(4)

http://www.cocoachina.com/ios/20150504/11719.html

http://www.cocoachina.com/ios/20150520/11866.html

http://www.jianshu.com/p/1f24a39f3c4f

http://www.jianshu.com/p/9ca7becdbf4a

http://www.jianshu.com/p/04055e814f88

http://www.jianshu.com/p/1a1ebff0f7bd

  • python3爬虫之入门和正则表达式

***

非常细致的正则表达式的介绍

http://rlovep.com/2015/09/23/python3%E7%88%AC%E8%99%AB%E4%B9%8B%E5%85%A5%E9%97%A8%E5%92%图8C%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F /

  • 斗志旺盛入门:百度贴吧图片爬虫

**

简短介绍,有一个小例子

http://segmentfault.com/a/1190000003817510

  • 报纸3k:文章刮和策展

https://github.com/codelucas/newspaper

  • Python模块学习 - httplib HTTP协议客户端实现

http://python.jobbole.com/81542/

抓斗是一个python网页抓取框架。抓斗提供了很多有用的方法来刮取网站和处理刮掉的内容。

介绍:http : //www.imscraping.ninja/posts/introducing-grab-framework-python-webscraping

官网:http//grablib.org/

源码:https//github.com/lorien/grab

  • 硒定向爬取海量精美图片及搜索引擎杂谈

***

使用Python的+ Phantomjs +硒做图片爬虫

http://blog.csdn.net/eastmount/article/details/48854535?utm_source=tuicool

  • 利用scrapy集成社区爬虫功能

爬取指定网站架构的组件包括:

scrapyd:一个用于运行爬虫任务的Web服务

蜘蛛:使用scrapy框架实现的爬虫

蒙戈:存放爬取的数据

GitHub的上的一个项目。

https://segmentfault.com/a/1190000003891594

  • Python爬虫的工具列表

**

这个列表包含与网页抓取和数据处理的Python的库,附Github的代码下载链接

http://www.36dsj.com/archives/36417

29  数据处理

  • Python的数据分析入门

http://python.jobbole.com/81133/

  • 用Python分析英国肥胖症

https://realpython.com/blog/python/analyzing-obesity-in-england-with-python/

  • 数据处理和机器学习与Python

https://github.com/halflings/python-data-workshop/blob/master/README.md

  • 用Python进行文档聚类

http://nbviewer.ipython.org/github/brandomr/document_cluster/blob/master/cluster_analysis_web.ipynb

  • 箭头:另一个Twitter / Python数据分析

地理,时间和语言分析关于美国总统候选人与熊猫,TextBlob,Seaborn和Cartopy的推文

https://github.com/raj-kesavan/arrows

http://rajk.me/arrows/

  • 数据分析

发现强大的python数据分析库,包括numpy和pandas。了解如何操作和获取数据的见解。

https://www.dataquest.io/course/data-analysis

  • 橄榄球分析和FinTech - 教程

http://nbviewer.ipython.org/github/springcoil/TutorialPyMCRugby/blob/master/Bayesian_Rugby_Tutorial.ipynb

  • 鲨鱼,Landsharks,Geoplotting和KDTrees!

在这篇文章中,我们将浏览全球鲨鱼攻击文件,检查一些鲨鱼攻击的特征,然后用Matplotlib底图深入一些地理绘图。

http://blog.yhathq.com/posts/sharks.html

  • 实际上是关键的数据科学工作技能的网页搜索

通过一个分析数据科学家工作技术的分析,详细展示了方法,实现和结果,http://nbviewer.ipython.org/github/jmsteinw/Notebooks/blob/master/IndeedJobs.ipynbhttps://jessesw.com /数据科学技能/

  • 机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾

*****

通过分析kaggle上的一个比赛,以数据挖掘中数据认识,特殊点分析,特征工程,模型融合等方面的实践为内容,详细阐述了数据挖掘的具体做法。带源代码,可操作性很强,适合作为入门材料。

http://blog.csdn.net/han_xiaoyang/article/details/49797143

  • CIKM竞赛数据挖掘竞赛夺冠算法

***

参加数据挖掘竞赛的详细过程

http://www.52nlp.cn/cikm-competition-topdata

  • 实用的自然语言处理技术来确定旅馆的无线网络质量

**

针对酒店的评价信息判断无线上网的质量的一个结合代码的详细例子。初学者适用

http://www.racketracer.com/2015/11/18/practical-natural-language-processing-for-determing-wifi-quality-in-hostels/

29.1  数据清理

  • 美丽的汤

  • 解决10行数据提取问题

https://rodricios.github.io/posts/solving_the_data_extraction_problem.html

  • 快速指南:在Python中执行文本数据清理的步骤

http://www.analyticsvidhya.com/blog/2015/06/quick-guide-text-data-cleaning-python/

  • 常用的开源中文分词工具

http://www.scholat.com/vpost.html?pid=4477

  • 机器学习中的数据清洗与特征处理综述

http://tech.meituan.com/machinelearning-data-feature-process.html?from=timeline&isappinstalled=0

29.2  特征选取

  • 结合Scikit学习介绍几种常用的特征选择方法

http://dataunion.org/14072.html

  • (Python)的专注于特征工程的工具库FeatureForge

https://github.com/machinalis/featureforge

  • 数据分析领域中最为人称道的七种降维方法

http://www.cstor.cn/textdetail_9627.html

29.3  相似度度量

  • 5种常用的相似度度量的蟒实现

http://dataaspirant.com/2015/04/11/five-most-popular-similarity-measures-implementation-in-python/

https://github.com/saimadhu-polamuri/DataAspirant_codes/tree/master/Similarity_measures

  • “这样的人也喜欢...”

使用熊猫和SciPy的通过推荐问题的实现,讨论距离度量的差异

http://www.benfrederickson.com/distance-metrics/?hn=1

29.4  评价指标

  • 机器学习评估指标,用Python,R,Haskell和MATLAB / Octave实现

https://github.com/benhamner/Metrics

  • sklearn:自动学习方法的选择和调整

如何使用Optunity结合sklearn来分类sklearn中可用的数字识别数据集

最酷的是我们将使用Optunity从一组可用的学习算法中选择最佳方法,并一次性优化超参数。

https://optunity.readthedocs.org/en/latest/notebooks/notebooks/sklearn-automated-classification.html

30  话题模型

  • 主题建模在多方面评论

IPython Notebook文本详细介绍了方法,实现和结果

http://nbviewer.ipython.org/gist/benjamincohen1/d7caaa3d07bbb89cd39a

  • NMF主题建模与scikit学习

http://nbviewer.ipython.org/url/derekgreene.com/notebooks/nmf_topic.ipynb#

  • 主题模型及其变种的实现代码汇总

http://blog.sina.com.cn/s/blog_4c9dc2a10102vm80.html

  • dynamic-nmf:动态主题建模

https://github.com/derekgreene/dynamic-nmf

  • LDA的实施

Gensim:https ://radimrehurek.com/gensim/

Graphlab:https ://dato.com/products/create/docs/generated/graphlab.topic_model.create.html

lda:http : //pythonhosted.org//lda/

sklearn:LatentDirichletAllocation:在0.17即将发布!http://scikit-learn.org/dev/auto_examples/applications/topics_extraction_with_nmf_lda.html#example-applications-topics-extraction-with-nmf-lda-py

python-LDA:https : //github.com/a55509432/python-LDA,伪代码和解释https://www.cnblogs.com/guapeng/p/4720590.html

  • 大规模主题模型:对Spark LDA算法的改进

http://www.csdn.net/article/2015-11-02/2826097

  • 通过仿真理解概率主题模型

**

实例对比初始聚类,高斯混合模型,离散混合模型算法和实现,理解概率话题模型。

http://nbviewer.ipython.org/github/tdhopper/pydata-nyc-2015/blob/master/topic-models-with-simulation.ipynb

31  情感分析

  • 情绪分析的现代方法Michael Czerny

https://districtdatalabs.silvrback.com/modern-methods-for-sentiment-analysis

  • 对Twitter的感受分析

https://github.com/mayank93/Twitter-Sentiment-Analysis

  • 用Python挖掘twitter数据

http://marcobonzanini.com/2015/03/02/mining-twitter-data-with-python-part-1/

  • 电影标语的情感分析

http://www.arimorcos.com/blog/post/Sentiment%20analysis%20of%20movie%20taglines/

  • gensim doc2vec和IMDB情绪数据集

http://nbviewer.ipython.org/github/piskvorky/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb

  • 使用Python和情感API探索故事的形状

这个笔记本使用indico的机器学习API实现了一系列的实验来快速测试假设。

*****

包含情感分析,采样,平滑,序列比较等技术,情感分析使用了编号Indico的API,其他技术都很简单。但是整个过程描述细致,思路清晰,结构合理,是一篇非常有趣的应用型论文。

https://indico.io/blog/plotlines/

  • 情感分析的新方法

本文介绍了利用Python实现的Word2Vec实例,Emoji推文的情感分析,利用Doc2Vec分析电影评论数据。本文介绍了利用Word实现的一个Word2Vec实例,该方法可以在捕捉语言信息的同时压缩数据规模。

https://mp.weixin.qq.com/s?__biz=MzA5NDQ3MDI4NA==&mid=210183372&idx=1&sn=edb4998952082c0518a7c84b8ab8d1e0#rd

32  行为分析

  • 利用Python,SciKit和文本分类来实现行为分析

https://www.ibm.com/developerworks/cn/data/library/bd-natural-language/index.html?ce=ismxxxx&ct=swg&cmp=ibmsocial&cm=h&cr=crossbrand&ccy=cn

33  推荐系统

  • 协作过滤推荐引擎在python中的实现

http://dataaspirant.com/2015/05/25/collaborative-filtering-recommendation-engine-implementation-in-python/

  • 内容推荐使用Neo4j和Python在Twitter上共享链接

https://www.airpair.com/posts/review/55635b0ce7480311007471ee

  • 推荐系统列表

软件即服务推荐系统

开源推荐系统

非萨斯产品推荐系统

学术推荐系统

标杆推荐系统

媒体推荐应用

https://github.com/grahamjenson/list_of_recommender_systems

  • “纽约时报”如何打造新一代推荐系统

**结合应用的推荐系统设计的主要原则

http://geek.csdn.net/news/detail/38182#0-tsina-1-7003-397232819ff9a47a7b7e80a40613cfe1

  • 一个使用Spark和Flask的可扩展在线电影推荐器

https://github.com/jadianes/spark-movie-lens

  • 应用k近邻算法预测豆瓣电影用户的性别

http://www.cnblogs.com/xiaff/p/4858332.html

34  可视化

  • Python的可视化工具概述

http://www.thebigdata.cn/JieJueFangAn/13773.html

  • ROC曲线在Python和R

http://blog.yhathq.com/posts/roc-curves.html

  • 可视化您的LinkedIn图

https://learn.dataiku.com/tutorials/linkedin-graph/

  • 如何在Python中创建NBA镜头图表

在这篇文章中,我将介绍如何提取玩家的拍摄图表数据,然后使用matplotlib和seaborn进行绘制。

http://savvastjortjoglou.com/nba-shot-sharts.html

  • 映射NYC出租车数据

***

过程不太细致,数据来源和处理思路还是可以借鉴。

http://www.danielforsyth.me/mapping-nyc-taxi-data/

http://dataunion.org/bbs/forum.php?mod=viewthread&tid=1562&page=1&extra=&_dsign=fb0ab124

  • 使用Bokeh进行交互式数据可视化(在Python中)

http://www.analyticsvidhya.com/blog/2015/08/interactive-data-visualization-library-python-bokeh/

  • Python中的数据可视化:Seaborn中的高级功能

Seaborn是一个强调统计图的Python数据可视化库。

http://blog.insightdatalabs.com/advanced-functionality-in-seaborn/

  • 时间映射的辩论动态

https://alexperrier.github.io/jekyll/update/2015/11/19/timemaps-presidential-debates-dynamics.html

  • 用Python的在地图上模拟疫情扩散

***

SIR模型的可视化。

http://python.jobbole.com/80938/

http://maxberggren.se/2014/11/27/model-of-a-zombie-outbreak/https://github.com/maxberggren/blog-notebooks/blob/master/SweEbola.ipynb

  • 数据可视化教程

http://nbviewer.ipython.org/github/jonblower/python-viz-intro/tree/master/https://github.com/jonblower/python-viz-intro

http://www.imooc.com/article/2604

  • 创建NBA镜头图表

http://www.danvatterott.com/blog/2015/12/22/creating-nba-shot-charts/

34.1  Matplotlib

  • 如何使用matplotlib在Python中制作漂亮的数据可视化文件

http://www.randalolson.com/2014/06/28/how-to-make-beautiful-data-visualizations-in-python-with-matplotlib/

34.2  平

  • 平装IPython笔记本

https://plot.ly/ipython-notebooks/

  • 用Python,Pandas和Plotly生成HTML报告

http://moderndata.plot.ly/generate-html-reports-with-python-pandas-and-plotly/

34.3  文本网络分析

  • 文本网络分析工具包textplot

https://github.com/davidmcclure/textplot

35  计算

  • 大数据简介

***

很具体的一篇文章,关于大数据具体实现技术的介绍。

https://github.com/haifengl/bigdata

  • 解密神经网络

***

直接,简要,python based video

http://i.youku.com/u/UMjY3NTQzMDQ5Ng==

  • 一个11行Python代码实现的神经网络

****

由浅入深分析BP神经网络和应用,有代码。

http://python.jobbole.com/82758/

  • 大数据开源工具综述

**

大数据生态的主要工具

http://www.journalofbigdata.com/content/2/1/24

  • Hadoop生态系统表

https://hadoopecosystemtable.github.io/

35.1  大数据

  • 本杰明·本福特(Benjamin Bengfort)开始使用Spark(Python)

https://districtdatalabs.silvrback.com/getting-started-with-spark-in-python

  • 推荐引擎使用Spark和Python构建

http://tech.marksblogg.com/recommendation-engine-spark-python.html

  • 加州大学伯克利分校的AMP Camp 5动手练习

使用Spark shell编写交互式查询

使用Spark shell来编写交互式SQL查询

部署Tachyon并尝试简单的功能。

*用Spark构建一个电影推荐器

探索图形结构的数据和图形算法

使用管道进行图像分类

在R中使用Spark进行交互式数据分析

用ADAM进行基因组分析

http://ampcamp.berkeley.edu/5/exercises/index.html

  • 用MLLib和Spark分类客户

https://www.mapr.com/blog/classifying-customers-mllib-and-spark#.VV1Lq7zLRyS

  • pyspark画面

通过图片和简单的例子了解pyspark API

https://github.com/jkthompson/pyspark-pictures

  • SparkHub

Databricks公司搞了一个叫SparkHub的网站把所有的星火资源集中在一起

http://sparkhub.databricks.com/

  • 火花

向您展示如何开始使用Spark并引入Spark数据框架

http://nbviewer.ipython.org/github/tfolkman/learningwithdata/blob/master/Getting_Started_With_Spark_DataFrame.ipynb

  • Databricks Referenece

参考应用程序将吸引那些想要学习Spark并通过实例学习的人。

通过3个例子学习火花的应用

http://databricks.gitbooks.io/databricks-spark-reference-applications/content/index.html

  • 数据科学家在Spark中的快速开发和性能

本文将讨论数据处理工作流程的每个阶段的策略,数据科学家Spark最近应该考虑将其用于大数据的高生产力开发。

**

星火应用的概念。图片和排版不错

http://multithreaded.stitchfix.com/blog/2015/10/06/spark-for-data-science/

  • 从scikit学习到Spark ML

***

笔记本比较scikit学习和Spark ML建立机器学习管道。

博客介绍是法语的,ipython notebook是英文的。

https://github.com/ybenoit/scikit-learn-to-spark-ml/blob/master/Scikit-Learn-To-Spark-ML.ipynb

  • 初学者指南:带有大输入数据集的Apache Spark机器学习场景

***

具体实例,蟒蛇代码,实验环境搭建。

http://fullstackml.com/2015/10/29/beginners-guide-apache-spark-machine-learning-scenario-with-a-large-input-dataset/

  • 开始使用python和Apache Flink

**

关于使用python API进行Apache Flink框架学习的简要介绍和例子。

弗林克是类似于火花的流式处理框架。

http://willmcginnis.com/2015/11/08/getting-started-with-python-and-apache-flink/

35.2  并行计算

  • 并行机器学习与scikit学习和IPython

https://github.com/ogrisel/parallel_ml_tutorial

  • Python并行分布式框架:芹菜超详细介绍

https://www.yidianzixun.com/n/0ATIkYBU?s=1

35.3  Numpy&SciPy

  • 用Python的做科学计算

包括Numpy,SciPy,matplotlib等包,http: //sebug.net/paper/books/scipydoc/index.html

  • 从NumPy中获得最佳性能

Numpy的性能调优,http: //ipython-books.github.io/featured-01/

  • “Python的科学计算”作者:张若愚

书籍,介绍见:http : //www.fxysw.com/thread-4626-1-1.html

  • 科学计算项目

https://jrjohansson.github.io/

  • 用Python进行科学计算讲座

https://github.com/jrjohansson/scientific-python-lectures

  • SciPy和NumPy教程的收集

http://www.erzama.com/scipy-numpy-tutorials-w-12023/

第四部分。  其他资源

36  资源整理

  • Python的网页爬虫和文本处理和科学计算和机器学习和数据挖掘兵器谱

http://www.kuqin.com/shuoit/20150414/345708.html

  • Python的机器学习库

http://qxde01.blog.163.com/blog/static/67335744201368101922991/

  • Python机器学习开源项目

http://pansop.com/1039/

  • Python的语言下的机器学习库

http://python.jobbole.com/81135/

  • ZEEF网站上聚合的关于蟒蛇的资源

https://python.zeef.com/alan.richmond

  • Jobbole网站上的蟒蛇教程

http://python.jobbole.com/category/guide/

  • 真棒Python

https://github.com/vinta/awesome-python#awesome-python

  • 不断更新的数据科学Python笔记本

笔记本包括:Spark,Hadoop MapReduce,HDFS,AWS,Kaggle,scikit-learn,matplotlib,pandas,NumPy,SciPy,Python以及各种命令行。

https://github.com/donnemartin/data-science-ipython-notebooks

  • 算法:人工智能,数据挖掘,聚类,数据结构,机器学习,神经,自然语言处理,...

https://github.com/svaksha/pythonidae/blob/master/AI.md#classification-algorithms

  • 基于Theano的深度学习库(展开式,循环神经网络等等)

https://github.com/fchollet/keras

  • Python备忘单

作弊的Python表。Python程序员的一些基本概念需要知道。

https://crazyguitar.github.io/cheatsheet/python-cs.html

  • 用于机器学习的Python工具

https://www.cbinsights.com/blog/python-tools-machine-learning/

  • 真棒令人敬畏

一个惊人的真棒令人敬畏的策划清单。

https://github.com/bayandin/awesome-awesomeness

  • 真棒Python

精心设计的Python框架,库和软件清单。

https://github.com/vinta/awesome-python#awesome-python

  • 3000多个Python模块

GitHub的上流行的3000+个流行的Python项目,可以作为的Python代码搜索引擎使用

http://www.programcreek.com/python/index/module/list

  • IPython提示,技巧和笔记

http://blog.rtwilson.com/ipython-tips-tricks-notes-part-1/

  • IPython书籍

IPython Cookbook包含超过100个有关Python数值计算和数据科学的食谱。代码的完整性可以在GitHub上免费获得。另外,我已经发布了几个特色食谱。这些食谱不仅包含代码,还包含完整的食谱描述,解释和所有参考。它们涵盖了本书涵盖的各种主题。我打算在未来发布更多特色食谱。

http://ipython-books.github.io/featured-recipes/

  • 16免费数据科学书籍

http://www.wzchen.com/data-science-books

  • 学习朴素贝叶斯算法的6个简单步骤(用Python中的代码)

http://www.analyticsvidhya.com/blog/2015/09/naive-bayes-explained/

  • 免费的数据科学书籍

http://www.learndatasci.com/free-books/

  • 数据结构,动物园

一个教育回购为学生在Python学习数据结构

https://github.com/QuantumFractal/Data-Structure-Zoo

  • Python中最好的机器学习库

https://stackabuse.com/the-best-machine-learning-libraries-in-python/

  • 8个最好的Python数据科学书籍

http://bigdata-madesimple.com/8-best-python-data-science-books/

  • 用Python掌握机器学习的7个步骤

http://www.kdnuggets.com/2015/11/seven-steps-machine-learning-python.html

  • 数据科学iPython笔记本

https://github.com/donnemartin/data-science-ipython-notebooks

  • 用Python的和Pygame的写游戏

http://eyehere.net/2011/python-pygame-novice-professional-1/

http://python.jobbole.com/83489/

37  基础教程

  • 8步从Python的白板到专家,从基础到深度学习

http://bi.dataguru.cn/article-6939-1.html

  • Python科学家的速成课程

http://nbviewer.ipython.org/gist/rpmuller/5920182

  • 一个有趣的IPython笔记本画廊

https://github.com/ipython/ipython/wiki/A-gallery-of-interesting-IPython-Notebooks#statistics-machine-learning-and-data-science

  • 一些ipython笔记本上的nbviewer的教程

http://nbviewer.ipython.org/

  • 国内的IPython笔记本分享平台

http://datahub.top/

  • 全栈Python

涵盖的Python开发的各个方面,包括语言,网页开发,网页程序,数据库,网页API,测试等。https://www.fullstackpython.com/table-of-contents.html

  • 14个最受欢迎的Python的开源框架

http://www.html5dw.com/14%E4%B8%AA%E6%9C%80%E5%8F%97%E6%AC%A2%E8%BF%8E%E7%9A%84python%E5% BC%80%E6%BA%90%E6%A1%86%E6%9E%B6 /

译文:http : //www.kuqin.com/shuoit/20140629/340882.html

  • “零基础学蟒”(第二版)

https://github.com/qiwsir/StarterLearningPython/blob/master/index.md

  • 慕课网(http://www.imooc.com)的Python的课程

http://www.imooc.com/view/177?from=itblog

http://www.imooc.com/view/317?from=itblog

  • 学习的Python编程的19个资源

http://segmentfault.com/a/1190000004187319

  • 科学家的Python碰撞课程(IPython Notebook教程)

http://nbviewer.ipython.org/gist/rpmuller/5920182#

  • “Python Cookbook”第3版翻译

在线阅读:http : //python3-cookbook.readthedocs.org/zh_CN/latest/,代码:https//github.com/yidao620c/python3-cookbook

  • Snakify - 通过挑战性的问题来学习Python 3

https://snakify.org/

  • 旅游销售人员问题(IPython Notebook教程)

非常详尽的教程。http://nbviewer.ipython.org/url/norvig.com/ipython/TSPv3.ipynb

  • 劳拉的数据科学笔记

这些笔记大多数来自华盛顿特区的大数据科学课程,由思南奥兹杰米尔,凯文马克汉姆和助教布兰登·巴勒斯教授。

简单的python,panda等数据分析的教程

http://www.lauraegerdal.com/datascience/

  • 模式分类

教程,示例,集合以及属于类别的所有其他内容:模式分类,机器学习和数据挖掘。

https://github.com/rasbt/pattern_classification/tree/master/#statistical-pattern-classification-examples

  • 一组有用的脚本,教程和其他Python相关的东西

https://github.com/rasbt/python_reference

  • 学习机器学习的材料

视频/教材

iPython笔记本

R降价

MOOCS

有趣的链接

OpenCV机器学习

图书

播客

亚马逊网络服务(AWS)

http://www.jacksimpson.co/2015/06/07/materials-for-learning-machine-learning/

  • 八大排序算法的Python的实现

http://segmentfault.com/a/1190000003788339

  • 我常用的Python调试工具

http://python.jobbole.com/51062/

  • 贝叶斯机器学习

**

贝叶斯机器学习的路径图

https://www.metacademy.org/roadmaps/rgrosse/bayesian_machine_learning

留学狂魔

Python教程

2017-11-27


“统计在Python”euroscipy 2015教程的材料。 数据表示和交互 假设检验:比较两组 线性模型,多重因素和方差分析 更多的可视化:seaborn统计探索 测试交互 完整的例子