一名数据挖掘工程师给新人整理的入门资料

四年前我一次传闻数据挖掘这个词，三年前我进修了数据挖掘理论常识，两年前我做了几个与数据挖掘有关的项目，一年前我成为一名数据挖掘工程师，本日我把数据挖掘入门资料整理了一下，但愿可以或许对新人有辅佐。

一、python

推荐粗读《Head First Python》一书，该书浅显易懂，有C语言基本的人只需一天就能读完，并可以或许利用python举办简朴编程。“Head First”系列的数都很适合初学者，我还读过《Head First 设计模式》和《Head First Statistics》，感受都不错。不外后两本，我读得较量细也较量慢，究竟其时是首次打仗设计模式和统计学相关常识，书中许多对象对我而言都是全新的。而当我读《Head First Python》时，我已经把握了C、C++、java等多种编程语言，所以再看python就以为较量简朴了。学任何一种编程语言，必然要动手操练。python的集成开拓情况有许多，我小我私家较量青睐PyCharm。

用python做数据挖掘的人一般城市用到pandas数据阐明包。推荐阅读《pandas: powerful Python data analysis toolkit》文档，个中《10 Minutes to pandas》这一节能让你轻松上手pandas。读了这一节你会知道怎么用一句话获得数据的一些根基统计量(每一列特征的均值、尺度差、最大最小值、四分位点等)，怎么简朴地实现多条件的过滤，怎么将两张表按key毗连，怎么将数据可视化。除了这篇文档，我还想推荐一本书《操作Python举办数据阐明》，这本书和之前文档的主要内容差不多。可以书和文档交错看，加深印象。与文档对比，书增加了数据应用等内容。与书对比，文档增加了与R、SQL比拟等内容。纵然是主题沟通的章节，譬喻画图，文档和书将常识组织起来的方法以及偏重点也有所差异。小我私家认为，文档和书都值得一看。

二、统计学

固然我也粗读过统计学的几本书，但从易懂性来说，都没有学校老师给的ppt好，可能说本身看书较量坚苦，可是听老师授课就很容易懂。所以，我发起有条件的同学可以或许选修统计学这门课，没条件的同学可以去网上找一些相关视频，配套书籍可以选择茆诗松的《概率论与数理统计》。别的，《Head First Statistics》一书可以用来预热。

学了统计学，你至少应该知道根基的抽样要领、毛病与方差的区别、奈何举办数据预处理惩罚、奈何整理和显示数据、数据漫衍的描写统计量有哪些、假设检讨是用来做什么的、置信区间的观念、R-squared的寄义等等。你需要相识各类图的浸染和合用场景，常用图包罗条形图、饼图、直方图、折线图、箱线图、散点图、雷达图等。你需要相识各类统计量的寄义，常见统计量包罗均值、方差、中位数、四分位数、加权平均数、偏态、峰态等。你需要相识一些重要的漫衍，好比正态漫衍、chi-square漫衍、t漫衍、F漫衍等。

三、呆板进修和数据挖掘

呆板进修资料首推吴恩达的《斯坦福大学果真课：呆板进修课程》视频。这20集视频确实是好视频，但对初学者来说难度偏大。我有了一点呆板进修方面的基本后，再去看该视频，还花了2.5倍的时间才根基看懂。每当我跟不上视频时，就会暂停可能回退，再仔细看看课件，所以看完视频花掉的时间是视频原时长的2.5倍。别的，周志华的《呆板进修》和李航的《统计进修要领》可以作为呆板进修入门书籍，经典课本《Pattern Recognition and Machine Learning》可以作为呆板进修进阶书籍，而《呆板进修实战》一书妙手把手地教你怎么实现呆板进修模子的底层算法(书中包括了大量的措施清单)。

数据挖掘方面，推荐Jiawei Han的《数据挖掘观念与技能》。该书较量容易读懂，内容遍及且实用性强，出格适合初学者。

四、其他资料和发起

除了系统化的进修专业常识，我们也可以天天接收一些碎片化的常识。譬喻，Quora上有不少关于呆板进修和数据挖掘的问答，其谜底质量普遍高于知乎，有乐趣的同学可以常去Quora的呆板进修相关版块走走。订阅好对象传送门的《呆板进修日报》是一个不错的选择。天天从日报中挑选1~2篇文章读读，可以扩展本身的常识面，同时养整每天进修的好习惯。

从Quora和《呆板进修日报》中获取的一些常识点：

随机丛林模子不适适用稀疏特征。

测试集必需利用与练习集沟通的要领举办预处理惩罚。

L1正则(特征选择)最小样本数目m与特征n呈log干系，m = O(log n) ;

L2正则(旋转稳定)最小样本数目m与特征n呈线性干系，m = O(n) 。

尺度的PCA是一种线性转换技能。

呈长尾漫衍的特征凡是需要举办对数转换。

线性SVM适合小样本。

AUC适相助为类不服衡问题的权衡尺度。

在nested k-foldcross validation中，“外层轮回”的目标是模子评估，“内层轮回”的目标是模子选择。

在样本数量较少的环境下，极大似然预计的结果比普通的最小二乘法差。

#p#分页标题#e#

想干数据挖掘这一行，光有理论常识是不足的，我们还需要积聚实战履历。对付学生来讲，可以随着老师做项目，可以介入各类大数据比赛，也可以去公司实习。假如是介入比赛的话，一般角逐竣事后，前几名的算法会果真。我们要出格存眷一下他们的算法创新点，说不定在下一个项目中就能用上。

阿里巴巴第一届大数据比赛前9名团队的算法创新点整理：

第九：

缺失值填充。

思量了行为转移特征(譬喻曾经购置过该品牌，近期再次产生点击但尚未购置;近期从购物车转移到保藏夹)。

第八：

在LR模子中，用dummy coding的要领处理惩罚了所有的特征。

第七：

模子融合做得不错。别离用滑动窗口和牢靠窗口建模。再用LR举办一级模子融合，最后对第一级的预测功效举办平均融合。

第六：

对差异的用户-品牌范例举办了分类，并采纳了差异的处理惩罚要领。

第五：

对正例采纳上采样方法，负例采纳下采样方法。

先用一个欠拟合的random forest初始化gbrt的残差，再用一个树的棵树不是很大的gbrt来练习，从而可以或许在相对短的时间内获得比用较大棵树的gbrt还要高一些的机能。

第四：

对特征举办Laplace滑腻。

第三：

对数据举办归一化、分箱和去噪。

第二：

去除离群点。

第一：

用LR滤去高出80%的样本。

回收了神经网络算法。

关键字：