四年前我一次传闻数据挖掘这个词,三年前我进修了数据挖掘理论常识,两年前我做了几个与数据挖掘有关的项目,一年前我成为一名数据挖掘工程师,本日我把数据挖掘入门资料整理了一下,但愿可以或许对新人有辅佐。
一、python
推荐粗读《Head First Python》一书,该书浅显易懂,有C语言基本的人只需一天就能读完,并可以或许利用python举办简朴编程。“Head First”系列的数都很适合初学者,我还读过《Head First 设计模式》和《Head First Statistics》,感受都不错。不外后两本,我读得较量细也较量慢,究竟其时是首次打仗设计模式和统计学相关常识,书中许多对象对我而言都是全新的。而当我读《Head First Python》时,我已经把握了C、C++、java等多种编程语言,所以再看python就以为较量简朴了。学任何一种编程语言,必然要动手操练。python的集成开拓情况有许多,我小我私家较量青睐PyCharm。
用python做数据挖掘的人一般城市用到pandas数据阐明包。推荐阅读《pandas: powerful Python data analysis toolkit》文档,个中《10 Minutes to pandas》这一节能让你轻松上手pandas。读了这一节你会知道怎么用一句话获得数据的一些根基统计量(每一列特征的均值、尺度差、最大最小值、四分位点等),怎么简朴地实现多条件的过滤,怎么将两张表按key毗连,怎么将数据可视化。除了这篇文档,我还想推荐一本书《操作Python举办数据阐明》,这本书和之前文档的主要内容差不多。可以书和文档交错看,加深印象。与文档对比,书增加了数据应用等内容。与书对比,文档增加了与R、SQL比拟等内容。纵然是主题沟通的章节,譬喻画图,文档和书将常识组织起来的方法以及偏重点也有所差异。小我私家认为,文档和书都值得一看。
二、统计学
固然我也粗读过统计学的几本书,但从易懂性来说,都没有学校老师给的ppt好,可能说本身看书较量坚苦,可是听老师授课就很容易懂。所以,我发起有条件的同学可以或许选修统计学这门课,没条件的同学可以去网上找一些相关视频,配套书籍可以选择茆诗松的《概率论与数理统计》。别的,《Head First Statistics》一书可以用来预热。
学了统计学,你至少应该知道根基的抽样要领、毛病与方差的区别、奈何举办数据预处理惩罚、奈何整理和显示数据、数据漫衍的描写统计量有哪些、假设检讨是用来做什么的、置信区间的观念、R-squared的寄义等等。你需要相识各类图的浸染和合用场景,常用图包罗条形图、饼图、直方图、折线图、箱线图、散点图、雷达图等。你需要相识各类统计量的寄义,常见统计量包罗均值、方差、中位数、四分位数、加权平均数、偏态、峰态等。你需要相识一些重要的漫衍,好比正态漫衍、chi-square漫衍、t漫衍、F漫衍等。
三、呆板进修和数据挖掘
呆板进修资料首推吴恩达的《斯坦福大学果真课:呆板进修课程》视频。这20集视频确实是好视频,但对初学者来说难度偏大。我有了一点呆板进修方面的基本后,再去看该视频,还花了2.5倍的时间才根基看懂。每当我跟不上视频时,就会暂停可能回退,再仔细看看课件,所以看完视频花掉的时间是视频原时长的2.5倍。别的,周志华的《呆板进修》和李航的《统计进修要领》可以作为呆板进修入门书籍,经典课本《Pattern Recognition and Machine Learning》可以作为呆板进修进阶书籍,而《呆板进修实战》一书妙手把手地教你怎么实现呆板进修模子的底层算法(书中包括了大量的措施清单)。
数据挖掘方面,推荐Jiawei Han的《数据挖掘观念与技能》。该书较量容易读懂,内容遍及且实用性强,出格适合初学者。
四、其他资料和发起
除了系统化的进修专业常识,我们也可以天天接收一些碎片化的常识。譬喻,Quora上有不少关于呆板进修和数据挖掘的问答,其谜底质量普遍高于知乎,有乐趣的同学可以常去Quora的呆板进修相关版块走走。订阅好对象传送门的《呆板进修日报》是一个不错的选择。天天从日报中挑选1~2篇文章读读,可以扩展本身的常识面,同时养整每天进修的好习惯。
从Quora和《呆板进修日报》中获取的一些常识点:
随机丛林模子不适适用稀疏特征。
测试集必需利用与练习集沟通的要领举办预处理惩罚。
L1正则(特征选择)最小样本数目m与特征n呈log干系,m = O(log n) ;
L2正则(旋转稳定)最小样本数目m与特征n呈线性干系,m = O(n) 。
尺度的PCA是一种线性转换技能。
呈长尾漫衍的特征凡是需要举办对数转换。
线性SVM适合小样本。
AUC适相助为类不服衡问题的权衡尺度。
在nested k-foldcross validation中,“外层轮回”的目标是模子评估,“内层轮回”的目标是模子选择。
在样本数量较少的环境下,极大似然预计的结果比普通的最小二乘法差。
#p#分页标题#e#
想干数据挖掘这一行,光有理论常识是不足的,我们还需要积聚实战履历。对付学生来讲,可以随着老师做项目,可以介入各类大数据比赛,也可以去公司实习。假如是介入比赛的话,一般角逐竣事后,前几名的算法会果真。我们要出格存眷一下他们的算法创新点,说不定在下一个项目中就能用上。
阿里巴巴第一届大数据比赛前9名团队的算法创新点整理:
第九:
缺失值填充。
思量了行为转移特征(譬喻曾经购置过该品牌,近期再次产生点击但尚未购置;近期从购物车转移到保藏夹)。
第八:
在LR模子中,用dummy coding的要领处理惩罚了所有的特征。
第七:
模子融合做得不错。别离用滑动窗口和牢靠窗口建模。再用LR举办一级模子融合,最后对第一级的预测功效举办平均融合。
第六:
对差异的用户-品牌范例举办了分类,并采纳了差异的处理惩罚要领。
第五:
对正例采纳上采样方法,负例采纳下采样方法。
先用一个欠拟合的random forest初始化gbrt的残差,再用一个树的棵树不是很大的gbrt来练习,从而可以或许在相对短的时间内获得比用较大棵树的gbrt还要高一些的机能。
第四:
对特征举办Laplace滑腻。
第三:
对数据举办归一化、分箱和去噪。
第二:
去除离群点。
第一:
用LR滤去高出80%的样本。
回收了神经网络算法。