机器学习是一个庞大而跨学科的研究领域。
您可以通过机器学习获得令人印象深刻的结果,并找到极具挑战性问题的解决方案 但这只是更广泛的机器学习领域的一个小角落,通常称为预测建模或预测分析。
在这篇文章中,你将会发现如何改变你对机器学习的看法,以便为机器学习从业者提供最好的服务。
阅读这篇文章后,你会知道:
-
机器学习是什么以及它与人工智能和统计数据的关系。
-
你应该关注的机器学习的角落。
-
如何思考你的问题以及针对你的问题的机器学习解决方案。
让我们开始吧。
概观
这篇文章分为3个部分; 他们是:
-
你很疑惑
-
什么是机器学习?
-
你的机器学习
你很困惑
你有一个机器学习问题需要解决,但你对机器学习究竟是什么感到困惑。
有很好的理由感到困惑。初学者感到困惑。
机器学习是一个很大的研究领域,如果你专注于解决一个问题,并不是所有的东西都与你有关。
在这篇文章中,我希望为你解决一些问题。
我们将以最广泛的术语描述机器学习,以及它如何与统计学和人工智能等其他研究领域相关。
之后,我们将放大您在实际工程和问题解决方面确实需要了解的机器学习方面。
什么是机器学习?
机器学习是计算机科学领域,涉及学习的程序。
机器学习领域涉及如何构建能够随着经验自动改进的计算机程序的问题。
– 机器学习,1997。
这是非常广泛的。
有许多类型的学习,可以学习的许多类型的反馈,以及许多可以学习的东西。
这可能包括不同类型的学习,例如:
-
开发代码来调查生物群体如何在进化时间“学习”以适应环境。
-
开发代码来调查大脑中的一个神经元如何“响应来自其他神经元的刺激而”学习“。
-
开发代码来调查蚂蚁如何“学习”从家到食物来源的最佳路径。
我特意给出了这些深奥的例子,以帮助你真正确定机器学习是一个广泛和深远的研究计划。
您可能更熟悉的另一个案例是:
-
开发代码来研究如何在历史数据中“学习”模式。
这是不够迷人的,但是作为实践者对我们非常感兴趣的机器学习的小角落的基础。
这个角落与其他例子没有区别。在学习方法,基本任务,评估学习方式等方面可能会有很多重叠。
什么是人工智能?
机器学习是人工智能的一个子领域。
它与机器学习重叠。
人工智能也是计算机科学的一个领域,但它涉及开发聪明的程序,或者可以做智能的事情。
智力涉及学习,例如机器学习,但可能涉及其他问题,如推理,计划,记忆等等。
这可以包括不同类型的学习,例如:
-
开发代码来调查如何优化计划物流。
-
开发代码来调查如何推理一段文本。
-
开发代码来研究如何感知照片的内容。
人工智能通常是在环境中的代理人的背景下构建的,目的是解决某些问题,但情况并非如此。
机器学习可以简单地命名为人工学习,以保持与人工智能一致并帮助初学者。
线条模糊。机器学习问题也是人工智能问题。
统计数据如何?
统计学或计算机应用的统计学是数学的一个子领域,它涉及描述和理解数据中的关系。
这可以包括不同类型的学习,例如:
-
开发模型来总结变量的分布。
-
开发模型以最好地表征两个变量之间的关系。
-
开发模型来测试两个观察群体之间的相似性。
它也与对学习数据模式感兴趣的机器学习角落重叠。
用于理解统计数据的许多方法可用于机器学习,以学习数据中的模式。这些任务可以称为机器学习或应用统计。
你的机器学习
机器学习是一个很大的研究领域,它可以帮助您解决特定的问题。
但是你不需要知道所有这些。
-
你不是一个学习机器学习的学者,他们正在研究一种深奥的学习方式。
-
你并不想像人工智能那样制造智能代理。
-
您不想更多地了解变量与统计数据相互关联的原因。
事实上,当谈到在数据中学习关系时:
-
你没有研究算法的功能。
-
你不是在开发一个全新的理论或算法。
-
您不是将现有的机器学习算法扩展到新的案例。
这些可能是我们可能感兴趣的机器学习角落中的活动,但是对于学者而言,不是像您这样的从业者的活动。
那么你需要关注哪些机器学习部分?
我认为有两种方法可以考虑机器学习:
-
就你想解决的问题而言。
-
就您需要的解决方案而言。
你的机器学习问题
您的问题可以最好地描述如下:
找到一种模型或程序,最好地利用由输入和输出组成的历史数据,以便在未来对新的和未见的输入进行巧妙预测输出。
这是超级特定的。
首先,它放弃了机器学习的所有子领域,比如无监督学习,专注于一种称为监督学习的学习类型和所有适合该类学习的算法。
这并不意味着你不能利用无监督的方法; 这只意味着你不会把注意力集中在那里,至少不要从头开始。
其次,它给了你一个支配其他所有人的明确目标:那就是以牺牲其他问题为代价的模型技能,例如模型复杂性,模型可解释性等等。
同样,这并不意味着这些并不重要,只是将它们考虑在模型技能之后或与其结合使用。
第三,以这种方式构建你的问题很好地适合于另一个称为预测建模的研究领域。这是一个借鉴机器学习方法的研究领域,其目标是开发能够进行熟练预测的模型。
在某些业务领域,这个领域也可能被称为预测分析,并且不仅包含建模组件,还包括收集和准备数据以及部署和维护模型的相关活动。
最近,这个活动也可以称为数据科学,尽管这个短语除了解决问题之外,还具有发明或发现问题的内涵。
我认为这不重要,你称之为这项活动。但我认为重要的是要深刻理解您对机器学习的兴趣和使用是非常具体的,并且与学者的其他用途不同。
它允许你过滤你阅读的资料和你选择的工具,以便专注于你正在尝试解决的问题。
机器学习解决方案
您需要的解决方案最好描述如下:
自动创建历史数据中输入和相关输出之间的未知基础关系的最可能近似的模型或过程。
再一次,这是超级特定的。
您需要一种自动方法来生成可用于进行预测的程序或模型。
你不能坐下来写代码来解决你的问题。它完全是针对数据的,而且你有很多数据。
事实上,这种类型的问题抵制自上而下的手工编码解决方案。如果你可以坐下来写一些if语句来解决你的问题,你就不需要机器学习解决方案。这将是一个编程问题。
您需要的机器学习方法类型将了解历史数据中输入和输出之间的关系。
这种框架可以让您思考真实的潜在但尚未知的映射函数的样子,以及噪声,腐败和历史数据采样如何影响由不同建模方法进行的映射的近似值。
没有这个框架,你会想知道如下事情:
-
为什么不只有一个超级算法或一组参数。
-
为什么专家不能告诉你使用什么算法。
-
为什么用你的模型预测不能达到零误差率?
它可以帮助您看到您尝试解决的预测建模问题的不确定性,并设定合理的期望值。
下一步
现在您已经知道如何思考机器学习,下一步就是开始您的学习机器学习之路。
翻译:天才写手
Ref:https://machinelearningmastery.com/think-machine-learning/