微积分与最优化:最终解决方案的落地手段

微积分与最优化:最终解决方案的落地手段

机器学习中,数学为什么重要?

大家好,我是张雨萌,毕业于清华大学计算机系,目前从事自然语言处理相关的研究工作。撰写《机器学习中的数学》系列专栏并和大家一起共同交流学习,是我们准备了很久的一个计划。

当下,机器学习、人工智能领域吸引了许多有志者投身其中,其中包含了大量非科班出身或从其他行业切换赛道转行而来的朋友。大家在学习的过程中经常会感觉学习曲线陡峭、难度较大,而机器学习之所以这么难,首要原因就是数学知识需要得太多了

的确如此,机器学习是一个综合性强、知识栈长的学科,需要大量的前序知识作为铺垫。其中最核心的就是:绝大多数算法模型和实际应用都依赖于以概率统计线性代数微积分为代表的数学理论和思想方法。

比方说吧,如果你想对高维数据进行降维分析,提取和聚焦其主成分,需要的就是线性代数中空间的概念和矩阵分解的技巧;想理解神经网络的训练过程,离不开多元微分和优化方法;想过滤垃圾邮件,不具备概率论中的贝叶斯思维恐怕不行;想试着进行一段语音识别,则必须要理解随机过程中的隐马尔科夫模型;想通过一个数据样本集推测出这类对象的总体特征,统计学中的估计理论和大数定理的思想必须得建立。因此,数学基础是机器学习绕不开的重要阵地

机器学习中,三部分数学知识各自扮演什么角色?

针对这三部分内容,我们在近期依次推出了 《机器学习中的数学:概率统计》《机器学习中的数学:线性代数》《机器学习中的数学:微积分与最优化》 三个专栏。

在进入到微积分与最优化这部分之前,我们先来看看这三部分数学知识在机器学习中各自扮演着什么样的角色,并梳理一下学科的内在逻辑。

第一:概率统计是利用数据发现规律、推测未知的思想方法

「发现规律、推测未知」也正是机器学习的目标,所以两者的目标高度一致。机器学习中的思想方法和核心算法大多构筑在统计思维方法之上。本专栏介绍的核心概率思想和基础概念将围绕着条件概率、随机变量、随机过程、极限思想、统计推断、概率图等内容展开。

第二:线性代数是利用空间投射和表征数据的基本工具

通过线性代数,我们可以灵活地对数据进行各种变换,从而直观清晰地挖掘出数据的主要特征和不同维度的信息。整个线性代数的主干就是空间变换,我们将从构筑空间、近似拟合、相似矩阵、数据降维这四大板块,环环相扣地呈现出与机器学习算法紧密相关的最核心内容。

第三:微积分与最优化是机器学习模型中最终解决方案的落地手段

当我们建立好算法模型之后,问题的最终求解往往都会涉及到优化问题。在探寻数据空间极值的过程中,如果没有微分理论和计算方法作为支撑,任何漂亮的模型都无法落地。因此,夯实多元微分的基本概念,掌握最优化的实现方法,是通向最终解决方案的必经之路。

微积分与最优化有什么用?

作为《机器学习里的数学》系列的第三季,我们开始讨论机器学习里的微积分与最优化

微积分与最优化,是机器学习模型中问题最终解决方案的落地手段。当我们分析具体问题,并建立好算法模型后,问题的最终求解过程往往都会涉及到优化问题,因此我们需要去探寻数据空间中的极值。这一切如果没有微分理论和计算方法作为支撑,任何漂亮的模型都无法落地。因此夯实多元微分的基本概念,掌握最优化的实现方法,是通往问题最终解决方案的必经之路。

在机器学习的实践中,对于一个函数,尤其是多元函数而言,读者需要面对许多非常重要的概念和方法问题:

  • 我们常说的导数和微分的背后的几何含义是什么?我们常常听说的链式法则又是如何运转的?
  • 对于一个连续的函数,我们是如何基于不同阶数的导数,在指定点处,利用有限的级数项之和对函数进行近似?
  • 多元函数中的梯度指示出了怎样的重要信息?我们如何利用它去寻找函数的极值?
  • 利用程序进行函数极值求解时,如何利用不断迭代的方法在连续的函数中实现我们的目标?
  • 梯度法、最速下降法、牛顿法,这些极值求解的具体方法是如何实现的?各有什么优点和不足?

这些微积分中的重要问题和概念,是理解和实现优化方法的重中之重。

因此,在《机器学习中的数学:微积分与最优化》中,我们将重点落实微分基础多元分析优化基础多元极值这四部分内容,一次讲清楚优化算法中最为关键的基本概念和方法。

专栏的亮点和特色

  • 篇幅短小精悍,帮你提炼重点:这不是一个大而全的高等数学课程,而是一个简明扼要的专栏,解决的是机器学习中最优化问题所需要的核心基础概念,但对于最重要的微分基础多元分析优化基础多元极值四部分知识,我们则进行庖丁解牛式的透彻讲解。
  • 使用 Python 工具,无缝对接工程:教你用熟、用好 NumPy、SciPy、Matplotlib、Pandas 等工具库,无缝对接工程实践应用。
  • 结合优化算法,提升学习效率: 结合实际的典型优化算法,分析、讲解微积分内容,通过更强的导向性和目标性,大幅度提升学习效率。

avatar

设计思路

我们将通过专栏的四大核心板块向你依次展现机器学习所需的微积分核心内容。

第 1 部分:微分基础。这一部分从一元函数的导数和微分入手,快速理清连续与可微、切线与导数等重要概念,巩固核心基础,同时从切线的几何意义出发顺势引出微分的数值求法。在此基础上进一步讨论一元函数的泰勒近似,引导读者利用高阶导数基于有限的级数项,在指定点对函数进行近似处理。

第 2 部分:多元分析。这一部分由一元过渡到多元函数,导数与微分的概念得以进一步完善和深化,引出多元函数的极限、连续以及偏导数,并在多元微分的几何意义的基础上,讨论了多元函数的泰勒近似。同时从偏导数的几何意义出发,引出这一部分最为重要的概念:多元函数的梯度向量和黑塞矩阵,探究梯度与函数值变化的重要关系,为后面的优化方法打好基础。

第 3 部分:优化基础。这一部分讨论了最优化的概念基础,首先我们分析最优化问题的由来和背景,然后重点讨论函数极值存在的条件以及探索函数极值过程中常用的迭代法。

第 4 部分:多元极值。这一部分面向几个典型的实际算法,分别举了多元函数极值求取的一阶方法和二阶方法的典型例子,对许多材料中耳熟能详、反复出现的梯度法、最速下降法以及牛顿法都进行了深入的介绍和完整的实现。同时综合整个四部分内容,整合微分与优化的完整知识闭环。

avatar

让我们一起开始这段学习旅程!

万丈高楼平地起,希望《机器学习中的数学》系列专栏能陪伴大家走好机器学习的学习与实践的必经之路、梳理纷繁复杂的知识网络、构筑好算法模型的数学基础。更重要的是,我希望我们能一起形成一种思维习惯:源于理论,我们条分缕析;面向实践,我们学以致用。 有了扎实的数学理论和方法基础,相信同学们都能登高望远、一往无前。

分享交流

我们为本专栏付费读者创建了微信交流群,以便更有针对性地讨论专栏相关的问题(入群方式请在第 3 篇末尾查看)。

上一篇
下一篇