智源研究院发布世界首个“机器学习通用数学符号集”
● ● ●
上周举行的智源大会嘉宾众多、信息量巨大,相信很多老师同学都会觉得有点应接不暇吧。智源研究院在大会上有很多重要的发布,因为时间关系,来不及展开。今天我们要好好说说其中非常有意义的一项。这就是智源研究院组织的协作成果——世界首个“机器学习通用数学符号集”。
这件事儿为什么重要呢?人工智能很大程度上是基于数学的,需要采用数学符号来表达、交流和学习。
数学符号,就是用一套符号来表示数学概念、数学关系。
数学史学家梁宗巨曾如此评价它们的意义:“它能够精确、深刻地表达某种概念、方法和逻辑关系。一个较复杂的公式,如果不用符号而用日常语言来叙述,往往十分冗长而且含混不清。”中国早在六七千年前的陶器上,就刻画有表达计数意义的符号图形。自世界历史步入15世纪以来,数学符号更是取得了迅速的发展:比如1489年德国数学家魏德曼首次使用了加减号,1591年法国数学韦达开始使用括号“()”,1859年哈佛大学B·佩尔斯开始使用“π”等等,迄今为止已经发展成超过200个符号的符号体系集,也使得数学作为科研研究的通用符号语言,为现代科学的蓬勃发展起着举足轻重的作用。计算机领域同样如此,1979年图灵奖获得者 Kenneth E. Iverson ,在其获奖演说中认为数学符号“可以让大脑自由地专注于更高级的问题”,并可以作为一种连贯的语言,有效地表达计算机编程语言的可执行性和通用性。
现在,数学符号同样开始成为各国AI学者、产业创新者用来研究、学习和交流人工智能理论和技术的主要媒介。
但在人工智能、机器学习等新兴学科,方兴未艾的数学符号集尚存在符号不统一、容易混淆的问题,这在某种程度上阻挠了人工智能理论和技术交流的快速发展需要。为了解决这方面的问题,北京智源人工智能研究院正式发布学术界首个机器学习领域的通用数学符号集。这个数学符号设计项目的第一版,由上海交通大学副教授许志钦,普渡大学的罗涛和马征,普林斯顿高等研究所的张耀宇等学者,秉承“准确、自洽和直观”的原则,共同组织设计完成。这些学者来自计算数学、计算神经科学、偏微分方程、深度学习理论等领域,他们征集了许多机器学习领域的研究人员的意见。此外,智源研究院首席科学家、北京大学数学学院张平文教授对这个项目也给予了指导性建议和支持。
下面,我们从这套数学符号的作用、内容和设计原则等几个方面,进行详细介绍。
数学符号集的意义:统一规范,提高交流效率
智源研究院发布的这套数学符号集,主要特色便是针对一些非常常用且容易混淆的符号,给出了一套标准化的建议,为解决以下问题提供基础:1)在论文写作过程中常用符号的选择问题;2)由符号混乱导致的交流问题。它的意义具体表现为如下几个方面。
提升文献阅读速度。理论文章通常需要有一节专门介绍符号使用,而后的定理中常常不再介绍符号的意义。当符号多的时候,常常需要往前查阅符号的意义。
避免误解文章的本意。文章量大的情况下,有时读文章会直接读定理,对符号的理解是基于自己平时的习惯。符号混乱的情况可能会导致误解定理本身的含义。比如,m, n, M, N, 经常被用来指神经元数目和采样数目,但没有统一的规范。一旦混淆,就会导致误解。
有效提升交流效率。在学术报告中,给听众理解内容的时间很短。记忆和辨识符号的含义会给听众带来较大的负担,并可能导致听众跟不上或者错误理解报告内容。比如f有时表示目标函数,有时用来表示神经网络。在一些情况下,f的含义很难短时间内通过上下文分辨,从而影响听众理解。
降低符号理解难度。降低机器学习领域新进研究者阅读符号以及在论文写作中选择符号的难度。
下面,我们用几个例子来说明,在机器学习领域对于统一个概念,当存在不同的表达方式时会带来诸多不便。我们选择2018和2019两年内比较重要的研究方向:平均场理论(Mean field theory)、神经正切核理论(Neural Tangent kernel theory)、过参数化神经网寻找全局最小(Over-parameterized network finds global minima),列举了相关论文中对于同一研究问题的不同符号选择。这些符号的差异增加了论文读者的符号记忆负担,提高了准确理解内容的难度。
数学符号集的主要内容:常用、重要和关键符号
本次发布的数学符号集,所选的主要是机器学习领域中常用、重要且对文章理解比较关键的一些符号。整套符号集包括:数据集合(Dataset)、函数(Function)、损失函数(Loss function)、激活函数(Activation function)、双层神经网络(Two-layer neural network)、通用深度神经网络(General deep neural network)、复杂性(Complexity)、训练(Training)、傅里叶频率(Fourier Frequency)、卷积(Convolution)等类别。同时我们提供了这些符号的LaTex代码,方便大家使用。
下面,我们列举几个数学符号的设计思路。
需要说明的是,目前这套数学符号集作为第一版目前还没有囊括机器学习领域所有的符号定义,对于强化学习,生成网络,循环网络等的一些符号目前都还没完全考虑进来,在后续的版本更新中,我们会根据领域发展慢慢完善更多符号的定义。
数学符号集的设计原则:准确、自洽和直观
鉴于机器学习属于交叉领域,每个领域有自己偏好的符号,所以我们设计这套数学符号集的基本标准,是准确、自洽和直观,能将现有的符号进行统一,能结合数学和机器学习一般的使用习惯,以便实现看到符号便知其义。
目前,这套数学符号集已经发给一些机器学习领域的研究人员们试用,它的适用性已经得到了同行们初步的肯定和验证,我们希望这次的正式发布能够抛砖引玉,吸引更多人参与到机器学习符号标准的建设中来。欢迎大家持续关注我们以后的定期版本更新。
https://github.com/Mayuyu/suggested-notation-for-machine-learning
欢迎大家通过GitHub提供反馈。
[1]Mei et al., 2019, A mean field view of the landscape of two-layer neural networks
[2]Rotskoff et al., 2018, Parameters as interacting particles: long time convergence and asymptotic error scaling of neural networks
[3]Sirignano et al., 2018, Mean Field Analysis of Neural Networks
[4]Jacot et al., 2018, Neural Tangent Kernel: Convergence and Generalization in Neural Networks
[5]Arora et al., 2019, On Exact Computation with an Infinitely Wide Neural Net
[6]Du et al., 2018, Gradient Descent Finds Global Minima of Deep Neural Networks
[7]Zou et al., 2018, Stochastic Gradient Descent Optimizes Over-parameterized Deep ReLU Networks
[8]Allen-Zhu et al., 2018, A Convergence Theory for Deep Learning via Over-Parameterization
注:本文转载自北京智源人工智能研究院。