AI 演算法进展速度超越摩尔定律-黑科技

对于“未来的演算法能与现有半导体晶片或正在开发之新运算架构契合”这件事,我们能抱持多大的信心?随着演算法的进展速度超越硬体技术进展进步,甚至是最先进的深度学习模型都可以被布署于只要 5 美元的 Raspberry Pi 开发板。

在 1980 年代的处理器上执行目前最先进的演算法,与在目前最先进的处理器上执行 1980 年代之演算法,哪一种可以算得更快?答案令人惊讶,通常是在旧处理器上执行新演算法能算得更快。虽然摩尔定律(Moore's Law)因为是电子产业快速发展的驱动力而备受关注,但它只是驱动力的其中之一,我们经常忘记演算法的进展速度其实在很多情况下都胜过摩尔定律。

根据德国柏林工业大学教授、知名数学家 Martin Grötschel 的观察,在 1988 年需要花费 82 年才能算出解答的一个线性程式设计问题,在 2003 年只需要 1 分钟就能解决;在这段时间,硬体的速度快了 1,000 倍,演算法的进步则达到 4 万 3,000 倍。

美国麻省理工学院(MIT)教授 Dimitris Bertsimas 的类似研究结果显示,在 1991 年至 2013 年间,混合整数求解器(mixed integer solvers)演算法速度快了 58 万倍,同时间顶尖超级电脑的硬体速度只有进步 32 万倍。据说类似的结果也发生在其他类型的约束最佳化(constrained optimization)问题和质因数分解(prime number factorization)问题中。

这对人工智慧(AI)意味着什么?

过去五年来,AI 无论在学界、业界或是新创领域都呈现爆炸性发展,最大的转折点可能是发生在 2012 年,当时一个来自加拿大多伦多大学(University of Toronto)的团队 AlexNet,利用深度学习方法一举赢得了年度电脑视觉影像辨识大赛 ImageNet Large Scale Visual Recognition Challenge (ILSVRC)冠军,自此深度学习就成为实现 AI 的关键方程式。

电脑视觉的演进已蔓延至自然语言处理和其他 AI 领域。智慧喇叭、即时电脑翻译、机器人对冲基金(robotic hedge funds),以及 web 参考引擎(web reference engines)…等等新产物,已经不会再让我们感到惊讶。

AI 也成为了交通运输产业的驱动力(这也是 Autotech Ventures 的投资标的之一);我们已经观察到,先进驾驶辅助系统(ADAS)、自动驾驶、车队检测(fleet inspection)、制造品质控制,以及车载人机介面等等应用领域具备庞大的发展潜力。到目前为止,我们已经投资了几家在诸如 ADAS、自动驾驶、视觉检测与边缘运算等应用领域开发 AI 解决方案的新创公司,在分析这些商机时,演算法和硬体之间的交互作用是我们进行投资决策时的关键考虑因素之一。

大众对 AI 硬体的关注

基于深度学习的 AI 在其转折点之后,出现了对绘图处理器(GPU)的强劲需求。由于具备很强的平行运算能力,GPU 对于深度学习演算法所采用的逻辑碰巧能展现惊人效率;GPU 大厂 Nvidia 在市场竞争中脱颖而出,其股价从 2013 年到 2018 年上涨了 20 倍。

当然,Nvidia 竞争对手们正在努力追赶;高通(Qualcomm)、Arm 和其他公司将注意力集中在 AI 晶片设计上,英特尔(Intel)则收购了 AI 晶片新创公司 Nervana Systems。Google、Facebook、苹果(Apple)和亚马逊(Amazon)纷纷投入了为自家资料中心及其他计画开发自有 AI 处理器,也有一些新创公司(例如 Graphcore、Mythic、Wave Computing、Cerebras 和 SambaNova)看准商机,试图设计更好的图灵机(Turing machine)系统。像 D-wave Systems 和 IBM 等其他一些公司也在积极探索后图灵时代的架构。大多数晶片开发的目标是赶上或超过 Nvidia。然而,据我们所知,大多数处理器都是针对今日的 AI 演算法进行设计。

尽管需要庞大的前期开发成本,我们仍将经历各种 AI 晶片设计的「寒武纪大爆发」。AI 前景如此诱人,让产业玩家愿意投入巨资开发硬体,在以往是要让硬体与基础数学演算法匹配,但对于让现有半导体晶片或正在开发的新运算架构能与未来的演算法契合,我们有多大的信心?

有鉴于演算法的演进速度和幅度变化是如此之快,许多 AI 晶片设计可能还没上市就过时了;我们推测明日的 AI 演算法可能会需要完全不同的运算架构、记忆体资源,以及资料传输能力等等条件。

尽管深度学习框架已经出现很长一段时间,直到最近才真正被付诸实现,这要感谢摩尔定律所预测的硬体技术进展。最初的数学不一定是为工程实践而设计的,因为早期研究人员无法想像今日花 1,000 美元就能获得的运算能力有多么大。现今许多 AI 实作都是使用原始的数学模型,朝着准确、简单且更深层的方向发展,或者添加更多资料;但这样只会很快消耗 GPU 的运算容量。只有一小部分研究人员专注于改善基础数学和演算法框架的难题。

还是有很多机会认识并利用这些新颖的数学进展,我们所观察到的方法包括精简冗余数学运算(redundant mathematical operations)而减少运算时间,将卷积压缩到较小的矩阵而减少记忆体需求,或者对加权矩阵进行二值化(binarize)而简化数学运算。这些是演算法演进的第一次尝试,其发展之快已经开始超越硬体进展。

举例来说,从美国加州大学柏克莱分校(UC Berkeley)研究专案独立的 DeepScale ,就是将应用于 ADAS 和自动驾驶的 AI,「塞进」车用晶片(不是 GPU),与仅采用演算法的物体检测模型相比较,他们的神经网路模型的运算速度要快 30 倍,同时在功耗和记忆体占用方面也有很大的提升,足以在这几年问世的现有硬体上执行。

另一个演算法大跃进的案例来自美国的非营利研究机构艾伦人工智慧研究所(Allen Institute of Artificial Intelligence),该机​​构研究人员采用一种利用神经网路二值化的创新数学方法,已经证明可以大幅提高速度,同时降低功耗和记忆体要求;如此甚至能让最先进的深度学习模型布署于售价仅 5 美元的 Raspberry Pi 平台上。研究人员最近将这种演算法和处理工具独立为一家公司 XNOR.ai,旨在于边缘装置布署 AI,并进一步推动 AI 演算法的进步。

有趣的是,新的二值化框架从根本上改变了最佳处理逻辑的类型,它们不再需要解决神经网路所需的32位元浮点卷积,而只需要进行位元计数运算( bit counting operations)——这将改变 GPU 领域的权力平衡。此外如果这些演算法与专门设计的晶片相匹配,则可以进一步降低运算资源需求。

演算法的进步不会停止;有时需要数年甚至数十年才能发明(或者说是发现)新的演算法。这些突破无法以与摩尔定律推动的运算进展相同之方式来预测。它们本质上是非确定性的;但是当它们发生时,整个局势变化通常会让现有的主导者变成脆弱的猎物。

黑天鹅效应

畅销书《黑天鹅效应:如何及早发现最不可能发生但总是发生的事》的作者在书中阐明,最佳决策在很大程度上取决于分析过程是不可预测或不确定;换句话说,我们是在处理「已知的未知」(known unknowns)还是「未知的未知」(unknown unknowns)?演算法创新基本上是未知的未知,因为它们的发现时间不确定以及影响不可预测,押注于这类发展需要持续的关注。

然而,在应用数学领域,尤其是 AI 应用领域,在最近二十年内出现了数次颠覆性的演算法发现,它们与 GPU 一起,将 AI 从一个不起眼的研究领域带到了商业化最前线。

我们意识到这些运算领域「黑天鹅」的潜力,它们将使现有晶片架构成为过去,或者在一夜之间让它们的市场地位重新洗牌。对我们来说,这些「黑天鹅」最后可能会实现更安全的自动驾驶车辆,以及许多其他未知的应用案例。