自从几年前推出张量处理器以来,已经开发了新一波的硅专用架构,包括混合 CPU。ARM 和 Intel 现在正在推出专门为机器学习和其他形式的人工智能设计的新产品。
2000 年代中期,英国-加拿大研究员 Geoffrey Hinton,即逻辑学家 George Boole 的曾孙,做出了计算机科学中最重要的发现之一:如何有效地训练新的神经网络层。[1] Hilton 的理论为机器学习 (ML) 铺平了道路,让机器学习成为当今大多数人工智能应用的基础。
神经网络大量需要两个基本组件:计算能力和数据。
虽然自 20 世纪 50 年代以来,就存在关于使用神经网络实现人工智能的理论和实验,但真正应用所需的处理能力和大量数据直到本世纪才出现。
今天,我们的智能手机处理能力比美国宇航局用来将第一个人类送上月球的计算机还要高出数百万倍。此外,互联网每时每刻都在收集数以十亿计的各类数据单元,只要有图像、文本、视频、点击、推文等即可。
张量处理器为 ML 和 AI 提供新的能力
随着传统软件让位于新的人工智能算法,对计算机处理技术的要求正在发生变化。机器学习需要对复杂的数学模型进行即时处理,而 Intel 和 ARM 等公司常用的处理核心并不是专门为此而设计的。
ML 的成功以及众多不同领域对 AI 的需求,掀起了一场构建下一代 AI 芯片的竞赛。
最初,这一空白由 Nvidia 填补,该公司利用其在电子游戏硬件方面的专长,借助图形处理背后的算法来满足 AI 的新要求。2016 年至 2018 年间,Nvidia 成为芯片市场上从机器学习到加密货币挖矿的首选,其股价也上涨了 10 倍。
Microsoft 等公司长期以来一直避免自己制造芯片,现在却正在加大对这一领域的投资。Intel 也加入了竞争,它正与 Facebook 合作,测试其首款 AI 专用芯片。[2]
2016 年,谷歌宣布推出一种用于“深度学习推理”的新处理器架构,称为张量处理单元 (TPU)。[3] 从一开始,谷歌的 TPU 就负责提高 Google Maps 和 Street View 等地图应用的准确性。
第二代和第三代 TPU 是谷歌在 2017 年 5 月和 2018 年 5 月宣布推出的。第二代设计将带宽提高到 600 GB/s,性能提高到 45 万亿次浮点运算,第三代的性能比上一代提高了一倍。
2018 年 7 月,谷歌宣布推出 Edge TPU,这是一款专门为边缘计算运行 ML 模型而设计的 ASIC 芯片。[4]
如今,Nvidia 和其他 AI 芯片供应商将 TPU 与他们自己的技术相结合,生产出能够处理不同应用的 SoC,包括自动驾驶和人脸识别。Nvidia 还销售 Jetson,这是一种 ML 动力源,针对需要在给定功耗下获得强大深度神经网络性能的非移动设备。[5]
最近,Nvidia 宣布推出一种新的芯片设计 Grace[6](以美国计算机编程先驱 Grace Hopper 的名字命名),该芯片计划于 2023 年用于巨型超级计算机上。这种主要使用 ARM 技术的新架构将使运行复杂的 AI 计算任务成为可能,而这些任务在当今的芯片设计中是不可能实现的,从而使计算机向通用人工智能向前迈进了一步。
ARM 已开发新的神经网络架构
在过去的几年里,以热门的 Cortex 架构而闻名的 ARM 开发了新一代神经处理单元 (NPU),即 Ethos NPU[7] 系列。Ethos 系列旨在与 Cortex 内核配合使用。与传统的 NPU 相比,这种组合可提高性能和功率效率,从而能够开发出经济高效且高性能的边缘 ML 产品。
ARM 技术的优势在于,在低功耗应用中表现更佳,专门针对物联网市场。它的技术是专为集成到数百万互联设备中使用的低功耗 SoC 而设计的。
Ethos 处理核心可以利用云中开发的训练有素的机器学习算法,并在边缘运行应用程序,以获得即时结果。虽然这些核心最初不是为复杂的 ML 训练而设计的,但它们的性能可以在边缘计算任务中与一些较大的竞争对手相媲美,而成本和功耗只占一小部分。
例如,据 ARM 称,Ethos-U65 的 512-GOPS 实现在 1 GHz 下运行时,在运行流行的 MobileNet_v2 深度神经网络的情况下,能够在不到 3 毫秒的时间内完成对象识别。[8]
NXP Semiconductors 目前正在使用 Ethos-U65 microNPU,与 NXP 的 i.MX 系列中已有的 Cortex-M 内核和片上 SRAM 协同工作。[9]
除 Ethos U 系列外,ARM 还设计了 Ethos N 系列,[10] 目标是智能手机、车载信息娱乐系统和数字电视等主流消费产品。目前 Ethos N 系列正被用于互联车辆,以提供新的智能功能,如访问控制、驾驶员警觉性或语音识别,所有这些都有助于提高驾驶安全性。
在智能手机上,Ethos N 系列适合扩展板载 CPU 的处理能力,具有增强现实、虚拟现实和 ML 功能等特点。
量子计算将为下一代 AI 解决方案提供动力
“30 多年来,物理学家一直在谈论量子计算的力量,但问题一直是:量子计算有用吗?值得投资吗?”谷歌量子硬件首席科学家 John Martinis 表示。[11]
三年多来,大众一直与谷歌合作,将量子计算用于各种应用,包括加快训练神经网络的时间,而神经网络是自动驾驶汽车的关键技术之一。[12]
“我们面临着许多高性能计算需求,”大众汽车首席信息官 Martin Hofmann 表示。“问题是,有更好的办法吗?”
根据 IBM 的说法,“使用当今有限的量子计算机已经给世界各地的研究人员带来了好处,对自然界支配法则的内在运作情况提供了一个前所未有的视角,也为解决化学、模拟、优化、人工智能和其他领域的问题提供了一个新的角度。”[13]
虽然在大多数应用中实现量子计算的能力还为时过早,但在实验中获得的结果至少令人刮目相看。谷歌新推出的 54 量子位处理器“Sycamore”[14]花 200 秒钟就完成了一项量子霸权实验,而世界上最快的超级计算机需要 10,000 年才能产生类似的输出。
“在谷歌云服务器上,我们估计使用薛定谔-费曼算法以 0.1% 的保真度对 m = 20 执行同样的任务,将花费 50 万亿个核心小时,并消耗 1 拍瓦小时的能量。”[15]
走向通用人工智能
这些技术的实施不仅仅让 AI 和 ML 成为可能。它还创造了一种信念,即我们即将实现被认为是 AI 研究的圣杯——通用人工智能 (AGI):机器能够自己思考并模仿人类执行智力任务等等。
Nvidia 的 Grace 和谷歌的 Sycamore 等强大的处理器,加上新算法与大量新数据,将世界推向人工智能的新时代。
[1] http://www.cs.toronto.edu/~hinton/absps/cbpweb.pdf
[2] https://finance.yahoo.com/news/intel-working-facebook-ai-chip-013746099.html
[3] https://cloud.google.com/blog/products/gcp/google-supercharges-machine-learning-tasks-with-custom-chip
[4] https://coral.ai/docs/edgetpu/benchmarks/
[5] https://www.forbes.com/sites/patrickmoorhead/2017/03/15/nvidia-introduces-jetson-tx2-for-edge-machine-learning-with-high-quality-customers/
[6] https://nvidianews.nvidia.com/news/nvidia-announces-cpu-for-giant-ai-and-high-performance-computing-workloads
[7] https://www.arm.com/solutions/artificial-intelligence
[8] https://developer.arm.com/ip-products/processors/machine-learning/arm-ethos-u/ethos-u65
[9] https://www.nxp.com/company/blog/why-the-arm-ethos-u65-micronpu-is-a-big-deal-and-how-it-came-to-be-this-way:BL-ARM-ETHOS-U65-MICRONPU
[10] https://www.arm.com/products/silicon-ip-cpu/ethos/ethos-n57
[11] https://ai.googleblog.com/2019/10/quantum-supremacy-using-programmable.html
[12] https://blogs.wsj.com/cio/2017/11/07/vw-expands-its-quantum-computing-research-with-google/
[13] https://www.ibm.com/blogs/research/2021/04/quantum-accelerate-discoveries/
[14]“Sycamore 处理器 - 维基百科。”https://en.wikipedia.org/wiki/Sycamore_processor.
[15] Arute, F., Arya, K., Babbush, R. et al. Quantum supremacy using a programmable superconducting processor.Nature 574, 505–510 (2019). https://doi.org/10.1038/s41586-019-1666-5