Depuis l’émergence des unités de traitement de tenseur il y a quelques années, une nouvelle vague d’architectures à base de silicium, et notamment de processeurs hybrides, a déferlé sur le marché. ARM et Intel lancent désormais de nouveaux produits spécialement conçus pour le machine learning et d’autres formes d’intelligence artificielle.
Au milieu des années 2000, le chercheur britannique et canadien, Geoffrey Hinton, qui est aussi l’arrière-arrière petit fils du logicien George Boole, a fait une découverte majeure pour le monde de l’informatique : comment entraîner efficacement les nouvelles couches de réseaux neuronaux.[1] Les théories de Hilton ont ouvert la voie au machine learning (ML), jetant ainsi les bases de la plupart des applications d’intelligence artificielle utilisées aujourd’hui.
Les réseaux neuronaux ont besoin de deux composants essentiels en grande quantité : la puissance de calcul et les données.
Même si les théories et les expériences sur l’utilisation des réseaux neuronaux pour l’IA existent depuis les années 50, les capacités de traitement et les immenses quantités de données nécessaires aux applications réelles n’ont vu le jour qu’au cours de ce siècle.
Aujourd’hui, nos smartphones sont plusieurs millions de fois plus puissants que les ordinateurs que la NASA a utilisé pour envoyer le premier homme dans l’espace. De plus, chaque seconde qui passe, Internet collecte plusieurs milliards de données de toutes sortes, qu’il s’agisse d’images, de texte, de vidéos, de clics, de tweets, etc.
Les unités de traitement de tenseur offrent de nouvelles capacités pour le ML et l’IA
À mesure que les logiciels traditionnels laissent la voie libre aux nouveaux algorithmes d’IA, les exigences en matière de technologies de traitement informatique évoluent. Le machine learning requiert de traiter à la volée des modèles mathématiques complexes, et les cœurs de processeurs courants, produits par des entreprises telles qu’Intel et ARM, ne sont pas vraiment prévus à cet effet.
Le succès du ML et la demande d’IA dans différents domaines a sonné le départ d’une course au développement de la puce d’IA de nouvelle génération.
À l’origine, cette niche était exploitée par Nvidia, qui a tiré parti de son expertise en matériel de jeux vidéo pour mettre les algorithmes de traitement graphique au service des nouvelles exigences de l’IA. Entre 2016 et 2018, Nvidia est devenue la référence sur le marché des puces, dans tous les domaines, du machine learning au minage de cryptomonnaies, voyant ainsi la cote de ses actions se décupler.
Des entreprises comme Microsoft, qui ont longtemps évité de fabriquer leurs propres puces, investissent désormais pleinement sur ce segment. Intel a également rejoint la course et collabore avec Facebook pour tester sa première IA à base de silicium.[2]
En 2016, Google a annoncé une nouvelle architecture de processeur pour une « inférence de deep learning » connue sous le nom d’unité de traitement de tenseur (TPU).[3] À l’origine, les TPU de Google étaient chargés d’améliorer la précision des applications de cartographie telles que Google Maps et Street View.
Les deuxième et troisième générations de TPU ont été annoncées par Google en mai 2017 and mai 2018. La deuxième génération a augmenté la bande passante jusqu’à 600 Go/s et la performance jusqu’à 45 téraflops, tandis que la troisième génération a doublé ces performances.
En juillet 2018, Google a annoncé le Edge TPU, un ASIC conçu sur mesure pour exécuter des modèles de ML pour l’Edge Computing.[4]
Aujourd’hui, Nvidia et d’autres fournisseurs de puce d’IA utilisent des TPU associés à leur propre technologie pour produire des systèmes sur puce capables de gérer différentes applications, y compris la conduite de véhicules autonomes et la reconnaissance faciale. Nvidia vend également le Jetson, un ML puissant destiné aux appareils non mobiles nécessitant un réseau neuronal profond et de hautes performances pour une consommation énergétique donnée.[5]
Plus récemment, Nvidia a annoncé Grace[6] — qui s’inspire de Grace Hopper, la pionnière américaine de la programmation informatique —, une nouvelle conception de puce pour superordinateurs à puissance de calcul gargantuesque en 2023. Cette nouvelle architecture, qui exploite principalement la technologie ARM, facilitera l’exécution de calculs complexes d’IA, aujourd’hui impossibles à réaliser avec les conceptions de puce actuelles, propulsant ainsi la technologie vers son but ultime : l’intelligence artificielle générale.
ARM a développé de nouvelles architectures de réseaux neuronaux
Ces dernières années, ARM, connue pour sa célèbre architecture Cortex, a développé une nouvelle génération d’unité de traitement neuronal (NPU) : la série de NPU Ethos[7]. La série Ethos est conçue pour fonctionner avec les cœurs Cortex. Cette combinaison a permis d’améliorer la performance et l’efficacité énergétique par rapport aux NPU conventionnels, facilitant ainsi le développement de produits de ML de hautes performances et à moindres coûts pour l’Edge Computing.
L’avantage de la technologie ARM est qu’elle gagne en efficacité avec des applications de faible puissance, ciblant ainsi le marché de l’Internet des Objets. Sa technologie est spécialement conçue pour s’intégrer aux systèmes sur puce de faible puissance utilisés dans des millions d’appareils connectés.
Les cœurs de traitement Ethos tirent parti des algorithmes entraînés de machine learning développés dans le cloud et exécutent des applications en périphérie pour des résultats immédiats. Même si ces cœurs ne sont pas originellement conçus pour un entraînement complexe de ML, leurs performances peuvent égaler celles de leurs plus importants concurrents en matière de tâches d’Edge Computing, offrant en avantage une réduction considérable des coûts et de la consommation d’énergie.
Par exemple, d’après ARM, l’implémentation 512-GOPS d’Ethos-U65 à 1 GHz est capable de reconnaître un objet en moins de 3 ms lors de l’exécution du célèbre réseau neuronal profond MobileNet_v2.[8]
NXP Semiconductors utilise couramment le microNPU Ethos-U65, de concert avec le cœur Cortex-M et la SRAM sur puce déjà présents dans l’i.MX de la famille NXP.[9]
En plus de la série Ethos-U, ARM conçoit également la série Ethos-N,[10] qui vise les produits de consommation mainstream tels que les smartphones, les systèmes d’infodivertissement des véhicules et les télévisions numériques. La série Ethos-N est à présent utilisée dans les véhicules autonomes pour livrer de nouvelles fonctionnalités intelligentes telles que le contrôle de l’accès, la surveillance de la vigilance du conducteur ou la reconnaissance vocale, qui tentent toutes de rendre la conduite plus sûre.
Sur les smartphones, la série Ethos-N permet d’étendre les capacités de traitement des processeurs embarqués, en proposant notamment des fonctionnalités de réalité augmentée, de réalité virtuelle et des capacités de ML.
L’informatique quantique impulsera la nouvelle génération de solutions d’IA
« Les physiciens débattent de la puissance de l’informatique quantique depuis plus de 30 ans, cependant certaines questions n’ont toujours pas trouvé de réponses : Sera-t-elle capable de réaliser des tâches utiles ? Est-il judicieux d’investir dans ce domaine ? » s’interroge John Martinis, responsable scientifique du matériel quantique chez Google.[11]
Depuis plus de 3 ans, Volkswagen travaille avec Google pour utiliser l’informatique quantique dans différentes applications, y compris pour accélérer le délai d’entraînement des réseaux neuronaux, l’une des technologies critiques pour la conduite automatisée des véhicules autonomes.[12]
« Nous devons nous attendre à de nombreuses nouvelles exigences en matière de puissance de calcul de hautes performances » avertit Martin Hofmann, DSI de Volkswagen. « La question reste de savoir quelle est la meilleure marche à suivre. »
Selon IBM, « l’accès aux ordinateurs quantiques, aujourd’hui disponibles en quantité limitée, a déjà fait ses preuves pour les chercheurs du monde entier, en leur offrant une vision sans précédent du rouage interne des lois qui régissent le monde naturel, et en leur permettant d’aborder les problèmes de chimie, de simulation, d’optimisation, d’intelligence artificielle et autres sous une nouvelle perspective. » [13]
Même s’il est encore trop tôt pour réaliser la puissance de l’informatique quantique dans la plupart des applications, les résultats obtenus au cours des expériences sont pour le moins impressionnants. Le « Sycamore » de Google,[14] un nouveau processeur 54-qubit, a réalisé une expérience de suprématie quantique en 200 secondes seulement, au lieu des 10 000 années qu’il aurait fallu à l’ordinateur le plus rapide au monde pour atteindre ce même résultat.
« Sur les serveurs de Google Cloud, nous estimons que réaliser la même tâche pour m = 20 avec 0,1 % de fidélité à l’aide de l’algorithme Schrödinger–Feynman coûterait 50 trillions d’heures CPU et consommerait une pétawatt-heure d’énergie. »[15]
Cap sur l’intelligence artificielle générale
L’implémentation de ces technologies ne s’est pas contentée de rendre l’IA et le ML exploitables. Elle a aussi inculqué la croyance que nous sommes près d’atteindre ce que nous considérons comme le Saint Graal de la recherche en IA, l’intelligence artificielle générale (IAG) : un état où les machines peuvent penser par elles-mêmes et exécuter des tâches intelligentes en imitant les humains, et bien plus encore.
L’alliance de puissants processeurs tels que Grace d’Nvidia et Sycamore de Google aux récents algorithmes et aux montagnes de nouvelles données signe l’arrivée d’une nouvelle ère de l’IA.
[1] http://www.cs.toronto.edu/~hinton/absps/cbpweb.pdf
[2] https://finance.yahoo.com/news/intel-working-facebook-ai-chip-013746099.html
[3] https://cloud.google.com/blog/products/gcp/google-supercharges-machine-learning-tasks-with-custom-chip
[4] https://coral.ai/docs/edgetpu/benchmarks/
[5] https://www.forbes.com/sites/patrickmoorhead/2017/03/15/nvidia-introduces-jetson-tx2-for-edge-machine-learning-with-high-quality-customers/
[6] https://nvidianews.nvidia.com/news/nvidia-announces-cpu-for-giant-ai-and-high-performance-computing-workloads
[7] https://www.arm.com/solutions/artificial-intelligence
[8] https://developer.arm.com/ip-products/processors/machine-learning/arm-ethos-u/ethos-u65
[9] https://www.nxp.com/company/blog/why-the-arm-ethos-u65-micronpu-is-a-big-deal-and-how-it-came-to-be-this-way:BL-ARM-ETHOS-U65-MICRONPU
[10] https://www.arm.com/products/silicon-ip-cpu/ethos/ethos-n57
[11] https://ai.googleblog.com/2019/10/quantum-supremacy-using-programmable.html
[12] https://blogs.wsj.com/cio/2017/11/07/vw-expands-its-quantum-computing-research-with-google/
[13] https://www.ibm.com/blogs/research/2021/04/quantum-accelerate-discoveries/
[14] « Sycamore processor - Wikipedia. » https://en.wikipedia.org/wiki/Sycamore_processor.
[15] Arute, F., Arya, K., Babbush, R. et al. Quantum supremacy using a programmable superconducting processor. Nature 574, 505–510 (2019). https://doi.org/10.1038/s41586-019-1666-5