Ampere es el nombre en clave de una microarquitectura de unidad de procesamiento de gráficos (GPU) desarrollada por Nvidia como sucesora de las arquitecturas Volta y Turing , anunciada oficialmente el 14 de mayo de 2020. Lleva el nombre del matemático y físico francés André-Marie Ampère. Nvidia anunció las GPU de consumo de la serie GeForce 30 de próxima generación en un evento especial de GeForce el 1 de septiembre de 2020. Nvidia anunció la GPU A100 de 80 GB en SC20 el 16 de noviembre de 2020. Las tarjetas gráficas RTX móviles y la RTX 3060 se revelaron el 12 de enero de 2021. Nvidia también anunció los sucesores de Ampere, tentativamente con el nombre en código “Ampere Next” para un lanzamiento de 2022 y “Ampere Next Next” para un lanzamiento de 2024 en la GPU Technology Conference 2021.
NVIDIA Ampere es la nueva arquitectura para GPUs de NVIDIA, la cual está principalmente orientada a cargas de trabajo de inteligencia artificial, ya sea de entrenamiento de redes neuronales o de inferencia a partir de redes ya entrenadas.
Según las cifras que NVIDIA ha proporcionado, esta nueva arquitectura supone un gran paso adelante en cuanto a rendimiento, eficiencia y velocidad de proceso de este tipo de cargas de trabajo, superando en varios enteros el rendimiento de la anterior generación Volta.
Entre algunas de las especificaciones con las que cuenta el núcleo Ampere al completo, encontramos un total de 8192 núcleos CUDA, 512 Tensor Cores de tercera generación y 6 pilas HBM2 conectadas a 12 controladores de memoria de 512 bits cada uno. Por su parte, las GPU NVIDIA A100 que hemos podido ver cuentan con un total de 6912 núcleos CUDA y 432 Tensor Cores de tercera generación, algo que le otorga una gran potencia.
Asimismo encontramos una amplia variedad de nuevas tecnologías, muy interesantes para el espacio de centros de datos, como serían por ejemplo las Multi Instance GPUs (MIG), la capacidad de acelerar las cargas de trabajo con matrices dispersas en hasta 2 veces, o la aparición de TensorFloat-32, un nuevo modo de realizar operaciones FP32 a través de los Tensor Cores de tercera generación que otorga suficiente potencia al proceso como para doblar la velocidad de proceso de las cargas de trabajo que hagan uso de este modo de cálculo.
Por último, pero no menos importante, al tratarse de una arquitectura para GPU, es muy posible que no solo la veamos en productos como la NVIDIA A100, sino que también llegue a productos para consumidores individuales como tarjetas gráficas Quadro y GeForce, en vez de en equipos completos como los NVIDIA SuperPOD.
En el apartado anterior ya hemos dado algunas pinceladas de lo que Ampere es capaz de hacer, pero a efectos prácticos, NVIDIA Ampere es una arquitectura de GPU que sirve y servirá para dar vida a la próxima generación de tarjetas gráficas y aceleradores GPGPU, además de a productos como la NVIDIA A100 que encontramos en los NVIDIA HGX-A100, que subsecuentemente encontramos en los NVIDIA DGX-A100.
Estos últimos equipos están diseñados para proporcionar el máximo rendimiento posible a la hora de entrenar redes neuronales, así como realizar inferencia a partir de ellas, por lo que todos aquellos procesos que dependan de este tipo de cálculos se verán drásticamente acelerados en varios enteros.
Las mejoras en rendimiento son de hasta 7 veces en la velocidad de inferencia y hasta 20 veces en la velocidad de FP32 respecto a Volta si hacemos uso de sparsity, lo que ya hemos referenciado a la hora de trabajar con matrices dispersas en las que hay suficientes valores vacíos para eliminarlos sin afectar a la precisión que los datos integrados en la Inteligencia Artificial resultante tendrá.
Todo este hardware nos puede servir a los usuarios de a pie a la hora de encontrarnos con inteligencias artificiales más refinadas en, por ejemplo, smartphones de última hornada, pues la inferencia manejada por las NPU de los últimos procesadores del mercado es lo suficientemente rápida y eficiente para que elementos como las cámaras hagan uso de una IA previamente entrenada de forma intensiva y que funcione correctamente.
Asimismo, la posibilidad de contar con un sistema con tal rendimiento permitirá a científicos acelerar por ejemplo simulaciones de proteínas o de fluidos a la hora de acelerar sus investigaciones, ya sea para el actual problema del coronavirus, o para cualquier otra carga de trabajo que pueda beneficiarse de cálculos más rápidos.