Immortalis-G720: Así Consigue la 5ª Generación de GPUs de ARM multiplicar su Eficiencia y Rendimiento
En los ARM Client Tech Days hemos podido conocer de primera mano todas las novedades de las nuevas arquitecturas de CPU y GPU de la compañía para la siguiente generación de procesadores que se basan en la tecnología de ARM.
Hemos dado un completo repaso a nivel técnico de los nuevos núcleos Cortex-X4, junto con los Cortex-A720 y Cortex-A520, así como a los clúster multinúcleo en los que se integrarán. Una parte indispensable de estos clústeres, es la gráfica integrada, y ahora le toca el turno de tomar protagonismo a la quinta generación de GPUs de ARM que acompañarán a estas CPUs y que procederemos a detallar a lo largo de este artículo.
La quinta generación da un salto considerable respecto de la cuarta generación, no se trata simplemente de una nueva familia de GPUs para este año, sino que deja atrás a varios modelos de gráficos integrados que se han ido integrando en SoCs a lo largo de los últimos años, como las más recientes Inmortalis-G715, Mali-G715, Mali-G710, pero también las anteriores Mali-G77 y Mali-G68 entre otras.
La quinta generación de GPUs de ARM serán las más eficientes de todas las arquitecturas gráficas de la historia de la compañía, mejorando en un 14% la eficiencia y mejora de consumo de todo el sistema, junto a la inclusión de nuevas tecnologías que llegan por primera vez a estos chips como el DVS (Deferred Vertex Shading o "sombreado de vértices en diferido") que detallaremos más adelante.
Se trata de la GPU más eficiente de ARM en su historia, consiguiendo hasta un 15% más de rendimiento por Vatio en la GPU, y un 40% más de eficiencia al utilizar menos accesos a memoria. Su rendimiento también sube hasta un 15% y renderiza en HDR el doble de rápido.
La quinta generación dará lugar a varios años de GPUs de ARM, y está centrada en conseguir una mayor eficiencia mientras se añade soporte para tecnologías avanzadas para juegos y aplicaciones 3D, con un alto aprovechamiento del hardware.
Para ello, se han centrado en mejorar los puntos clave con todos los datos y experiencias recogidas de las pasadas generaciones. Por un lado, el objetivo es conseguir renderizados HDR que requieren de más potencia, optimizar los accesos a memoria relacionados con cálculos geométricos que ocupan la mayor parte del ancho de banda, y reducir los accesos a la memoria externa, causante del aumento de la temperatura del SoC.
De hecho, los SoC TCS23 con estas arquitecturas de CPU y GPU consiguen reducir hasta en un 44% el ancho de banda de acceso a la memoria DRAM necesario para renderizar fotogramas de juegos.
Todas estas mejoras se introducen en varios modelos concretos que estrenan esta quinta generación de gráficos ARM. En concreto, tres serán los modelos de GPUs que llegarán en las distintas configuraciones de SoCs TSC23 junto a los núcleos Cortex-X4, A720 y A520: La Immortalis-G720, la Mali-G720 y la Mali-G620.
Como decíamos, serán tres los modelos que estrenan esta quinta generación de gráficos ARM: la Immortalis-G720, la Mali-G720 y la Mali-G620. La diferencia entre ellas será el número de núcleos de GPU que integren en su interior, ya que los tres modelos comparten la misma arquitectura y características.
Así, la ARM Mali-G620 será el modelo de entrada, con entre 1 y 5 núcleos. Le seguirá la Mali-G720 con entre 6 y 9 núcleos. Finalmente, la ARM Immortalis-G720 será el modelo más potente, con 10 o más núcleos. Hemos consultado con ARM y nos han confirmado que el número máximo de núcleos de la Immortalis-G720 será de 16, por lo que habrá modelos dentro de ese rango y dependiendo de las necesidades del fabricante del SoC.
La integración de esta GPU, y también de sus hermanas de menos núcleos, se ha optimizado para funcionar codo con codo con los núcleos Cortex-X4, Cortex-A720 y Cortex-A520, uniéndose mediante el CoreLink CI-300/Ni-300 y la MMU-700, que son los que dan acceso directo a la memoria LPDDR5X-8533 de la que beben tanto los núcleos de CPU como de la GPU.
La Immortalis-G720 promete una mejora de rendimiento del 15% respecto de la Immortalis-G715 de la pasada generación, pero consigue reducir en un 40% el ancho de banda de memoria necesario para renderizar escenas. Tampoco le falta soporte para tecnologías como RayTracing.
En test como Manhattan 3.0 tenemos un 21% más de rendimiento en una plataforma TCS23 con la Immortalis-720 respecto de la anterior TSC22, y de un 20% más en Aztec Ruins en nivel alto de detalle. Todo esto manteniendo el mismo nivel de núcleos y de voltaje para la CPU y la GPU respecto de la plataforma anterior. Por tanto, la mejora podrá aumentar en caso de SoCs con un mayor número de núcleos de CPU y GPU.
En la parte de la eficiencia, el reducir en un 30% el ancho de banda a memoria necesario para renderizar frames, se consigue una reducción media de energía del 20%. Además, los accesos a memoria suelen conllevar que se llegue antes a los límites térmicos del chip, por lo que se garantiza también un rendimiento sostenido mayor.
Otras funciones que se han añadido a la Immortalis-G720 es la mejora de rendimiento al aplicar Variable Rate Shading, una tecnología que permite a la GPU centrar sus esfuerzos en las zonas más importantes de una escena y renderizarlas con sombreados a una mayor calidad, dejando las secundarias en niveles inferiores de detalle para ganar rendimiento. Por ejemplo, en un juego de carreras, dar prioridad al coche y elementos cercanos, y ahorrar energía en los elementos del paisaje que pasan rápidamente.
En el caso de la Immortalis-G720 y sus hermanas, tenemos mejoras de rendimiento en las tasas de VRS de 4x2 y 4x2.
También se ha optimizado el hardware para la aplicación del filtrado doble Multi-Sampling Anti-Aliasing o 2XMSAA, un tipo de filtrado antialiasing que toma los datos de profundidad de la escena para aplicarlo únicamente en las zonas donde es necesario y suavizar los dientes de sierra.
Por otra parte, también se ha mejorado el soporte para los buffers dinámicos del conjunto de APIS gráficas Vulkan.
La inteligencia artificial no podía quedar sin cubrir tampoco hoy en día, y las GPU Immortalis-G720 prometen un 25% más de rendimiento en pico con un 22% menos de uso de memoria que la Immortalis-G715 en sistemas basados en IA (Machine Learning) como pueden ser las reconstrucciones en 3D de escenas mediante redes neuronales.
Naturalmente, cuenta con soporte para las nuevas tecnologías que incluyen motores gráficos de altas prestaciones como el Unreal Engine 5, permitiendo el uso de PBR Shading, reflejos a tiempo real, desenfoques o brillos al mismo nivel que los que se pueden conseguir en PC.
Tras repasar algunas de las mejoras y tecnologías que soportan las GPUs de quinta generación de ARM y su buque insignia, la Immortalis-G720, vamos a repasar en la siguiente sección algunas de las novedades a nivel de arquitectura y hardware que traen.
Además de las mejoras de eficiencia y rendimiento que hemos visto, las GPU immportalis-G720 y la quinta generación de gráficas de ARM en su conjunto, introducen el soporte para la nueva tecnología DVS o Deferred Vertex Shading, que en castellano sería "Sombreado de Vértices en Diferido".
Esta tecnología permite reducir el uso de recursos en memoria de la GPU y aumentar el rendimiento, algo que se nota en juegos y aplicaciones pesadas de edición o CAD, consiguiendo reducir el ancho de banda necesario en entre un 20 y un 41% respecto de la pasada generación.
Además, se mejora el rendimiento en hasta un 20% más de FPS a la hora de generar escenas con geometrías muy complejas con más de 3 millones de triángulos. También mejora en un 31% el ancho de banda necesario de escritura en memoria, dejando más ancho de banda para añadir otros efectos.
Para explicar estos resultados, tenemos que explicar en qué consiste la técnica del DVS o sombreado de vértices en diferido. Primero de todo tenemos el Tiler o "azulejeador", que es el encargado de dividir cada polígono en distintos "azulejos" o baldosas (los pequeños cuadrados que se ven en la siguiente imagen) que luego se pasan al sistema de procesado de los shaders.
Ahora, si nos fijamos en la siguiente imagen, podemos ver que hay dos flujos de trabajo para realizar el procesado de los sombreadores o shading, la zona azul que consiste en el flujo de trabajo del DVS, y la zona verde que utiliza la técnica de sombreado convencional.
Las GPU de quinta generación de ARM son capaces de funcionar con el modo tradicional de cálculo de shaders y también en modo DVS. Es el Tiler el encargado de determinar qué triángulos se envían al procesado tradicional o al DVS (en diferido), y para ello tiene en cuenta el tamaño de los Tiles o "baldosas" entre las que se dividen los triángulos y los datos que comparten
Si tenemos Tiles más grandes, eso significa que cada triángulo aparece en menos tiles, y que ese triángulo tiene las misma posición y atributos, por tanto, se pueden procesar en diferido aprovechando esos datos de posición y atributos sin tener que recalcularlos y aprovechando los mismos datos que comparten. De esta manera, no es necesario recibir nuevos datos para hacer los cálculos y se evita acceder a memoria y ocupar ancho de banda.
En los casos en que los tiles son más pequeños, tendremos datos de posiciones y atributos que variarán de manera más rápida, y en esos casos se utilizará el flujo de trabajo tradicional.
Otra tecnología que se ha integrado en estas GPU Immortalis-G720 y en sus hermanas menores, la Mali-G720 y la Mali-G620, es el hardware dedicado para aplicar filtrado doble Multi-Sampling Anti-Aliasing o 2XMSAA. Esta técnica es capaz de reducir los dientes de sierra aplicando filtro anti-aliasing únicamente en las zonas que lo necesitan analizando los distintos niveles de profundidad de la imagen. Al añadir soporte por hardware, los desarrolladores pueden mejorar el rendimiento y la calidad.
En la siguiente imagen podemos ver los componentes que forman cada núcleo de sombreado de la quinta generación de GPUs de ARM. Se puede ver como cada Shader Core cuenta con una unidad de raytracing propia, por lo que cada núcleo de las Immortalis-G720, Mali-G720 y Mali-G620 contarán con una unidad de raytracing. Es un diseño similar al que utiliza AMD en sus RDNA 2 y 3, y distinto al de las RTX de NVIDIA, donde los aceleradores Raytracing son externos a los núcleos.