ARM Cortex-X925 e Immortalis-G925: Así son los núcleos y GPU más potentes de la historia de ARM
Ya conocíamos la plataforma CSS (Subsistemas de Cómputo) de ARM para la creación de procesadores y SoC para servidores y usos profesionales como, por ejemplo, ARM Neoverse CSS N2.
Ahora esta plataforma llega también al mercado de SoCs para dispositivos domésticos como Smartphones para conseguir una mayor personalización que lleve a diseños personalizados más potentes y eficientes ajustados a cada tipo de dispositivo.
"CSS for Client", que así es como se denomina esta tecnología orientada a este tipo de dispositivos, está basada en la arquitectura ARMV9.2 que ya conocimos el pasado año con el lanzamiento de los núcleos Cortex-X4, pero introduce nuevos diseños de núcleos de alto rendimiento junto a nuevas GPUs que darán vida a los próximos procesadores de smartphones y todo tipo de dispositivos para usuarios finales.
En la parte de CPU, tendremos el diseño de clúster de segunda generación ARMv9.2 "DSU-120" que ya se utiliza en los actuales procesadores, pero con nuevos diseños de núcleos orientados a procesos de fabricación de 3 nanómetros.
Los sucesores de los actuales Cortex-X4 de máximo rendimiento no se llamarán Cortex-X5, sino que la nomenclatura cambia y pasarán a llamarse Cortex-X925.
En el clúster DSU-120 irán acompañados de los nuevos núcleos Cortex-A725 para tareas de rendimiento multinúcleo, sucesores de los actuales Cortex-A720, mientras que los núcleos más eficientes repetirán la arquitectura Cortex-A520 con mejoras de eficiencia.
También habrá novedades en GPUs, con la quinta generación de GPUs ARM lideradas por la nueva Immortalis-G925 de hasta 24 núcleos, junto con las nuevas Mali-G725 y Mali-G625.
Todo ello con un claro enfoque hacia mejorar el rendimiento y la eficiencia de los nuevos SoC, pero también para abrazar las mejoras que está trayendo la Inteligencia artificial a los dispositivos móviles.
Todo ello con un conjunto de herramientas y procesos detrás que permite a las compañías disponer de SoCs personalizados y adaptados a sus necesidades en tiempos mucho más cortos.
Más adelante repasaremos las novedades que introducen las nuevas arquitecturas Cortex que llegan con esta nueva plataforma, pero primero vamos a dar un repaso a cómo estarán formados los chips basados en CSS for Client.
Un ejemplo sencillo lo vemos en la plataforma de referencia de ARM con la que quieren demostrar una configuración completa basada en CSS for Client.
En este ejemplo, el Clúster de CPU DS-120 está dotado con 16 MB de caché L3 que se comparten entre un total de 8 núcleos. Estos 8 núcleos se distribuyen en tres grupos:
- 2 x Cortex-X925 de máximo rendimiento.
- 4 x Cortex-A725 para rendimiento multinúcleo.
- 2 x Cortex-A520 de alta eficiencia.
Junto a ellos, una GPU Immortalis-G925 de 14 núcleos con 4 MB de caché L2 dedicada. La GPU se comunica con el DSU-120 de núcleos de CPU mediante el sistema de interconexión CoreLink dotado de 16 MB de caché SLC. La memoria RAM escogida son cuatro chips LPDDR5X-8533 de 16 Gb.
Todo ello optimizado para fabricar en un nodo de 3 nanómetros.
Comparado con la anterior plataforma TCS23 con la Immortalis G-720, con Cortex-X4, A720 y A520, tenemos ahora más caché, más núcleos de alto rendimiento junto con las mejoras de arquitectura, mayor caché SLC en el CoreLink y un proceso más avanzado de fabricación.
Con estas novedades, la plataforma CSS for Client se coloca como la solución para Android más potente de ARM. Los datos de la propia ARM hablan de un 30% más de rendimiento gráfico, una reducción del 33% en tiempos de carga de aplicaciones, un 60 % de más velocidad de navegación y mejoras en inteligencia artificial que alcanzan un 46% extra de rapidez en modelos LLM.
A nivel de eficiencia y consumo, ARM promete un rendimiento de un 37% más si comparamos con el nivel ISO de potencia de 1W. Manteniendo 120 FPS, ahora la GPU consume un 30% menos, por lo que se pueden crear SoCs que potencien la eficiencia con el mismo rendimiento que la pasada generación, o decantarse por más rendimiento manteniendo el consumo.
La combinación de la CPU con NPUs de terceros permite mejoras de 24% de velocidad a la hora de aplicar funciones de IA como son los efectos de desenfoque o "bokeh" en fotografías.
El Cortex-X925 es el nuevo núcleo buque insignia de ARM. Es el sustituto natural del Cortex-X4 y la compañía presume de que supone el salto de rendimiento más alto dentro de toda la gama Cortex-X, con un aumento considerable de IPC y mejoras de rendimiento IA junto a más eficiencia.
Es capaz de funcionar a 3,8 GHz, siendo el núcleo Cortex-X más rápido del mundo. Además de este aumento de frecuencias, también tenemos un aumento de IPC que consigue multiplicar por 1,36 el rendimiento por ciclo respecto de los smartphones "premium" del 2023. Esta mejora no es solo por el propio diseño de los núcleos, sino que tiene en cuenta también las optimizaciones de software.
Tomando como referencia valores ISO en el Cortex-X4 y en el Cortex-X925, ARm promete mejoras de rendimiento que superan el 15% en benchmarks convencionales de CPU, pero que suben hasta casi el 40% en tareas de ineligencia artificial como la ejecución de modelos LLM como Llama, o procesos de iferencia.
Además del extra de rendimiento e IPC, los Cortex-X925 también incluyen nuevos sistemas de gestión de la energía y el rendimiento para conseguir velocidades más altas en los momentos clave, y mantener un menor consumo en tareas donde se necesiten rendimientos más sostenidos sin picos puntuales.
A nivel de microarquitectura tenemos mejoras como operaciones de dos ciclos en la unidad aritmético-lógica (ALU), 4 ejecuciones de multiplicación de enteros en vez de 2, pasamos de 1 a 2 ejecuciones de comparaciones en FP, mejoras en la eficiencia de la decodificación, o el paso de 4x128b en ejecución SIMD/FP a 6x128b.
Respecto a los anteriores Cortex-X4, los X925 han mejorado el sistema de predicción, con un mayor ancho de banda y multiplicando por dos el tamaño de la ventana de instrucciones. También se ha mejorado la precisión de las predicciones.
Todas estas mejoras, junto al mayor salto de IPC, hace que el Cortex-925 supere por un 36% al rendimiento single-core al SoC de un "smartphone premium del 2023 con Android", o en un 46% al Cortex-X4 en IA.
En procesos de inferencia, tenemos un 59% de mejora si comparamos 1 núcleo X925 con un X4. Además, la mejora se multiplica por un 170% si colocamos dos de estos Cortex-X925 contra un único núcleo Cortex-X4. A esto se suma el extra de rendimiento de la GPU integrada Immortalis-G925
Pasamos ahora a la nueva generación de núcleos de rendimiento multicore, los Cortex-A725. Sustituyen a los actuales Cortex-A720 y están pensados para funcionar con cargas constantes durante largos periodos de tiempo, en aquellas situaciones donde se necesita rendimiento multi núcleo más que picos de alta potencia (donde entrarían los Cortex-X925). Juegos o inteligencia artificial son algunos de los casos de uso.
ARM promete un 35% más de rendimiento si se compara desde la anterior generación. con un 25% más de eficiencia y mejoras en el tráfico de la caché L3 de hasta un 20%.
Se ha multiplicado por dos la capacidad de la caché L2 manteniendo el mismo espacio gracias a la adaptación y optimización de esta arquitectura para los procesos de fabricación de 3 nanómetros.
Esta arquitectura también está orientada a SoCs donde se quiera poder utilizar inteligencia artificial a bajo coste, ya que se han optimizado para funcionar en cargas estables en el tiempo, y sus capacidades de escalado permite multiplicar el rendimiento de manera proporcional al número de núcleos.
Junto a estos núcleos, tenemos una pequeña actualización de los actuales Cortex-A520 que formarán parte de los núcleos de alta eficiencia de esta generación de CSS Client.
En concreto, gracias al hecho de adaptar la arquitectura a los 3 nanómetros, junto a una nueva implementación de estos núcleos, se consigue una mejora de ahorro de energía de hasta el 15% superior a la que encontramos en los núcleos Cortex-A520 de la plataforma TCS23 del año pasado.
Estos núcleos están pensados para tareas donde se requiera bajo consumo y alta eficiencia, sin necesidades tan altas de potencia como la gestión de procesos en segundo plano, sensores, etc.
Esta nueva generación de SoCs basados en diseños de ARM también contarán con nuevas soluciones gráficas. La más potente será la nueva Immortalis-G925.
Según la propia ARM, esta GPU será la más potente y eficiente de su historia, prometiendo mejoras de rendimiento gráfico de hasta el 37% en su versión de 14 núcleos en comparación con la Immortalis-G720 de 12 núcleos. Con esas mismas configuraciones, tenemos también un 36% más de rendimiento en inferencia de modelos de Machine Learning e Inteligencia artificial.
La eficiencia energética mejorada promete un consumo un 30% inferior durante la ejecución de juegos AAA, junto con un rendimiento de hasta un 52% más con raytracing en modelos complicados.
Esta arquitectura añade soporte para paginación de 2 MB por página para mejorar el rendimiento, además de otras mejoras internas con las que se potencia el desempeño del chip.
La compañía ha añadido soporte para tecnologías como Fragment Prepass, un sistema que permite reducir el número de ciclos de reloj de la CPU necesarios para el cálculo de lo denominado como "esquivado de objetos" a la hora de calcular cómo mostrar imágenes con objetos 3D superpuestos sin necesidad de renderizar todo.
Llevamos unos años ya con raytracing en dispositivos móviles. Esta tecnología, que llegó primero al PC, supone una alta carga para las GPUs y con cada nueva generación se mejora el rendimiento para poder aplicar efectos de iluminación realistas.
En la Immortalis-G925 se ha optimizado en el rendimiento de Raytracing en escenas con objetos complejos, donde se requiere más capacidad de procesado para calcular cómo se comportan los rayos de luz. En concreto, esta GPU permite a los desarrolladores poder escoger entre más o menos precisión según el rendimiento y calidad que quieran obtener.
A mayor precisión, esta GPU consigue un 27% más de rendimiento con un 3% menos de tráfico de memoria, sin embargo, si reducimos la precisión es capaz de conseguir un extra de rendimiento del 52% respecto de la pasada generación, con un 57% menos de tráfico de memoria.
Además, por primera vez, esta GPU soportará el motor gráfico Unreal Engine de sobremesa, con Lumen Raytracing, dejando la puerta abierta para ver juegos con calidad similar a la de PC tradicional en estos procesadores.
Si entramos en datos más específicos, ARM promete un 72% más de rendimiento en Call of Duty Mobile, un 46% extra en Diablo Immortal, un 49% en Genshin Impact o un 36% y 29% respectivamente para PUBG Mobile y Fortnite. Juegos como Roblox verán su rendimiento mejorado en hasta un 46% en comparación con la generación anterior.
La IA es algo muy importante hoy en día, y cada vez más se tiende a modelos que se ejecutan en local en los dispositivos. Aquí, aunque las CPU y NPU son importantes, las GPU suelen ofrecer un rendimiento más alto en tareas complejas.
La nueva Immortalis-G925 mejorará el rendimiento en procesamiento de lenguaje natural en hasta un 50%, con segmentación de imágenes mejorada en un 41% en cuanto a rendimiento, 34% en clasificación de imágenes o 29% en detección de objetos y sistemas de super resolución.
ARM ha trabajado junto a Unity, la desarrolladora del conocido motor gráfico utilizado en todo tipo de plataformas, para mejorar el soporte y prestaciones de su nuevo entorno para dotar de Machine Learning a juegos y aplicaciones basadas en él.
Todos estos datos se ofrecen teniendo como base la Immortalis-G925 de 14 núcleos, pero esa no será la configuración más potente: Podrán existir SoCs con GPUs dotadas de 24 núcleos.
Hasta ahora, las GPUs de ARM para este tipo de SoCs de consumo no soportaban un número tan alto de núcleos, pero la compañía ha rediseñado la arquitectura a nivel de hardware para poder añadir más núcleos sin problemas.
Junto a esta nueva GPU Immortalis-G925 orientada a terminales tope de gama, ARM también ha anunciado el lanzamiento de las nuevas Mali-G725 y Mali-G625.
Si el modelo tope de gama (Immortalis-G925) cuenta con un mínimo de 10 núcleos y un impresionante máximo de 24 núcleos, las Mali-G725 estarán disponibles en variantes que van desde los 6 núcleos hasta los 9 núcleos.
Por otro lado, las Mali-G625 estarán disponibles en SoCs de gama baja y gama media con configuraciones que parten desde un único núcleo hasta 5 núcleos en total. Todas ellas soportan desde el gaming tradicional hasta aceleración de IA de sistemas de nueva generación.
Habrá un soporte continuo de drivers con nuevos lanzamientos cada 8 semanas.
Aunque hemos hablado de la inclusión de estos nuevos SoCs basados en la plataforma CSS for Client de ARM en dispositivos móviles con Android, lo cierto es que la arquitectura ARM lleva ya tiempo intentando hacerse un hueco en portátiles y ordenadores de sobremesa para usuarios finales.
Qualcomm ya tiene varios modelos en su catálogo para portátiles con Windows 11 ARM como el último Snapdragon X Elite, y pronto veremos soluciones de otros fabricantes. La nueva plataforma CSS for Client también está preparada para este tipo de dispositivos con unas necesidades de potencia y refrigeración distintas a las de los smartphones.
CSS for Client es escalable para crear procesadores más potentes, con configuraciones de hasta 10+4 núcleos de alto rendimiento combinando 10 núcleos Cortex-X925 y 4 núcleos Cortex-A725. Llevando también las novedades de la arquitectura Armv9 a PC.
No obstante, ARM nos ha comentado que se podrán crear procesadores de hasta 14 núcleos Cortex-X925 para portátiles que necesiten el máximo rendimiento.
ARM promete rendimientos de hasta un 25% más por núcleo que el de ordenadores disponibles actualmente en el mercado.
Además, el sistema de interconexión de ARM permite la comunicación directa entre el clúster de núcleos de CPU DSU-120 y la GPU Immortalis-G925, pero también con tarjetas gráficas de terceros, abriendo la puerta a ver ordenadores que combinen tarjetas gráficas de todo tipo con esta plataforma.
Naturalmente, además de PCs, móviles y tablets, la nueva plataforma CSS for Client de ARM también se puede adaptar para funcionar en dispositivos como gafas VR o wearables, entre otros dispositivos.