AMD EPYC Milan-X al detalle: El 3D V-Cache llega a los servidores
por Javier Rodríguez Actualizado: 21/03/2022AMD EPYC tercera generación con 3D V-Cache
Los AMD EPYC basados en arquitectura Milan son los procesadores para sistemas de servidor de AMD, basados en arquitectura Zen3, la misma que da vida a todos los procesadores Ryzen para sistemas portátiles y de sobremesa, para el mercado doméstico.
Esta generación, que tiene ahora justo un año en el mercado, fue un antes y un después en los diseños de AMD basados en tecnología Zen para sistemas de servidor, con profundas mejoras de rendimiento gracias a ventajas arquitectónicas basadas en su mayoría en una latencia muy reducida entre los diferentes núcleos y las cachés a las que tienen acceso.
Ahora AMD aumenta el número de referencias de esta generación con nuevos modelos con un cambio importante en su diseño. Han conseguido triplicar la caché L3 compartida por cada CCD que forma la parte de cómputo del diseño en chiplets de la arquitectura Zen3. Para lograr esto han añadido “pisos” en la caché de tercer nivel en el propio encapsulado del procesador logrando triplicar la caché de tercer nivel hasta los 96MB por CCD.
Detalles de la arquitectura Milan basada en Zen 3
La arquitectura Zen3 trajo a los procesadores Ryzen mejoras importantes, que han hecho de AMD un referente en el mercado doméstico tanto para procesadores de sobremesa como portátiles. Una arquitectura que le ha traído muchos éxitos a la marca y que han podido escalar tanto para dar vida a este tipo de procesadores como para crear referencias para estaciones de trabajo y también servidores de alto rendimiento con configuraciones 2P (hasta dos procesadores por sistema) con hasta 128 núcleos, 256 hilos de proceso y 128 líneas PCI Express 4.0 por procesador.
Uno de los grandes cambios de la arquitectura Zen3, que permitió acelerar de forma notable su eficiencia de rendimiento por ciclo, fue eliminar los CCX de su arquitectura Chiplet, esa división que tenían hasta Zen2 donde se dividían el acceso de los núcleos a la caché de tercer nivel. Zen3 elimina esa barrera ofreciendo hasta 8 núcleos por CCD compartiendo todos ellos una caché de tercer nivel única de 32MB de capacidad. Cada núcleo puede acceder a toda la caché, o repartirla entre todos los núcleos en uso, dependiendo de la capacidad de paralelización de proceso de las aplicaciones que corran en el sistema.
Milan permite instalar hasta 8 chiplets de proceso (CCD) con 8 núcleos en cada uno de ellos logrando hasta 64 núcleos con SMT (dos hilos de proceso por núcleo) para un total de 128 hilos de proceso en un único procesador con TDP de hasta 280w y 256MB de caché de tercer nivel.
Toda esta generación tiene también una capacidad conectiva sobresaliente. Desde el más básico al más potente de la gama cuenta con un IOD con 128 líneas PCI Express 4.0 a disponibilidad desde el propio procesador, que son hasta 32 unidades de datos de última generación controladas por un único procesador, con un acceso directo al mismo, hasta 64 unidades si usamos configuraciones 2P.
Dispone también de una unidad de control de memoria DDR4 de hasta 8 canales formando un bus de datos de 512-Bit con compatibilidad para memoria DDR4 3200 con chip de corrección de errores por hardware (ECC). La controladora de estos modelos desarrolla tecnologías adicionales que permiten acceso a estos niveles de anchos de banda tanto para procesadores de muchos núcleos, como pocos, además de reducir los costes de memoria con una configuración de un DIMM por canal.
Otra mejora importante de esta generación, potenciada sobre los modelos domésticos, es la tecnología AMD Secure que potencia varios elementos para proteger a estos procesadores de las nuevas amenazas en formas de “exploits” como “Meltdown” y “Spectre”. Se han implementado soluciones de microcódigo y hardware para Spectre, en todas sus versiones, y Meltdown hasta ahora no ha sido capaz de afectar a procesadores Ryzen de AMD.
Esta tecnología se potencia también con un microcontrolador de 32-Bit integrado el propio SOC del procesador, se introducen protecciones adicionales para el firmware del procesador mediante el uso de una SPI ROM y proporciona arranque validado por hardware. Toda una batería para hacer de estos procesadores los más seguros de su generación sin impacto en el rendimiento.
Diseño 3D V-cache para procesadores stacked Milan-X
Todo esto de lo que hemos hablado, que explicábamos ya hace un año, es compartido con los cuatro procesadores que se presentan en el día de hoy. El único cambio que se introduce, que no es poco, es el añadido de la tecnología 3D V-Cache de AMD.
Esta tecnología que va asociada a la memoria L3 compartida por todos los núcleos dentro del CCD, permite a AMD escalar el tamaño de sus procesadores, sin cambiar su diseño y sus “dependencias” construyendo la caché en capas apiladas en tres dimensiones.
Esto se traduce que la misma caché de esta generación de procesadores pasa de 32MB de caché de tercer nivel hasta los 96MB triplicando la capacidad de la misma. Ahora quedarían 12MB de caché por núcleo cuando todos estuvieran en uso o hasta 96 accesibles por uno solo de ellos ya que todos tienen el mismo acceso a esta memoria integrada en el CCD.
Si extrapolamos las cifras a modelos con hasta 8 CCDs en su formación de chiplets nos encontramos que pasamos de los 256MB de caché de tercer nivel hasta un total de 768MB, sumando otras cachés estos procesadores pueden superar los 800MB de diferentes niveles de cache. Mas de 1.5GB de caché total en sistemas configurados con dos procesadores.
Modelos, ecosistema y aplicaciones
Una de las ventajas que hemos mencionado de estos nuevos modelos es que se mantienen dentro del ecosistema SP3 de AMD. Esto significa que las mejoras introducidas no requieren de renovar memorias, placas base, sistemas de refrigeración o infraestructuras. Con una simple actualización de bios del servidor podemos introducir estos procesadores y, escogiendo el adecuado, podemos mantener fuentes de alimentación, refrigeración y otros elementos que ya tuviéramos funcionando o que son más accesibles en el mercado.
Los modelos presentados hoy están pensados para esas aplicaciones que hacer millones de operaciones siempre parecidas y que por tanto puedan aprovechar el aumento de capacidad de memoria L3 con las bajas latencias que introdujo Zen3 gracias al uso de una memoria L3 compartida por todos los núcleos de cada CCD. Las aplicaciones objetivo de estos procesadores son aplicaciones EDA (Electronic Design Automation), CFD (Computational fluid dynamics), FEA (Finite element Analysis) y SA (Structural Analysis). No son adecuados para otro tipo de aplicaciones donde lo que se busca es un tránsito rápido de datos que son volubles, es decir, que no sean repetitivos en el tiempo. Para ello AMD mantiene sus SKU de alta frecuencia con configuraciones de caché clásica de 32MB por CCD.
AMD introduce hoy cuatro modelos repartidos entre diferentes configuraciones de núcleos disponibles, todos en soluciones de 8 CCDs con núcleos desactivados por CCD, pero manteniendo esos 768MB de caché de tercer nivel y concentrando los esfuerzos y las ventajas de estos procesadores que se centran en operaciones muy repetitivas que se puedan beneficiar de tener latencias reducidas aprovechando la capacidad extra de almacenamiento temporal cerca del procesador.
Estas nuevas variantes “Premium” del EPYC Milan aumentan el precio sobre sus modelos clásicos en torno al 20%, que no parece tanto si nos centramos en los casos de éxito que AMD ha ido desarrollando con sus clientes más cercanos en los últimos meses, casos que detallaremos en las próximas líneas.
Características técnicas de las CPU AMD EPYC Milan X con 3D V-cache
AMD EPYC MILAN-X | Núcleos | Hilos | Base Freq (GHz) | Max Boost Freq (GHz) | TDP (w) | cTDP Min (w) | cTDP Max (w) | L3 Cache (MB) | Canales DDR4 | Max DDR Freq (1DPC) | PCle4 | Precio |
---|---|---|---|---|---|---|---|---|---|---|---|---|
7773X | 64 | 128 | 2.20 | 3.50 | 280 | 225 | 280 | 768 | 8 | 3200 | x128 | $8.800 |
7573X | 32 | 64 | 2.80 | 3.60 | 240 | 225 | 240 | 768 | 8 | 3200 | x128 | $5.590 |
7473X | 24 | 48 | 2.80 | 3.70 | 240 | 225 | 240 | 768 | 8 | 3200 | x128 | $3.900 |
7373X | 16 | 32 | 3.05 | 3.80 | 240 | 225 | 240 | 768 | 8 | 3200 | x128 | $4.185 |
AMD EPYC MILAN | Núcleos | Hilos | Base Freq (GHz) | Max Boost Freq (GHz) | TDP (w) | cTDP Min (w) | cTDP Max (w) | L3 Cache (MB) | Canales DDR4 | Max DDR Freq (1DPC) | PCle4 | Precio |
---|---|---|---|---|---|---|---|---|---|---|---|---|
7763 | 64 | 128 | 2.45 | 3.50 | 280 | 225 | 280 | 256 | 8 | 3200 | x128 | $7,890 |
7713 | 64 | 128 | 2.00 | 3.675 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $7,060 |
7713P | 64 | 128 | 2.00 | 3.675 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $5,010 |
7663 | 56 | 112 | 2.00 | 3.50 | 240 | 225 | 240 | 256 | 8 | 3200 | x128 | $6,366 |
7643 | 48 | 96 | 2.30 | 3.60 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $4,995 |
75F3 | 32 | 64 | 2.95 | 4.00 | 280 | 225 | 280 | 256 | 8 | 3200 | x128 | $4,860 |
7543 | 32 | 64 | 2.80 | 3.70 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $3,761 |
7543P | 32 | 64 | 2.80 | 3.70 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $2,730 |
7513 | 32 | 64 | 2.60 | 3.65 | 200 | 165 | 200 | 128 | 8 | 3200 | x128 | $2,840 |
7453 | 28 | 56 | 2.75 | 3.45 | 225 | 225 | 240 | 64 | 8 | 3200 | x128 | $1,570 |
74F3 | 24 | 48 | 3.20 | 4.00 | 240 | 225 | 240 | 256 | 8 | 3200 | x128 | $2,900 |
7443 | 24 | 48 | 2.85 | 4.00 | 200 | 165 | 200 | 128 | 8 | 3200 | x128 | $2,010 |
7443P | 24 | 48 | 2.85 | 4.00 | 200 | 165 | 200 | 128 | 8 | 3200 | x128 | $1,337 |
7413 | 24 | 48 | 2.65 | 3.60 | 180 | 165 | 200 | 128 | 8 | 3200 | x128 | $1,825 |
73F3 | 16 | 32 | 3.50 | 4.00 | 240 | 225 | 240 | 256 | 8 | 3200 | x128 | $3,521 |
7343 | 16 | 32 | 3.20 | 3.90 | 190 | 165 | 200 | 128 | 8 | 3200 | x128 | $1,565 |
7313 | 16 | 32 | 3.00 | 3.70 | 155 | 155 | 180 | 128 | 8 | 3200 | x128 | $1,083 |
7313P | 16 | 32 | 3.00 | 3.70 | 155 | 155 | 180 | 128 | 8 | 3200 | x128 | $913 |
72F3 | 8 | 16 | 3.70 | 4.10 | 180 | 165 | 200 | 256 | 8 | 3200 | x128 | $2,468 |
Para facilitar la diferenciación de estos nuevos modelos, que son cuatro, AMD ha añadido una X al final de la numeración estándar del procesador. De este modo podemos seguir con la localización clásica del número de núcleos y frecuencia y saber fácilmente si el procesador que vamos a comprar cuenta con el triple de memoria caché de tercer nivel.
Son cuatro modelos con configuraciones de núcleos bien diferenciadas: 16, 24, 32 y hasta 64 núcleos por procesador. Los precios oscilan entre los 3900 y los 8800 dólares. Las frecuencias son bajas, comparadas con otros modelos, pero equivalentes a otros modelos existentes. Oscilan entre los 2.2GHz y los 3.05GHz en frecuencias estándar con modos turbo de un núcleo de entre 3.5 y 3.8GHz.
Casos de éxito
AMD mantiene en todos estos modelos la capacidad caché porque sus objetivos de aplicación son muy claros. Hay aplicaciones como las de diseño automatizado de electrónica que suelen usar pocos hilos de proceso pero que hacen infinidad de cálculos repetitivos que se ven mejorados por el aumento de memoria cercana al procesador. Además, son aplicaciones que suelen requerir licencias por núcleo de proceso así que se tiende a reducir los costes usando procesadores con menos núcleos.
Las CFD y FEA aumentan las necesidades de hilos de proceso y dispondrán en este procesador de ese extra de memoria que aumenta el rendimiento del procesador consiguiendo con estos modelos las diferentes configuraciones adecuadas para este tipo de clientes. Sea como fuere el objetivo de estos procesadores son aplicaciones que son sensibles a la capacidad L3 del procesador, que se ven afectadas por la falta de capacidad de este tipo de memoria teniendo que buscarla en buses más lentos y con mayor latencia.
AMD y Micron han logrado con estos modelos de hasta 16 núcleos una mejora de rendimiento de hasta el 66% en simulaciones de diseño de componentes electrónicos como es el caso del diseño de memoria DDR5. Les ha permitido pasar de 24.4 simulaciones/hora hasta las 40.6 simulaciones/hora. Normalmente las mejoras generacionales entre procesador y procesador rondan el 10-12%, AMD multiplica por cuatro esta mejora con un procesador que además no cuenta con mejoras generacionales a nivel de arquitectura.
Estas mejoras se trasladan también a otro tipo de aplicaciones con mejoras del 44% en aplicaciones de análisis de estructuras como Altair Radioss, 47% de mejora en aplicaciones de cálculo de dinámica de fluidos como Ansys Fluen, mejoras del 69% en aplicaciones cálculos finitos como Ansys LD-DYNA. Todo ello comparado con procesadores de última generación Xeon de hasta 40 núcleos como son los Xeon 8380 de Intel.
Si buscamos comparativa con procesadores del mismo número de núcleos y generaciones similares AMD consigue mejoras de más del 20% y hasta del 88% en este tipo de aplicaciones ya mencionadas comparando su nuevo AMD EPYC 7573X de 32 núcleos con el Intel XEON 8362 también de 32 núcleos.
Con estos números AMD afirma, teniendo en cuenta estos mismos procesadores, que puede reducir la necesidad de servidores hasta en un 50%, consumiendo un 49% menos de energía, reduciendo el impacto de carbono en el uso de estas aplicaciones y reduciendo los costes de running hasta en un 51% en tres años de amortización de la inversión.
Conclusión
Podemos encontrar estos nuevos procesadores desde hoy mismo en los mercados profesionales habituales. Dell, Gigabyte, Lenovo, HP, Cisco y Atos dispondrán de nuevos servidores basados en estos procesadores desde hoy mismo y fabricantes de infraestructura como Supermicro ya disponen de actualizaciones de bios para sus servidores para el ecosistema SP3 de AMD.
Si quieres probar en la nube esta nueva generación de procesadores Microsoft dispone de instancias en Azure donde podemos configurar máquinas virtuales de hasta 64 núcleos con estos procesadores desde hace algunos meses en fase beta. Ahora las instancias HBv3 son una realidad accesible para cualquiera donde Microsoft ha constatado, durante estos meses de disponibilidad en fase beta, mejoras de hasta el 80% en cargas HPC en estas nuevas instancias con respecto a otras instancias HPC en la nube de Microsoft con otras generaciones de procesadores.
Pronto, muy pronto, también podremos disponer de esta tecnología en el mercado doméstico. El Ryzen 7 5800X3D dispondrá de esta misma tecnología para entornos domésticos, tendremos oportunidad de probarlos pronto y de ver que mejoras puede introducir esta misma tecnología en un entorno tan diferente.
Fin del Artículo. ¡Cuéntanos algo en los Comentarios!