Cerebras anuncia el procesador más grande del mundo con 400.000 núcleos y 1.2 billones de transistores para inteligencia artificial

Cerebras ha anunciado en la conferencia de Hot Chips el que es actualmente el chip más grande jamás fabricado, con una superficie total de 46.225mm2 y 400.000 núcleos optimizados para IA que le proporcionan teóricamente la misma potencia que un rack de 1000 GPUs NVIDIA.

Este chip tiene esta medida específica porque ocupa la totalidad de una oblea de silicio de 12 pulgadas, de forma que junto a tal cantidad de núcleos podemos encontrar 18GB de memoria SRAM con un ancho de banda de 9PB/s, una interconexión entre núcleos con 100PB/s de ancho de banda y todo esto con un total de 1.2 billones de transistores a una litografía de 16nm TSMC.

Uno de los principales desafíos a los que se ha enfrentado Cerebras es el de los defectos en la fabricación, pues como bien sabemos, las obleas de silicio no entregan nunca el 100% de los dies fabricados en ellas, haciendo que algunos chips salgan defectuosos.

Cerebras no puede permitirse una tasa de fallos demasiado elevada, de forma que han creado un sistema de interconexión personalizado en el que pueden esquivar de forma transparente un die defectuoso sin mermar el rendimiento gracias a la implementación de un 1.5% de hardware adicional dedicado a estos menesteres.

Asimismo han desarrollado un nuevo sistema de empaquetado que soluciona los problemas de ensamblado y expansión térmica que puede sufrir el procesador bajo su funcionamiento, pues con un área total de 46.225mm2 y un consumo que parece situarse alrededor de los 15000W, la expansión térmica es un problema real que puede causar daños físicos en el chip. Por ello, se utiliza una mezcla de un nuevo sistema de empaquetado, líneas de alimentación perpendiculares y refrigeración líquida, como era de esperar con tal densidad térmica.

Por ultimo pero no menos importante, los 18GB de memoria integrada en el propio chip permiten un acceso casi instantáneo a los datos necesarios, algo que no es posible en los sistemas actuales con varios racks y GPUs, donde los datos circulan por la red completa de equipos añadiendo latencias adicionales con cada salto que dan entre sistemas, además de contar con velocidades mucho menores.

Por ahora no han revelado detalles exactos de rendimiento, pero sí sabemos que se están realizando pruebas con un cliente y que en Noviembre contaremos con benchmarks para conocer si realmente este chip es tan potente como un rack entero de GPUs, algo que mejoraría sobremanera las capacidades de las compañías para realizar operaciones de Machine Learning altamente intensivas sin tener que utilizar servicios de terceros como Google Cloud.

Fin del Artículo. ¡Cuéntanos algo en los Comentarios!