Una startup llamada Cerebras System ha mostrado un chip gráfico en fase de prototipo que va mucho más allá respecto a los ya conocidos fabricantes de GPUs que ofrecen mejoras de rendimiento de dos dígitos, ya que su último chip, el Cerebras Wafer Scale Engine (Cerebras WSE), incorpora nada menos que un 5600% más de transistores respecto al mayor chip del mercado, el Nvidia V100, ya que es capaz de ofrecer 21 100 millones de transistores respecto a los 2 100 millones que incorpora el chip de Nvidia.

Para que esto sea una realidad, la startup ha logrado resolver desafíos técnicos clave que nadie más ha podido descifrar y con ello hacer el primer procesador a escala de una oblea a nivel mundial.

Wafer Scale Engine

El Cerebras WSE es el primer procesador a escala de oblea del mundo. Lo lógico es preguntarse por qué nadie más ha hecho algo tan obvio, y la razón es que el desafío técnico clave de la comunicación de líneas cruzadas nunca fue superado por nadie más.

El equipo litográfico actual está diseñado para grabar multitud de pequeños procesadores a lo largo de una oblea; no pueden hacer un procesador completo a través de una oblea. Esto significa que las líneas de trazado existirán de una forma u otra y que los bloques individuales deben poder comunicarse a través de estas líneas de alguna manera, y esto es lo que Cerebras ha resuelto para poder reclamar el trono del primer procesador del mundo con un billón de transistores.

El Cerebras WSE ocupa un área de 46.225 mm² y alberga 1.2 billones de transistores. Todos los núcleos están optimizados para cargas de trabajo relacionadas con la Inteligencia Artificial y el chip consume 15 KW de potencia. Dado que toda esa energía también debe enfriarse, este sistema de enfriamiento requeriría ser tan revolucionario como su sistema de energía.

Para su refrigeración, la compañía podría recurrir a un sistema de enfriamiento por inmersión con el refrigerante freón en un circuito de movimiento rápido o algún método más revolucionario. El sistema de energía también necesitaría ser increíblemente robusto. Según Cerebras, el chip es aproximadamente 1.000 veces más rápido que los sistemas tradicionales simplemente porque la comunicación puede tener lugar a través de las líneas de escritura en lugar de saltar a través de aros (interconexiones, DIMM, etc.).

El WSE contiene 400 000 núcleos de Algebra Lineal Dispersa (SLA por sus siglas en inglés). Cada núcleo es flexible, programable y optimizado para los cálculos que sustentan la mayoría de las redes neuronales. La capacidad de programación garantiza que los núcleos puedan ejecutar todos los algoritmos en el campo de aprendizaje automático en constante cambio.

Los 400 000 núcleos en el WSE están conectados a través del tejido de comunicación Swarm en una malla 2D con un ancho de banda de 100 Pb/s. El Swarm es un tejido de comunicación masivo que ofrece un ancho de banda innovador y una baja latencia a una fracción del consumo de energía de las técnicas tradicionales utilizadas para agrupar unidades de procesamiento de gráficos. Es totalmente configurable; El software configura todos los núcleos del WSE para soportar la comunicación precisa requerida para entrenar el modelo especificado por el usuario. Para cada red neuronal, Swarm proporciona una ruta de comunicación única y optimizada.

El WSE tiene 18 GB de memoria integrada en el chip, toda ella accesible en un solo ciclo de reloj, y proporciona un ancho de banda de memoria de 9 PB/s. Esto es 3000x veces más capacidad y 10000x veces mayor ancho de banda que el competidor líder. Más núcleos y más memoria local permite un cálculo rápido y flexible, con menor latencia y con menos energía.

Esto permitiría una aceleración masiva en aplicaciones de IA y reduciría los tiempos de entrenamiento de meses a solo un par de horas. Esto es verdaderamente revolucionario, no hay duda al respecto, suponiendo que puedan cumplir su promesa y comenzar a entregar esto a los clientes en breve. El Cerebras WSE se fabrica en una oblea TSMC de 300 mm utilizando su proceso de 16nm, lo que significa que es una tecnología de vanguardia y solo un proceso de fabricación por detrás de gigantes como Nvidia. Por supuesto, con 84 bloques interconectados que albergan más de 400.000 núcleos, el proceso en el que se fabrica simplemente no importa.

El rendimiento y el binning (frecuencias) del Cerebras WSE va a ser muy interesante. Por un lado, si está utilizando toda la oblea como un único die, obtendrá un rendimiento del 100% si el diseño puede absorber defectos o del 0% si no puede. Claramente, desde que se hicieron los prototipos, el diseño es capaz de absorber defectos. De hecho, el CEO declaró que el diseño espera alrededor del 1% al 1.5% de defectos del área de superficie funcional, pero esto no es un problema, ya que la microarquitectura simplemente reconfigura los núcleos disponibles. Además, se colocan núcleos redundantes en todo el chip para minimizar cualquier pérdida de rendimiento. No hay información sobre binning en este momento, pero no hace falta decir que este es el diseño más binnable del mundo.

También se nos dice que la compañía tuvo que diseñar su propia ciencia de fabricación y encapsulado considerando que actualmente no hay herramientas diseñadas para manejar un procesador a escala de obleas. No solo eso, el software tuvo que ser reescrito para manejar más de 1 billón de transistores en un solo procesador.

Fuente: elchapuzasinformatico, anandtech,


1 comentario

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *