Ha sido difícil pasar por alto el hecho de que Intel ha estado aspirando a muchos talentos de la industria, lo que trae consigo mucha experiencia. Renduchintala, Koduri, Keller, Hook y Carvill son solo para nombrar algunos. Este nuevo equipo ha decidido sacar a Intel de su shell por primera vez en mucho tiempo, manteniendo el primero en una nueva tradición de Intel Architecture Days. A través de las cinco horas de presentaciones, Intel levantó la tapa de los planes de trabajo en núcleo de CPU hasta 2021, la próxima generación de gráficos integrados, el futuro del negocio de gráficos de Intel, los nuevos chips construidos en tecnologías de empaquetado 3D e incluso partes de la microarquitectura para el 2019 en procesadores de consumo. En otras palabras, es muchas de las cosas que hemos estado pidiendo durante años. Y ahora que Intel está llevando a cabo una vez más este tipo de divulgaciones, hay mucho por descubrir.

CPU Core Roadmaps
Es común que compañías como Intel le pregunten a los miembros de la prensa qué disfrutan de los anuncios de Intel, sus competidores u otras compañías de la industria. Una de las respuestas que nunca me cansaré de decir es ‘roadmaps‘. La hoja de ruta es un documento simple pero permite a una empresa explicar parte de sus planes futuros de una manera muy fácil de entender. Le muestra a la prensa, a los clientes y a los socios, que la compañía tiene una visión más allá del próximo producto y que espera entregar a una cadencia aproximada, con suerte con algunos marcadores en adiciones o mejoras de rendimiento esperadas. Los mapas de ruta rara vez se toman en piedra, ya que la mayoría de las personas entiende que tienen un elemento de confusión dependiendo de factores externos.

Con ese fin, he estado solicitando a Intel que muestre planes de trabajo durante años. Solían ser lugares comunes, pero desde Skylake, se ha secado. En los últimos meses, Intel ha mostrado mapas de ruta aproximados del centro de datos , con Cascade Lake, Cooper Lake y Ice Lake y las siguientes generaciones. Pero para la familia Core ha sido algo más difícil. Dependiendo de con qué analista hable, un buen número apuntará a algunos de los derivados de Skylake como puntos de espera, mientras que los problemas con 10 nm se han resuelto. Pero no obstante, todo lo que solemos escuchar es el débil susurro de un nombre en clave potencialmente, lo que no significa mucho.

Así que imagina mi deleite cuando no obtenemos una hoja de ruta de Intel en las CPU, sino dos. Intel nos dio la hoja de ruta de la arquitectura Core y la hoja de ruta de la arquitectura Atom para las próximas generaciones.

Para la arquitectura Core de alto rendimiento, Intel enumera tres nuevos nombres de código en los próximos tres años. Para ser muy claros aquí, estos son los nombres de código para la microarquitectura del núcleo individual, no el chip, que es un punto de partida importante de cómo Intel ha hecho las cosas anteriormente.

Sunny Cove, construida a 10 nm, llegará al mercado en 2019 y ofrecerá un mayor rendimiento de un solo hilo, nuevas instrucciones y una “escalabilidad mejorada”. Intel entró en más detalles sobre la microarquitectura Sunny Cove, que se encuentra en la siguiente parte de este artículo. Para evitar dudas, Sunny Cove tendrá AVX-512. Creemos que estos núcleos, cuando se combinan con gráficos Gen11, se llamarán Ice Lake.

Willow Cove parece que será un diseño central de 2020, muy probablemente también en 10 nm. Intel incluye los aspectos más destacados aquí como un rediseño de la memoria caché (lo que podría significar ajustes de L1 / L2), nuevas optimizaciones de transistores (basadas en la fabricación) y funciones de seguridad adicionales, que probablemente se refieran a mejoras adicionales de nuevas clases de ataques de canal lateral.

Golden Cove completa el trío, y está en ese segmento de 2021 en la gráfica. El nodo de proceso aquí es un signo de interrogación, pero es probable que lo veamos en 10nm y 7nm. Golden Cove es donde Intel agrega otra porción grande del pastel, con un aumento en el rendimiento de un solo hilo, un enfoque en el rendimiento de IA, y posibles redes y adiciones de IA al diseño central. Las características de seguridad también parecen que reciben un impulso.

La hoja de ruta de la microarquitectura Atom de menor potencia tiene una cadencia más lenta que la microarquitectura Core, lo que no es sorprendente dada su historia. Al ver cómo Atom tiene que adaptarse a una gama de dispositivos, esperamos que haya una amplia gama de capacidades, especialmente desde el lado de SoC.

La próxima microarquitectura para 2019 se llama Tremont, que se centra en los aumentos de rendimiento de un solo hilo, la vida útil de la batería y el rendimiento del servidor de red. Basándonos en algunos de los diseños más adelante en este artículo, creemos que este será un diseño de 10 nm.

Seguirá a Tremont en Gracemont, que Intel enumera como un producto 2021. Dado que Atom está diseñado para impulsar continuamente tanto el rendimiento en el extremo superior de sus capacidades como la eficiencia en el extremo inferior, Intel indica que Gracemont tendrá un rendimiento de subproceso único adicional y un enfoque en el aumento de la frecuencia. Esto se combinará con el rendimiento vectorial adicional, lo que probablemente significa que Atom obtendrá algunas unidades vectoriales más anchas o admitirá nuevas instrucciones vectoriales.

Más allá de esto habrá un núcleo ‘mont’ futuro (y no un mes como se muestra en la imagen). Aquí, Intel está explicando lo que podría tener este nuevo núcleo 2023, para el cual está la lista general de rendimiento, frecuencia y características.

Como se mencionó anteriormente, estos son solo los nombres de la microarquitectura. Los chips reales en los que se encuentran estos núcleos probablemente tengan nombres diferentes, lo que significa un nombre Lake para la microarquitectura Core. En el evento, Intel declaró que Ice Lake tendría núcleos de Sunny Cove, por ejemplo.

Otro aspecto de las presentaciones de Intel fue que es probable que las microarquitecturas futuras se desacoplen de cualquier tecnología de proceso. Con el fin de incorporar cierta resistencia en la línea de productos de la compañía, tanto Raja Koduri como el Dr. Murthy Renduchintala explicaron que las futuras microarquitecturas no dependerán del proceso y que los últimos productos saldrán al mercado con las mejores tecnologías de proceso disponibles en ese momento. Como resultado, es probable que veamos algunos de los diseños Core entre diferentes tecnologías de fabricación.

Intel también entró en un poco de detalle sobre la microarquitectura de Sunny Cove.

Sunny Cove Microarquitectura: Un vistazo al back-end
Una de las mejores partes cuando se anuncia una nueva microarquitectura es aprender cómo funciona todo y cómo ha cambiado. Intel ha estado en las variantes cercanas del núcleo de Skylake desde que Skylake se lanzó por primera vez en 2015, que ha llevado a cabo la actualización de Kaby Lake, Coffee Lake y Coffee Lake, por lo que recibir una actualización de su antiguo diseño de núcleo es más que bienvenido. Si bien aplaudo a Intel por obtener algo nuevo para poner delante de nuestras caras, el nivel de información desafortunadamente no fue completo. Por razones de ‘discutiremos más cerca del lanzamiento’, Intel solo se dispuso a discutir el extremo posterior del diseño de la microarquitectura en cualquier detalle. En el lenguaje de diseño del núcleo, esto significa todo más allá de las colas de envío y pedido.

Intel enmarcó sus actualizaciones de microarquitectura en dos secciones diferentes: aumentos de rendimiento para fines generales y aumentos de rendimiento para propósitos especiales. La compañía describió las actualizaciones de propósito general esencialmente como un rendimiento de IPC (instrucciones por reloj) sin procesar o un aumento en la frecuencia. Un aumento en cualquiera de estos dos lleva a un aumento en el rendimiento sin importar el código, al menos siempre y cuando esté vinculado a la computación. La frecuencia suele ser una función de la implementación y el proceso, mientras que los aumentos de IPC pueden deberse a que los núcleos son más anchos (más instrucciones de ejecución por reloj), más profundas (más paralelismo por reloj) y más inteligentes (mejor entrega de datos a través del extremo frontal).

El otro tipo de aumento de rendimiento es el tipo de propósito especial, lo que significa que ciertas cargas de trabajo utilizadas en escenarios específicos se pueden mejorar mediante métodos de aceleración adicionales, como IP dedicada o instrucciones especializadas.

Sunny Cove está configurado para tener ambos.

En la parte posterior del diseño de microarquitectura, Intel ha hecho varias cosas, entre ellas aumentar el tamaño de la memoria caché, hacer que la ejecución del núcleo sea más amplia, aumentar el ancho de banda de la tienda L1 y otras cosas.

A partir de las mejoras en el caché, el back-end del núcleo de Sunny Cove tiene un caché de datos L1 de 48 KB, actualizado desde 32 KB. Normalmente, las fallas en la memoria caché disminuyen por un factor de una raíz cuadrada del tamaño proporcional cuando se incrementa la memoria caché, por lo que en este caso debemos esperar una reducción del 22% en las fallas en la memoria caché L1-Data. Se nos dice que el tamaño del caché L2 también se ha incrementado en las variantes Core y Xeon de Sunny Cove (256 KB y 1 MB respectivamente), aunque a qué tamaño se revelará exactamente en una fecha posterior.

Si bien no es back-end, la memoria caché micro-op (uOp) ha aumentado desde un diseño de 2048 entradas, aunque exactamente a lo que Intel no está diciendo en este momento. El tamaño de TLB del segundo nivel también ha aumentado, lo que ayudará con la traducción automática de direcciones de la máquina. Normalmente, esto se incrementa cuando se deben mantener y almacenar más búsquedas, lo que significa que Intel identificó una serie de casos de uso donde las direcciones recientes habían sido desalojadas. Poco antes de ser necesitado.

En el diagrama podemos ver algunos otros cambios, como el aumento en los puertos de ejecución de ocho a diez, lo que permite que más instrucciones salgan de los programadores al mismo tiempo. El puerto 4 y el puerto 9 están vinculados a un almacén de datos cíclicos, duplicando el ancho de banda, pero también las capacidades de almacenamiento de AGU se han duplicado, por lo que ayudará el aumento del tamaño L1-D. Anteriormente, en Skylake había un posible cuello de botella cuando las tres AGU podían intentar una tienda, sin embargo, solo había suficiente ancho de banda para una por ciclo de reloj. El rendimiento de carga no se ve afectado. También hay un aumento de asignación, pasando de cuatro a cinco. Esto significa que el despacho fuera del búfer de reorden ahora puede alcanzar cinco instrucciones por ciclo, en lugar de cuatro, sin embargo, dado que el ops / cycle fuera de los decodificadores Skylake y el caché de uOp fue de cuatro a cinco (dependiendo de ciertos factores), Será interesante ver cómo ha cambiado el front-end como resultado.

También hay cambios sustanciales en los puertos de ejecución entre Skylake y Sunny Cove, que se representan mejor en un diagrama y una tabla:


Las partes resaltadas en negrita son diferentes en el núcleo de Sunny Cove.

Vemos que Intel ha equipado la sección Integer del núcleo con más unidades LEA para ayudar con los cálculos de direccionamiento de memoria, posiblemente para ayudar a mejorar la pérdida de rendimiento con mitigaciones de seguridad que requieren cálculos frecuentes de memoria o para ayudar con el código de matriz de alto rendimiento con compensaciones constantes. El puerto 1 obtiene la unidad Mul del puerto 5 de Skylake, probablemente para fines de rebalanceo, pero también hay una unidad divisoria de enteros aquí. Esta adición es un poco mejorada, ya que sabemos que Cannon Lake también tiene una unidad IDIV de 64 bits en su diseño. En ese caso, se reduce la división de enteros de 64 bits de 97 relojes (una combinación de instrucciones) a 18 relojes, y esto es probablemente algo similar. También en el lado INT es que la unidad de multiplicación del Puerto 5 se ha convertido en una unidad ‘MulHi’ que, en otras implementaciones, deja el detalle más significativo del resultado en un registro para su uso posterior. Sin embargo, no estoy seguro de cuál es su posición aquí en el núcleo de Sunny Cove.

En el lado de la PF, Intel ha aumentado los recursos de orden aleatorio, según se nos dijo que era porque tenían clientes que solicitaban esta funcionalidad para ayudar a eliminar los cuellos de botella en su código. Intel no especificó las capacidades de las FMA en la parte FP del núcleo, sin embargo, sabemos que el núcleo tiene una unidad AVX-512, por lo que al menos una de estas FMA debe interactuar con ella. Cannon Lake solo tiene una FMA de 512 bits, y lo más probable es que se traslade aquí, y la versión escalable de Xeon podría obtener dos. Aunque me gustaría estar equivocado.

Otras actualizaciones del núcleo como se enumeran en Intel incluyen mejoras al predictor de rama y una ‘latencia de carga efectiva’ reducida (debido al TLB y L1-D), aunque se señaló que estas mejoras no ayudarán a todos, y podrían Requiere nuevos algoritmos para usar partes específicas del núcleo.

Estamos a la espera de ver qué cambios ha hecho Intel en el front-end, que es donde muchas de las frutas de bajo costo a menudo se encuentran para el rendimiento.

Además de las diferencias de microarquitectura, hay nuevas instrucciones para el núcleo de Sunny Cove para ayudar a acelerar las tareas de cómputo especializadas. Con la unidad AVX-512 en juego, el nuevo núcleo admitirá las instrucciones de IFMA para el cálculo de grandes cálculos aritméticos, y que también son útiles en la criptografía. En la misma línea, también se admiten Vector-AES (que admite más AES al mismo tiempo) y Vector Carryless Multiply. También se agregan las instrucciones de SHA y SHA-NI, junto con las instrucciones de Galois Field, que también son elementos fundamentales en algunos elementos de la criptografía.

Para Sunny Cove, también hay soporte incorporado para mayores capacidades de memoria. La tabla de paginación para la memoria principal es ahora un diseño de cinco capas, desde cuatro capas, que admite un espacio de direcciones lineales de hasta 57 bits y un espacio de direcciones físicas de hasta 52 bits. Esto significa, según Intel, que los procesadores del servidor podrían en teoría soportar 4 TB de memoria por socket. Veremos que Sunny Cove llegará al mercado en el espacio del servidor con Ice Lake-SP en 2020 de acuerdo con los planes de trabajo anteriores de Intel Xeon. Por seguridad, Sunny Cove tiene acceso al cifrado de memoria total de múltiples teclas y a la prevención de instrucciones en modo usuario.

Entonces, ¿dónde nos deja esto en términos de rendimiento predicho en Sunny Cove en comparación con Skylake en un reloj por nivel de reloj? Lamentablemente no tenemos suficiente información. Sólo hay lo suficiente para abrir el apetito. Intel quiere que tú (y yo) regresemos por más en 2019.

Los gráficos de última generación Gen11: ¡Juegos jugables y sincronización adaptable!
Algunas de las primeras palabras que salen de la boca de Raja Koduri acerca de los gráficos son que Intel tiene el deber de cumplir con sus mil millones de clientes con gráficos integrados para darles algo que es útil, y que es hora de que Intel proporcione gráficos que la gente realmente puede jugar juegos. Dada su experiencia en el tema, no debería parecer demasiado descabellada: más personas juegan juegos que nunca, y estos usuarios quieren jugar sin importar cuál sea su hardware. Con ese fin, Raja declaró que los gráficos Gen11 son el primer paso en una nueva política de gráficos para proporcionar el rendimiento y las características que permiten a los jugadores jugar a los juegos más populares, sin importar la implementación.

Gen11: los primeros gráficos GT2 TFLOPS de Intel
En 2015, Intel lanzó el procesador Skylake con gráficos integrados Gen9. En lugar de pasar directamente a Gen10 la próxima vez, obtuvimos Gen 9.5 tanto en Kaby Lake como en Coffee Lake, que supuestamente se basan en lo que habría sido Gen 10. De hecho, los gráficos para el fallido chip de Cannon Lake de Intel de 10 nm estaban destinados a ser llamardos Gen10, sin embargo, Intel nunca lanzó un procesador Cannon Lake con gráficos integrados que funcionen, y dado que Gen11 va más allá de lo que Gen10 habría sido, hemos ido directamente a Gen11. ¿Tener sentido? Bueno, Intel ni siquiera se molestó en reconocer a Gen10 en su gráfica histórica:

Veremos que los gráficos Gen11 se emparejan con los núcleos de Sunny Cove en 10nm en algún momento de 2019 de acuerdo con los planes de trabajo. Sin embargo, en lugar de dar un diseño de arquitectura detallado para el nuevo producto, en cambio, nos dieron un diagrama de nivel bastante alto.

Desde aquí podemos deducir algunas cosas. Nos dijeron que esta configuración es la configuración de GT2, que tendrá 64 unidades de ejecución, en comparación con 24 en Gen9.5. Estas 64 UE se dividen en cuatro porciones, y cada una de ellas se compone de dos subdivisiones de 8 UE por pieza. Cada subdivisión tendrá una memoria caché de instrucciones y una muestra 3D, mientras que la porción más grande tendrá dos muestreadores de medios, un PixelFE y un hardware adicional de carga / almacenamiento. Intel enumera la eficiencia, el rendimiento, el 3D avanzado y las capacidades multimedia de Gen11, y una mejor experiencia de juego.

Intel no entró en demasiados detalles respecto a cómo los EU tienen un mayor rendimiento, sin embargo, la compañía dijo que las interfaces FPU dentro de la UE se han rediseñado y aún tiene soporte para un rendimiento rápido (2x) de FP16 como se vio en Gen9.5 . Cada UE admitirá siete hilos como antes, lo que significa que todo el diseño de GT2 tendrá esencialmente 512 tuberías simultáneas. Para ayudar a alimentar estas tuberías, Intel declara que ha rediseñado la interfaz de memoria, además de aumentar el caché L3 de la GPU a 3 MB, un aumento de 4x sobre Gen9.5, y ahora es un bloque separado en la división de la GPU.

Otras características incluyen la representación basada en mosaico, que Intel declaró que el hardware de gráficos podrá habilitar / deshabilitar en una base de pase de representación. Esto hará que Intel sea el miembro final de la comunidad de proveedores de GPU para PC para implementar esto, después de NVIDIA en 2014 y AMD en 2017. Si bien no es una panacea para todos los problemas de rendimiento, una buena configuración de representación de teselas se adapta bien a las limitaciones de ancho de banda de una GPU integrada . Mientras tanto, la compresión de la memoria sin pérdida de Intel también ha mejorado, ya que Intel muestra un mejor aumento de rendimiento de 10% o un aumento de media geométrica de 4%. La interfaz GTI ahora admite 64 bytes por reloj de lectura y escritura para aumentar el rendimiento, que funciona con la mejor interfaz de memoria.

También se admite el sombreado de píxeles gruesos, la implementación de Intel de sombreado de múltiples tasas y un alcance similar al Variable Pixel Shading de NVIDIA. Esto permite que la GPU reduzca la cantidad de trabajo de sombreado total requerido al sombrear algunos píxeles en menos de 1: 1. Intel mostró dos demostraciones para CPS, donde el sombreado de píxeles se redujo como una función de la distancia del objeto a la cámara (para que usted trabaje menos cuando las cosas están más lejos), o se reduzca en función de qué tan cerca está el objeto del centro de la cámara. Pantalla, diseñada para ayudar a funciones como la renderización foveat para VR. Con una plantilla de 2×2 píxeles aplicada, lo que significa que solo se realizó una operación de sombreado de píxeles por bloque de 4 píxeles, Intel declaró un aumento de ~ 30% en la velocidad de cuadros en los juegos compatibles. Lamentablemente, esto debe aplicarse juego por juego para evitar pérdidas significativas de calidad de imagen, por lo que las ganancias de rendimiento no serán inmediatas ni universales.

Para el bloque de medios, Intel dice que el diseño Gen11 incluye un diseño de codificador HEVC con soporte de codificación y descodificación de alta calidad. Intel mencionó el hecho de que sus unidades de función fija de medios ya se utilizan en el centro de datos para el procesamiento de video, y los usuarios domésticos pueden aprovechar el mismo hardware. Intel también declaró que al usar decodificadores paralelos puede admitir secuencias de video concurrentes o pueden combinarse para admitir una gran corriente única, y este diseño escalable permitirá que el hardware futuro incremente las resoluciones máximas hasta 8K y más.

El punto culminante del motor de visualización es el soporte para las tecnologías de sincronización adaptativa . Nos dijeron que se anunció en el lanzamiento de Skylake, pero ahora finalmente está listo para ir a los gráficos integrados de Intel. Esto va de la mano con el soporte HDR debido a su ruta de datos de alta precisión.

Una cosa en esta presentación que Intel no mencionó directamente es que los gráficos Gen11 parecen tener soporte de salida de video tipo C, lo que posiblemente indica que Intel ha integrado el mux necesario en el propio chipset, eliminando otro IC del diseño de la placa base.

Demostrando Sunny Cove y Gen11 Graphics
Como parte del evento de arquitectura, Intel realizó varias demostraciones en un chip que supuestamente se basaba en los nuevos núcleos Sunny Cove y los gráficos Gen11.

Estos fueron sistemas de desarrollo con estos disipadores de calor de aspecto funky y ventiladores ruidosos para garantizar que no hubiera regulación térmica. Una cosa que vale la pena notar es el trozo de cinta negra en el disipador de calor aquí, que no estaba presente en una de las otras unidades de demostración.

Hola Ice Lake-U. Al ser un disipador térmico de la serie U, esto significa que el Core probablemente está diseñado para un escenario de 15W.

Tal vez no sea sorprendente que Intel no estuviera regalando nada en términos de la cantidad exacta de núcleos en pantalla, velocidades, feeds y potencia. Las demostraciones que estuvieron presentes involucraron 7-Zip y juegos.

La demostración de 7-Zip fue relativamente sencilla, ya que muestra cómo las nuevas instrucciones como Vector-AES y SHA-NI en Sunny Cove pueden darle al procesador un 75% de mejora en el rendimiento sobre una plataforma equivalente basada en Skylake en iso-frequency. Esto se incluye en las mejoras “especializadas” del núcleo en lugar de las mejoras de propósito general.

La otra demostración fue Tekken 7, que se ejecuta en una máquina Sunny Cove + Gen11 y se compara con una implementación de Skylake + Gen9. Sin duda, parecía claro que tenía mucho camino por recorrer para superar los 30 mínimos de FPS.

Yendo más allá de Gen11: Anunciamos la marca de gráficos discretos XE
Al no contentarnos con hablar de lo que traerá 2019, se nos dio una idea de cómo Intel también abordará su negocio de gráficos en 2020. Fue en este punto que Raja anunció el nuevo producto de marca para el negocio de gráficos discretos de Intel:

Intel utilizará la marca X e para su gama de gráficos que no se llamaron oficialmente ‘Gen12’ en discusiones anteriores. X e comenzará a partir de 2020, y cubrirá el rango desde gráficos para clientes hasta soluciones de gráficos para centros de datos.

Intel realmente divide este mercado, lo que demuestra que X e también cubre las futuras soluciones de gráficos integrados. Si esta diapositiva es algo para pasar, parece que Intel quiere que X e vaya de la entrada al rango medio para que sea entusiasta y hasta AI, compitiendo con lo mejor que la competencia tiene para ofrecer.

Intel declaró que X e comenzará con la tecnología de 10 nm de Intel y que caerá bajo la filosofía del software de pila única de Intel, por lo que Intel quiere que los desarrolladores de software puedan aprovechar las ventajas de CPU, GPU, FPGA y AI, todo con un solo conjunto de APIs. Este diseño X e será la base de varias generaciones de gráficos y muestra que Intel ahora está listo para unirse en torno a una marca que avanza.

Hubo cierta confusión con una de las diapositivas, ya que parece que Intel podría estar usando la nueva marca para referirse también a algunas de sus soluciones de FPGA y AI. Vamos a ver si podemos obtener una respuesta al respecto a su debido tiempo.

Cambiando cómo se hacen los chips: Empaquetado 3D con FOVEROS
Cualquier persona que haya seguido cualquier cantidad de diseño de chips en semiconductores debe saber que la mayoría de las CPU y SoC en producción hoy en día se basan en chips monolíticos: piezas individuales de silicio tienen todo lo que se necesita dentro, antes de colocarlo en un paquete y en un sistema. Aunque es más raro, hay paquetes de múltiples chips, donde se colocaron varios chips en un paquete con una conexión compartida. Más allá de esto, hemos visto intercaladores o puentes incrustados diseñados para unir diferentes chips con interconexiones de alta velocidad. Ahora Intel está lista para llevar el apilamiento 3D al mercado masivo.

Uno de los mayores desafíos en el diseño moderno de chips es minimizar el área de chip. Un chip pequeño disminuye los costos, generalmente también la energía, y puede facilitar su implementación en un sistema. Sin embargo, cuando se trata de extraer el rendimiento, estamos en los límites de la escala: uno de los inconvenientes de los grandes chips monolíticos, o incluso los paquetes de múltiples chips, es que la memoria está demasiado lejos. Intel hoy está listo para hablar sobre su tecnología Foveros, que involucra interposers activos en pequeños factores de forma para unir tecnologías diferenciadas.

Foveros: es griego para impresionante, aparentemente

La forma en que Raja introdujo esta tecnología comenzó con la discusión de las tecnologías de proceso. Durante muchos años / décadas, Intel se ha centrado en los nodos de proceso de alto rendimiento, intentando extraer todo lo posible de sus núcleos de alto rendimiento. Además, Intel también ejecuta un nodo de proceso optimizado de E / S en una cadencia similar pero más adecuado para funciones de tipo PCH o SoC.

Los 126x y 127x son los sistemas de numeración internos para las tecnologías de nodo de proceso de Intel, aunque no diferencian las actualizaciones de BKM para las variantes de nodo “+” que resulta. Pero el punto aquí es que Intel ya sabe que necesita ciertas optimizaciones de procesos en función del tipo de transistores, el rendimiento y la potencia necesarios. En el futuro, Intel va a expandir su base de nodos para que pueda cubrir más puntos de potencia y rendimiento.

Entonces, para este ejemplo, Raja sacó el conjunto actual de tecnologías de proceso para 2019. Para un proceso de fabricación, el proceso tiene el proceso 1274 en 10nm, IO tiene el proceso 1273 (14nm), mientras que esta nueva tecnología especial de Foveros está bajo P1222. Además de la fabricación, Intel trabajará en optimizaciones centradas en los aspectos informáticos del nodo de fabricación. También habrá un conjunto de desarrollos para las tecnologías de nodos futuros, y la columna final muestra que Intel tiene una investigación de búsqueda de caminos para examinar las tecnologías futuras y determinar qué capacidades serán posibles en los diseños futuros. Esto suena bastante a lo que una empresa como Intel debería estar haciendo, así que no tengo ningún argumento hasta ahora. El objetivo aquí es que cada tipo de uso de transistor puede ser diferente, y no hay un enfoque de talla única para todos.

Una forma de ayudar con esto es a través de chiplets y empaques. Al elegir el mejor transistor para el trabajo en cada caso, ya sea CPU, GPU, IO, FPGA, RF o cualquier otra cosa, con el empaque correcto, se puede armar para obtener las mejores optimizaciones disponibles.

Así que aquí es donde encaja Foveros. Foveros es la nueva tecnología de interposición activa de Intel diseñada como un paso por encima de sus propios diseños de EMIB para implementaciones de factor de forma pequeño, o aquellos con requisitos extremos de ancho de banda de memoria. Para estos diseños, la potencia por bit de los datos transferidos es muy baja, sin embargo, la tecnología de empaque tiene que lidiar con la disminución del paso de golpe, la mayor densidad de golpe y también la tecnología de apilamiento de chips. Intel dice que Foveros está listo para el horario de máxima audiencia y que pueden producirlo a escala.

Así que este paquete ‘3D’ de Foveros solo suena como un interposer de silicona, como lo que hemos visto en las GPU de AMD en Fiji o NVIDIA de centros de datos de gama alta. Sin embargo, Intel está por encima de lo que están haciendo esos productos al hacer realmente la parte interposer del diseño. El intercalador contiene las vías y las trazas de silicio a través requeridas para llevar la energía y los datos a los chips en la parte superior, pero el intercalador también lleva el PCH o IO de la plataforma. Es, en efecto, un PCH completamente funcional, pero con vías para permitir que los chips se conecten en la parte superior.

La primera iteración de esta tecnología es menos complicada que la diapositiva anterior, simplemente utilizando un conjunto de núcleos de CPU conectados a la PCH a continuación, pero la idea es que un intercalador grande puede tener funciones de selección y las que se pueden eliminar de los chips anteriores para ahorrar espacio. Esto también le permite a Intel usar los diferentes tipos de transistores en diferentes chips; en el ejemplo que nos dieron, usamos un intercalador integrado en el nodo del proceso 22FFL, con un conjunto de CPU de 10 nm en la matriz superior. Por encima de esto, se proporciona DRAM en un paquete POP. Suena bien, ¿verdad?

En realidad, Intel tenía uno o dos chips Foveros trabajando en el área de demostración. Estos, explicó Intel, eran diseños híbridos x86 que combinaban un solo núcleo grande con cuatro núcleos Atom más pequeños en la misma pieza de silicio de 10 nm. Estoy seguro de que he oído hablar de grandes. Un poco antes, ¡pero me sorprendió que Intel realmente vaya a hacerlo! Conseguimos tomar una foto del diagrama de bloques, que Intel quitó de su plataforma de diapositivas antes de enviarlo a la prensa después de las presentaciones. Todos los detalles en la página siguiente.

La primera CPU de Intel Fovoros y la primera híbrida x86: Core plus Atom en 7 W en 10 nm
Quizás alguien me corrija, pero no recuerdo un momento en el que Intel haya puesto múltiples núcleos x86 de diferentes configuraciones en el mismo bit de silicona ( ed: Intel Edison ). Desde que Arm comenzó a hacerlo con sus grandes. Pequeños diseños en teléfonos inteligentes, una pregunta perenne era si Intel iba a hacer algo similar, ya sea con núcleos Atom grandes y pequeños, o moviendo un Core de alto rendimiento a la mezcla. Cuando Intel abandonó el mercado de teléfonos inteligentes y tabletas, asumimos que la idea estaba muerta. Pero, como un zombie reanimado, se ha levantado de la tumba. Introduzca la CPU Intel x86 híbrida.

Este pequeño paquete 12×12 se construye utilizando la tecnología Fovoros de Intel, utilizando un chip IO 22FFL como el interpositor activo conectado con TSV a un chip de 10 nm que contiene un solo núcleo Sunny Cove y cuatro núcleos Atom (¿Tremont?). Este pequeño chip es más pequeño que una moneda de diez centavos, y está diseñado para tener una potencia de reserva de 2 mW. Parece que este chip está destinado a dispositivos móviles.

Aquí está el diagrama de fabricación, que muestra la idea de que la memoria POP se coloca sobre el diseño de Fovoros para dar el producto final. Muy parecido a un chip móvil.

El sistema de demostración que Intel tenía en pantalla se parecía al diseño anterior de Sunny Cove, sin embargo, este disipador de calor era más pequeño y tenía unos cuantos conectores diferentes. Se nos dijo que este chip admitirá PCIe para M.2 y UFS, ambos se encuentran en dispositivos móviles. También parecía un par de conectores de tarjeta SIM en esta placa base.

Sin embargo, la parte clave de esta discusión es este diagrama de bloques que estaba en una de las diapositivas de Intel. Aquí vemos un solo ‘Big CPU’ con 0.5 MB de caché privado de nivel medio, cuatro ‘Pequeños CPU’s con un caché compartido de 1.5 MB L2, un uncore que tiene 4MB de caché de último nivel, un controlador de memoria de cuatro canales (4×16 bits ) con soporte para LPDDR4, un diseño de 64 EU con gráficos Gen11, el controlador de pantalla Gen 11.5, una nueva IPU, soporte MIPI con DisplayPort 1.4 y todo esto en un paquete pequeño.

En serio, sin embargo, esto tiene el potencial de ser una gran fuente de ingresos para Intel. Hicieron este chip, que permite que los núcleos entren en estado de reposo C6 cuando no están en uso, que tiene un tamaño de matriz inferior a 12x12mm (144 mm2), y se dirigen al mercado de dispositivos sin ventilador sub-7W. Eso es con un gran núcleo, cuatro núcleos Atom y un diseño GT2 64 EU.

En realidad, Intel dice que la razón por la que surgió este producto es porque un cliente solicitó un producto de este rendimiento pero con un estado de alimentación de reserva de 2 mW. Para hacer esto, Intel creó y mejoró varias tecnologías dentro de la empresa. El producto final es aparentemente ideal para el cliente, sin embargo, el chip también estará disponible para otros OEM.

En nuestra sesión de preguntas y respuestas con los miembros principales de Intel, quedó claro que esta tecnología aún está en su infancia, e Intel ahora tiene un nuevo juguete para jugar. Jim Keller dijo que internamente están probando muchas cosas nuevas con esta tecnología para ver qué funciona y qué haría un buen producto, por lo que deberíamos ver más diseños de Foveros hasta 2019 y 2020.

Ice Lake 10nm Xeon escalable en exhibición
Una de las conversaciones más tranquilas en el evento fue discutir el enfoque de Intel en el centro de datos. Hemos cubierto esta historia en detalle, especialmente en la Cumbre centrada en los datos de Intel hace solo unos meses. Intel ha declarado que Cascade Lake y Cooper Lake son los siguientes dos productos para el mercado empresarial, ambos construidos a 14 nm, que se centran en la seguridad mejorada y en las instrucciones de AI para ayudar con la aceleración. También sabemos que, después de estos dos, Intel tendrá una versión escalable de Ice Lake a 10 nm, pero eso es todo.

Para ser honesto, en realidad no sabemos mucho más de lo que hicimos en ese entonces. Intel confirmó que Ice Lake se construirá utilizando los núcleos de Sunny Cove. Pero Intel también mostró lo que dijeron que era un procesador y paquete Ice Lake Xeon de 10 nm, como se muestra en la imagen de arriba.

Póngame un tono escéptico, pero es probable que lo que se sostuvo no sea ICL-SP o simplemente un silicio que no funciona. Para hacer esos productos, Intel tendría que haber bombeado al menos un chip grande (350mm2 +?) Que funcionó y luego colocarlo en un paquete con un separador de calor. Intel finalmente parece estar contento al analizar algunos productos en 10 nm, como se muestra en este evento, pero todo el hardware de 10 nm se basa en un pequeño silicio de 100 mm2 o más pequeño. Dados los problemas documentados de Intel, me hubiera encantado que la CPU que se mantuvo en el aire como Ice Lake-SP. Pero necesitaré ver algo más concreto para creerlo en este punto; Es demasiado un salto.

Finalizando el día de la arquitectura de Intel
Mientras escribo esto, son las 3am PT y están a solo un par de horas de la hora de embargo listada por Intel. El evento terminó hace 10 horas (algunos de nosotros nos saltamos las bebidas del evento final para ponernos a escribir) y, a pesar del poco tiempo para escribirlo, fue un buen evento en general. Por primera vez en mucho tiempo, Intel decidió hablar de compras y, de manera honesta, con muy poco movimiento de la mano. Se podría argumentar que en cada punto de discusión, Intel hizo más preguntas de las que respondieron, pero lo positivo aquí es que se están respondiendo las preguntas, e Intel está dispuesta a compartir cosas como planes de trabajo en 2021, demostraciones de algunos productos nuevos e interesantes para 2019/2020. , y una muestra de cómo están progresando tanto en la fabricación como en la microarquitectura. Con suerte, Intel sentirá lo mismo y esto puede convertirse en una cadencia anual. El trío de Keller, Koduri y Murthy, es un equipo fuerte para acercarse a la prensa, y este evento encaja en esa medida.

Para finalizar este artículo, voy a poner en la sección de Preguntas y Respuestas de las presentaciones del día, así como algunas de las preguntas formuladas en mi mesa redonda particular. Es una lectura interesante, y ayuda que Jim esté lleno de citas memorables.

Preguntas y respuestas con Raja, Jim y Murthy
A través del Día de la Arquitectura de Intel, la compañía realizó un par de discusiones paralelas para que algunos periodistas hablaran con Raja Koduri y Jim Keller en un formato de mesa redonda. Más allá de eso, Murthy Renduchintala y Raja también celebraron una sesión de preguntas y respuestas al final del día. Respondieron preguntas sobre 10nm, la nueva tecnología Foveros, la adopción de Thunderbolt 3 y cómo Intel se acercará a 5G.

Para este artículo, las Preguntas y Respuestas se enumerarán como una versión abreviada de las respuestas, debido a limitaciones de tiempo y transcripción en vivo, con preguntas agrupadas según el tema. Diferentes miembros de la prensa hicieron estas preguntas.

P: Gran parte de la microarquitectura de la CPU en Intel se ha visto afectada por retrasos en la tecnología del nodo de proceso. ¿Qué salió mal y qué pasos se han tomado para asegurarse de que no vuelva a suceder?

R / J: Nuestros productos se desacoplarán de nuestra capacidad de transistor. Tenemos una IP increíble en Intel, pero todo estaba en el nodo de proceso de 10 nm. Si lo hubiéramos tenido en 14nm, tendríamos un mejor rendimiento en 14nm. Tenemos un nuevo método dentro de la empresa para desacoplar la propiedad intelectual de la tecnología de proceso. Debe recordar que los clientes compran el producto, no una familia de transistores. Es la misma transformación que tuvo que atravesar AMD para cambiar la metodología de diseño cuando estaban luchando. En Apple se le llamó el método ‘bus’.

M: Esta es una función de cómo nosotros, como compañía, solíamos pensar en las tecnologías de nodo de proceso. Fue una marca de marco (factor limitante) de cómo avanzó la compañía. Hemos aprendido mucho sobre cómo funcionó con 14nm. Ahora tenemos que asegurarnos de que nuestra IP no esté bloqueada por nodos. La capacidad de tener portabilidad de IP a través de múltiples nodos es excelente para la planificación de contingencia. Continuaremos asumiendo riesgos agresivos en nuestros diseños, pero también tendremos contingencia. Necesitamos tener una hoja de ruta tan perfecta como sea posible en caso de que se necesiten esas contingencias, y debemos asegurarnos de que se ejecuten lo antes posible si es necesario para mantener las expectativas del cliente en línea. Verá que las tecnologías de nodos futuros, como 10/7, se superponen mucho más que antes para mantener los diseños fluidos. Nuestra cartera de productos en 14nm podría haber sido mucho mejor si los diseños de nuestros productos no estuvieran bloqueados por nodos a 10nm.

R: En el futuro, no quedará ningún transistor, ningún cliente quedará atrás y no se quedará ninguna IP.

P: ¿Alguna vez veremos una CPU de escritorio monolítica de 10 nm en el extremo superior?

R: si

P: ¿Cómo es 10nm? ¿Ha cambiado?

R: Está cambiando, pero no ha cambiado. Hay muchas lecciones aprendidas sobre cómo Intel lo abordó para empezar. Hemos establecido un modelo mucho mejor entre la fabricación y el diseño. Queremos buenas abstracciones en el nodo de producto y proceso en el futuro. Cuando todo iba bien, este problema no se manifestaba y tampoco era un problema. Aquí hay complejidad cuando algo malo sucede en el proceso, por lo que todo el proceso se atasca, el resto del mundo resuelve esto con abstracción. Necesitamos asegurarnos de que no vuelva a suceder, y tenemos el deseo de crear resiliencia en la hoja de ruta.

P: ¿Hay planes para SoC mixtos, combinando CPU / GPU / AI / FPGA?

R: En nuestra hoja de ruta habrá combinaciones de vector / matriz escalables. Lo que nuestros clientes quieren son soluciones muy escalables. Los clientes quieren modelos de programación similares independientemente del silicio.

P: ¿Cuál ha sido el efecto de contratar a Raja / Jim y de traer personas externas a Intel?

M: Intel es muy innovador. Queremos sumarnos a esa química y asegurarnos de que traemos personas que entiendan Intel pero también aporten buenas ideas. Se trata de respetar al resto del mercado y asegurarse de que Intel sea competitivo. Es equilibrar el centro de los debates internos al asegurarnos de que estamos desafiando las creencias internas y el status quo al incorporar a personas que han hecho este tipo de cosas antes. Muestra las fortalezas de Intel en su capacidad para absorber ideas interesantes del exterior. Buscamos lo mejor en el exterior porque eso era lo que se requería para unirse con lo mejor en el interior.

P: ¿Cuál es el enfoque actual de Intel para 5G, dados los temas discutidos hoy?

M: Pensamos en 5G desde el centro de datos a la red, al borde y al dispositivo. En Intel creemos que la transición a 5G y sus implicaciones en la red, en términos de acelerar los datos y catalizar una red definida por software donde el silicio a medida se reemplaza por contenedores, es tan transformadora como el salto de analógico a digital. Acelerará la ‘cloudificación’ de la red. El borde es importante, especialmente para minimizar la latencia de nuevos servicios. La latencia inferior a milisegundos para estos servicios es crítica. La interfaz aérea también es importante. El dominio de la nube inteligente será el volante sobre qué tan rápido evoluciona la industria. Mencionamos en noviembre que nuestro módem XMM 5G estará en manos de los socios en la segunda mitad de 2019 con productos a principios de 2020. Es una arquitectura multimodal 5G LTE desde el primer día, compatible con todas las bandas de 3 mmWave, y Frecuencias de 6 GHz.

P: Como Thunderbolt 3 requiere chips adicionales, ¿cómo ve la futura adopción de OEM?

M: Integrated Type-C Thunderbolt 3 es la primera generación. Lo refinaremos en el futuro, esa es la genealogía natural de la tecnología. Constantemente pensamos en cuánto nos integramos en el chip y cuánto dejamos en el tablero.

R: Este es un gran desafío de IP, no solo para TB3, sino para otra IP. Los PHY integrados son importantes. Por ejemplo, al desagregar el transceptor en nuestra línea de FPGA, nos ha permitido centrarnos mucho en esa IP desacoplada.

P: En la demostración de FOVEROS, el chip combinó ambos núcleos x86 grandes construidos en la microarquitectura Core y los núcleos x86 pequeños construidos en la microarquitectura Atom. ¿Podemos esperar un futuro en el que los núcleos grandes y pequeños tengan la misma ISA?

R: Estamos trabajando en eso. ¿Tienen que tener la misma ISA? Ronak y el equipo están mirando eso. Sin embargo, creo que nuestro objetivo aquí es mantener el software lo más simple posible para los desarrolladores y clientes. Es un desafío que nuestros arquitectos han asumido para garantizar que productos como este entren sin problemas en el mercado. También tendremos una discusión de empaque el próximo año sobre productos como este. El chip que ve hoy, aunque fue diseñado principalmente para un cliente en particular, no es un producto personalizado y, en ese sentido, estará disponible para otros OEM.

M: Hemos dado el primer paso en un viaje. Ese primer paso es un salto, y el siguiente paso es incremental. Como hemos dicho acerca de la estrategia One API: si homogeneizamos la API, iremos a todas nuestras CPU. FOVEROS también es una nueva parte / producto que muestra que teníamos una brecha en nuestra cartera: nos ha ayudado a crear tecnologías para resolver un problema y esperamos expandirlo en el futuro con una nueva IP.

P: ¿Te estás divirtiendo con FOVEROS?

J: Debido a que Raja trata con GPU, se está divirtiendo con las comunicaciones de alto ancho de banda entre los elementos de cómputo. Es una tecnología nueva y estamos experimentando con ella. Lo que es frustrante es que como industria alcanzamos un límite para la densidad de flujo actual un año antes de que la tecnología de apilamiento fuera viable, por lo que para un alto rendimiento en el apilamiento, estamos intentando muchas cosas en diferentes áreas. No tiene sentido tener que hacer contratiempos térmicos si también elimina la razón por la que está usando la tecnología. Pero nos estamos divirtiendo y probando mucho, y veremos a FOVEROS en varias partes durante los próximos 5 años. Encontraremos nuevas soluciones a problemas que ni siquiera sabemos que existen todavía.

P: ¿Cuándo es el Día de la Tecnología de Fabricación?

M: Te lo diremos cuando suceda! Estoy seguro de que todos ustedes tienen opiniones sobre Intel 10nm en este momento y sí, estamos viendo lo que estamos haciendo, comiendo una cantidad de pastel humilde, pero estamos reajustando nuestro proceso para asegurarnos de que podemos tomar lo mejor sin importar cual sea el producto.


3 commentarios

Maikel · 20 diciembre, 2018 a las 9:30 pm

Tíos, este es un articu importante, y no han comentado.
O es que esta demasiado técnico?

    Richard · 21 diciembre, 2018 a las 8:30 am

    no el articulo esta bien y lo mas importante los active interposer que con eso intel piensa dejar al campo a AMD de nuevo con sus chiplets ya que estos irían pegados al PCB con menos ancho de banda mientras que amd usa infiniti fabric (lento) ya que todos los nucleon no pueden acceder a la memoria
    ademas Intel piensa aumentar la cache L1 lo que dara a los core mas oincha y mas rapido las instrucciones

      Maikel · 21 diciembre, 2018 a las 9:52 am

      En los Zen y Zen+ es donde varios nucleos no puende acceder a la memoria directamente, deben pasar por el control de otro nucleo. y esto solo pasa en los Theradripper y EPYC, todos los Ryzen acceden directo sus nucleos a memoria. Los que AMD presento el mes pasado es que en Zen 2 ya esto no sera asi, todos los nucleos pueden acceder directamente a la memoria, lo que mejorara mas a los Theradripper y Epyc y los Ryzen de mas nucleos que piensan sacar.
      Lo que Intel presento son igual chiplets, la forma de interconexion es distinta, y de todas maneras esto no es nuevo, ya en los Pentium D (durante un tiempo trabaje con uno, el primer multicore que trajinee) era asi, aunque la comunicacion era a travez del puente norte del chipset

      En fin, la presentacion de los chips de AMD sera a inicio de enero, los de Intel con estas cosas empezarian a fines del año que viene y otros en 2020. la cosa vienen rica el proximo año

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *