Análisis profundo de la arquitectura de GPU Intel Xe-LP

Como parte del Día de la Arquitectura Intel de hoy, Intel está dedicando una buena parte de su tiempo a hablar sobre los planes de arquitectura GPU de la compañía. Aunque no es un lugar tímido para Intel, per-se, la compañía sigue siendo mejor conocida por sus núcleos de CPU, y la cantidad de atención de marketing que han puesto en el lado gráfico de su negocio siempre ha sido un poco más débil como resultado. Pero, como tantas otras cosas en Intel, los tiempos están cambiando: Intel no solo está dedicando cada vez más espacio a las GPU, sino que durante los próximos dos años se están convirtiendo en un verdadero tercer jugador en el espacio de las GPU de PC, lanzando su primera nueva GPU discreta en varias generaciones.

Como parte de la arquitectura de GPU Xe anunciada previamente por Intel, la compañía tiene la intención de convertirse en un proveedor de GPU de arriba a abajo. Esto significa ofrecer GPU discretas e integradas para todo, desde centros de datos y clústeres HPC hasta computadoras portátiles y máquinas de juego de alta gama. Esta es una expansión masiva para una empresa que durante la última década solo ha estado ofreciendo GPU integradas, y que ha requerido mucha ingeniería para llegar aquí. Pero, por fin, después de un par de años de hablar sobre Xe y exponer su visión, Xe está a punto de convertirse en una realidad para los clientes de Intel.

Si bien nos enfocaremos en diferentes anuncios relacionados con Xe en artículos separados, con este enfocado en Xe-LP, recapitulemos rápidamente el estado de los planes Xe de Intel, las novedades a partir de hoy y dónde encaja Xe-LP en el panorama general. .

Cuando se anunció por primera vez en 2018, Intel presentó planes para una sola arquitectura de GPU, Xe, compuesta por tres microarquitecturas diferentes: Xe-LP, Xe-HP y Xe-HPC. Abarcando el mercado de abajo hacia arriba respectivamente, Xe-LP entraría en gráficos discretos integrados y de nivel de entrada, Xe-HP en partes para entusiastas y centros de datos, y finalmente Xe-HPC sería para clústeres de computación de alto rendimiento como el próximo Supercomputadora Aurora, la máquina de exaflop largamente esperada del Departamento de Energía de EE. UU.

Desde entonces, Intel ha revisado un poco ese plan, y lo que eran tres microarquitecturas ahora son cuatro. Al ser anunciado como parte del Día de la Arquitectura Intel hoy, Intel está revelando Xe-HPG, una microarquitectura adicional para chips enfocados en juegos. Tenemos más información sobre Xe-HPG en este artículo , pero en un alto nivel, está destinado a ser la pieza faltante del rompecabezas en la pila de productos de Intel, ya que ofrece un chip centrado en gráficos y juegos de alto rendimiento en comparación con Xe-HP, que se especializa en funciones de centros de datos como FP64 y escalabilidad de múltiples mosaicos. Está previsto que Xe-HPG llegue en 2021 y, en particular, se construirá en su totalidad en una fábrica de terceros, a diferencia del resto de la familia Xe.

Lo que, para volver al tema inmediato de Xe-LP, hace que el lanzamiento de este año de la primera microarquitectura Xe de Intel sea aún más importante. Los planes de Intel para Xe implican la construcción de piezas sucesivas de Xe, literalmente en el caso de Xe-HPC, optando por diseños más amplios que incorporan un número cada vez mayor de bloques de construcción base y luego escalar el número de GPU cuando ni siquiera eso es suficiente. Así que Xe-LP es en gran medida la base de la familia Xe, no solo en diagramas sino también en arquitectura; y, en consecuencia, lo que Intel ha diseñado para Xe-LP tendrá repercusiones para toda la pila de productos Xe.

Xe-LP: integrado con Tiger Lake, pero también discreto

Si bien los planes de productos de Intel para Xe los hacen llegar a todas partes, es lógico que las cosas comiencen en el mismo lugar que siempre han tenido para las GPU de Intel: gráficos integrados. Xe y Xe-LP harán su primera aparición en el mercado como parte del nuevo tigre Lago SoC de Intel, que la empresa será el lanzamiento de septiembre 2 ª . Y a pesar del hecho de que Intel no habla mucho sobre el lado del producto de Tiger Lake en sí, prefiriendo mantener el día de hoy sobre arquitectura y hacer septiembre sobre productos, Tiger Lake fue claramente el punto focal para el diseño de Xe-LP. Entonces, Tiger Lake es el catalizador de todo, como veremos cuando analicemos las características de Xe-LP.

Dadas las divulgaciones oficiales de Intel hoy (sin importar las muchas, muchas filtraciones), está claro que las partes de Tiger Lake se completarán con una sola porción de Xe-LP. Lo cual, nuevo en esta generación, es ahora 96 ​​de las Unidades de Ejecución de GPU (EU) más fundamentales de Intel. En general, la compañía tiene como objetivo un aumento del doble en el rendimiento sobre los gráficos de Ice Lake (Gen11),

Pero Tiger Lake no será el único lugar donde aparecerá Xe-LP. Como ya reveló Intel, la compañía está desarrollando una versión discreta de GPU, a la que llaman DG1 . Diseñado para combinarse con Tiger Lake en portátiles y otros dispositivos móviles, DG1 es la primera GPU discreta de Intel en más de veinte años, y es el sucesor espiritual de las configuraciones de GPU integradas GT3 y GT4e de Intel. Solo que en lugar de construir diseños de CPU de bajo volumen con una GPU más grande, Intel venderá a los OEM una GPU discreta basada en la misma arquitectura y construida en el mismo proceso SuperFin de 10 nm que la GPU integrada.

DG1 se enviará este año, así que espere verlo aparecer en computadoras portátiles Tiger Lake de mayor rendimiento. Sin embargo, Intel está revelando muy poco sobre la pieza, ya que no está revelando mucho de nada con respecto a las configuraciones de productos en la actualidad. Entonces, aunque sabemos que está basado en Xe-LP y que está enfocado en dispositivos móviles (Intel ha abandonado toda discusión sobre el uso de escritorio), no tenemos detalles oficiales sobre nada, como su configuración o qué tipo de memoria usa.

Y formando el pilar final, el espacio del servidor tampoco se quedará fuera en Xe-LP. Intel entregará un producto de cuatro GPU para servidores a los que llaman SG1. Basado en cuatro GPU DG1, esto será una especie de reemplazo para la familia de productos Xeon Visual Compute Accelerator de Intel. Diseñadas para aprovechar las GPU integradas anteriores de Intel, las tarjetas Xeon VCA estaban destinadas al mercado de codificación de video, utilizando los bloques de medios QuickSync de Intel para acelerar el proceso. Ahora que Intel tiene GPU discretas, ya no necesitan agrupar CPU para este mercado y, en su lugar, pueden vender aceleradores solo con la GPU. Es un nicho de mercado con respecto al ecosistema de GPU más grande, pero es importante para Intel, por lo que esperan que SG1 haga que los operadores de servidores se pongan de pie y se den cuenta, o al menos esos molestos Goa’ulds.

Conjunto de funciones Xe-LP: DirectX FL 12_1 con sombreado de frecuencia variable

Comenzando con la parte adecuada de nuestro análisis profundo de la arquitectura, comencemos con un resumen rápido del conjunto de funciones de gráficos de Xe-LP. A esto lo llamo un resumen rápido, ya que desafortunadamente no hay mucho nuevo de qué hablar aquí.

Desde una perspectiva de nivel de API, el conjunto de características de Xe-LP será virtualmente idéntico al de los gráficos Gen11 de Intel. Al igual que AMD con su arquitectura RDNA1, Intel ha decidido concentrar sus esfuerzos en actualizar los aspectos de bajo nivel de su arquitectura de GPU, realizando numerosos cambios en la planta baja. Como resultado, relativamente poco ha cambiado en lo que respecta a las características gráficas.

El resultado neto es que Xe-LP es un acelerador de nivel de característica de DirectX 12_1, con un par de características adicionales. En particular, el sombreado de tasa variable de nivel 1 , que se introdujo por primera vez para Intel en su hardware Gen11, está de vuelta nuevamente en Xe-LP. Aunque no es tan capaz como la implementación de nivel 2 más reciente, permite el soporte básico de VRS, con juegos capaces de configurarlo por llamada. En particular, Intel sigue siendo el único proveedor que admite el nivel 1; AMD y NVIDIA tienen (o van) directamente al nivel 2.

La buena noticia para Intel, al menos, es que ya estaban algo por delante del juego con Gen11, ofreciendo soporte 12_1 incluso para sus GPU integradas más lentas antes de que AMD lo hubiera implementado en todos sus productos. Entonces, en este punto, Intel todavía está a la par con otras soluciones gráficas integradas, si no un poco por delante.

La desventaja es que también significa que Intel es el único proveedor de hardware que lanza una nueva GPU / arquitectura en 2020 sin soporte para la próxima generación de funciones, que Microsoft y compañía están codificando como DirectX 12 Ultimate . El nombre comercial orientado al consumidor para el nivel de función 12_2, DirectX Ultimate incorpora soporte para el nivel 2 de sombreado de velocidad variable, junto con trazado de rayos, sombreadores de malla y comentarios de muestra. Y para ser justos con Intel, esperar el trazado de rayos en una parte integrada en 2020 siempre fue demasiado complicado. Pero siempre sería bueno ver algún progreso adicional. Además, coloca a DG1 en un lugar un poco extraño, ya que es una GPU discreta sin la funcionalidad 12_2.

Xe-LP por rebanada: 50% más grande con 96 EU

En lugar de centrarse en las características gráficas de alto nivel, la mayor parte de la atención de Intel se ha centrado en los detalles arquitectónicos de bajo nivel de sus GPU. Xe-LP es el componente básico de muchas más GPU Xe por venir, por lo que esta es un área en la que Intel necesitaba hacer las cosas bien, tanto en diseño como en eficiencia energética, para tener una base estable para crear productos futuros.

Y, sin duda, esa analogía fundamental también se extiende dentro de los diseños de GPU anteriores de Intel. Si bien Xe es una nueva marca y el comienzo de algo mucho más grande para Intel, no es un diseño de hoja limpia de las GPU de Intel. Más bien es una evolución enfocada de Gen11, actualizando y reemplazando aquellos bits que necesitan ser alterados por razones de escalabilidad o eficiencia. En consecuencia, hay una buena oferta de Gen11, y la estructura organizativa básica de las GPU de Intel sigue siendo la misma.

Como siempre, esto significa que comenzaremos con el Xe-LP Slice y los objetivos generales de diseño de GPU de Intel. El bloque de construcción común más grande de Intel, las GPU de la compañía, están organizadas en una o más secciones, con una sola sección que contiene una copia completa de los bloques funcionales centrales necesarios para la computación y el renderizado. Esto incluye la interfaz de geometría y ráster, el hardware de distribución de subprocesos, los propios EU, las unidades de textura y los backends de píxeles ROP.

Con Xe-LP, Intel ha expandido casi todo lo relacionado con una porción en un 50%. Lo que significa que, en comparación con las iGPU Gen11 de Intel, que superaron una sola porción, hay un 50% más de hardware de ejecución con el que jugar para la mayoría de los aspectos de la GPU. Esto incluye un 50% más de UE, lo que eleva el total a 96 UE, así como un 50% más de unidades de textura y un 50% más de ROP, para una tasa total de 48 texels / reloj y 24 píxeles / reloj respectivamente.

La única parte del segmento que no ha sido escalada explícitamente por tal factor es la interfaz. Todavía hay una única interfaz de distribución de geometría / rasterizador / píxel que alimenta el resto del segmento,y como Intel no ha revelado ningún cambio en el rendimiento de la geometría, asumo aquí que Intel todavía está enviando 1 primitivo por reloj por segmento. Por lo tanto, cualquier mejora tendrá que provenir de las velocidades de reloj.

Actualización : Intel me ha enviado una nota que dice que, de hecho, han actualizado su interfaz de geometría, por lo que este no es el mismo hardware 1 / tringle / clock que en las GPU Intel anteriores. La interfaz de geometría de Xe-LP ahora puede escupir dos triángulos eliminados de la cara posterior por reloj, duplicando el rendimiento máximo de geometría de Intel además de las mejoras de velocidad de reloj de Xe-LP.

Dejando a un lado el rendimiento, este es un gran paso adelante para el diseño de la GPU de Intel, ya que escalar una GPU por encima de 1 triángulo / reloj requiere una revisión significativa de sus capacidades de procesamiento de geometría. Por definición, una GPU con una tasa de triángulos de 2+ debe poder manejar múltiples triángulos a la vez, esencialmente convirtiendo un proceso en serie en un proceso paralelo, con toda la complejidad adicional que ello implica. Además, dado que el motor de geometría es parte del Slice, eso significa que los diseños Xe-LP más grandes (y Xe-HPG) podrán escalar aún más sus interfaces de geometría, ya que el motor de geometría se replicaría con cada corte. Esta es una distinción notable de los diseños anteriores de múltiples cortes como Gen9 GT4e, donde el motor de geometría era parte del “sin corte” y, por lo tanto, era una interfaz fija para toda la GPU.

Continuando, hablemos de velocidades de reloj. Como fue el caso de los núcleos de CPU Willow Cove de Intel, la compañía apuesta mucho por la eficiencia energética y las mejoras de velocidad de su nuevo proceso SuperFin de 10 nm para permitirles aumentar las velocidades de reloj de la GPU para cumplir sus objetivos de rendimiento. Como discutimos anteriormente, Intel busca duplicar el rendimiento de la GPU en comparación con Gen11 aquí, y con un 50% más de hardware de ejecución que solo cubre como máximo la mitad de esa necesidad, gran parte del resto del aumento provendrá de velocidades de reloj más altas. Las piezas de Ice Lake de Intel, como referencia, alcanzaron un máximo de 1,1 GHz, por lo que no sería demasiado sorprendente ver que Tiger Lake y DG1 funcionaran a 1,6 GHz o mejor, dadas las proyecciones de rendimiento de Intel.

Completando el plan de Intel para impulsar el rendimiento de la GPU, viene el tercer pilar del diseño de Xe-LP, que es mejorar la eficiencia. Si bien agregar EU agrega FLOP, y mejorar la eficiencia energética permite que Intel registre el chip más alto para agregar aún más FLOP, agregar FLOP por sí solo no es suficiente. El trabajo también debe dedicarse a mejorar el rendimiento efectivo de una arquitectura, para convertir más de esos FLOP teóricos en trabajo del mundo real.

Y aquí es donde entra la salsa secreta de Intel, y no sale tanto del departamento de marketing técnico de Intel. Hay algunos cambios notables en la UE de bajo nivel a los que llegaremos en un momento, pero se trata más de impulsar los cambios de eficiencia energética antes mencionados. En cambio, los cambios en la eficiencia del rendimiento son más opacos. Aquí Intel simplemente nos dice que han utilizado el análisis de carga de trabajo para identificar y eliminar múltiples cuellos de botella pequeños en toda la GPU para mejorar los gráficos y la eficiencia del rendimiento de cómputo.

Es probable que los cambios en la caché L1 de Intel también desempeñen un papel aquí, aunque la compañía no está profundizando demasiado en esos cambios en este momento. No obstante, nos pondremos al día con el tema en un momento cuando analicemos el sistema de memoria general.
Reorganización de sublicencia

Una consecuencia más de la ampliación del segmento general es que Intel ha reorganizado el sub segmento dentro del segmento más grande. De forma análoga en algunos aspectos a los SM de NVIDIA, una sublicencia es un bloque de construcción más pequeño dentro de la GPU, centrado en la computación y el sombreado en todas las formas, así como en el texturizado. Para las GPU Gen11 de Intel, la compañía organizó las GPU en 8 sublices, cada una con 8 EU. Pero con Xe-LP, se ha aumentado cada sublicencia y se ha reducido la cantidad de sublices generales.

Una porción completa de Xe-LP ahora tiene 6 sublicencias. Cada sublicencia Xe-LP, a su vez, ha visto duplicados muchos de sus atributos. El número de EU en una sublicencia se duplica a 16 por cada, y el rendimiento del muestreador de textura de una sublicencia se ha incrementado de 4 texels / reloj a 8 texels / reloj. Cada sublicencia también obtiene una caché de textura / datos L1, que es de 64 KB y se puede asignar dinámicamente entre el almacenamiento de texturas y datos L1. Esta caché parecería reemplazar la caché L2 mal documentada de Gen11, que ocupaba un papel similar en la jerarquía.

Estos cambios de sublicencia, a su vez, van de la mano con algunos de los cambios que Intel hizo en la UE, que cubriremos en la página siguiente. Con las UE perdiendo un poco de su independencia y emparejándose, esto mantiene constante el número de unidades de control de subprocesos por sublicencia en 8. Es probable que también ayude a la escalabilidad de Intel hacia soluciones futuras, ya que tienen menos sublicencias para discutir y administrar en general.

Una consecuencia de este cambio significa que los pasos de escalabilidad de iGPU de Intel también serán un poco diferentes. Mientras que Ice Lake se envió con 64 EU (8 sublices), 48 EU (6 sublices) o 32 EU (4 sublices) habilitados, según el SKU, la granularidad de Tiger Lake ahora es una sexta parte de una porción. Eso significa que la mitad de una GPU ahora tiene 48 EU (3 sublicencias), una GPU completa es 96 EU (6 sublices), e Intel tendrá que decidir si desea enviar SKU en el medio con 80 o 64 EU habilitadas y cómo lo hace. . Como Intel no está proporcionando información de producción hoy, solo podemos especular, pero sería una caída bastante grande en el rendimiento si el siguiente nivel después de una iGPU Xe-LP totalmente habilitada fuera una configuración de 64 EU, eliminando el 33% de su rendimiento potencial en el camino.

Unidades de ejecución Xe-LP: se necesitan dos

Buceando un nivel más profundo, tenemos el bloque de construcción de nivel de subproceso más pequeño de la arquitectura de GPU Xe-LP, la venerable Unidad de Ejecución. Intel los ha modificado varias veces a lo largo de los años, y para Xe-LP se están modificando una vez más.

Como actualización rápida, a partir de la arquitectura de GPU Gen11 de Intel, una UE se compone de una unidad de control de un solo hilo y dos conjuntos de SIMD de 4 anchos. Un bloque maneja la matemática entera y de coma flotante, mientras que el otro bloque puede manejar funciones especiales y de coma flotante, a las que Intel se refiere como “matemática extendida”. A pesar de esto, el ancho de frente de onda más pequeño de Gen11 es de 8 hilos de ancho (SIMD8), por lo que puede tomar varios ciclos de reloj para ejecutar un solo frente de onda, con Intel entrelazando múltiples frentes de onda como una forma de ocultar la latencia.

Xe-LP, mientras tanto, trae varios cambios importantes al diseño de las UE. En primer lugar, una UE única ya no es un bloque independiente; en cambio, dos UE comparten ahora una unidad de control de hilo único. Como resultado, una unidad de control de subprocesos ahora obtiene el recurso combinado de dos UE para distribuir el trabajo, en lugar de uno. Y aunque las matrices SIMD también han cambiado, lo que complica aún más las cosas, el impacto aquí es que ahora hay menos unidades de control de subprocesos en una GPU, lo que debería reducir la cantidad de frentes de onda que están en vuelo en un momento dado.

De hecho, se puede argumentar si llamar a estas configuraciones duales de la UE dos UE es la forma más precisa de describirlas; En su lugar, podría ser mejor agruparlos como una única UE gruesa, ya que ninguna de las dos partes es verdaderamente independiente. Pero en ausencia de más detalles de bajo nivel, y lo que estoy seguro es un deseo de Intel de ser semi-consistente en el recuento de UE, van con 96 UE delgadas.

Mientras tanto, independientemente de cómo se agrupen las UE, también está la cuestión de lo que hay en las propias UE. Para Xe-LP, Intel ha reorganizado los bloques SIMD. Atrás quedaron el par de bloques SIMD4 con características diferenciadas a favor de un bloque SIMD8 y un bloque SIMD2. El SIMD8 más grande esencialmente combina todas las ALU enteras y de punto flotante que anteriormente se dividían entre los dos bloques SIMD4 de Gen11, y hace un solo SIMD8 con ellos. El resultado neto es que el número de ALU de FPU no ha cambiado (sigue siendo de 8 ALU por UE); sin embargo, el número de conductos que pueden procesar números enteros ha cambiado de 4 a 8. Mientras tanto, aunque no se aclara en las diapositivas de Intel, el número de las ALU que pueden procesar matemáticas extendidas se mantiene constante: Gen11 tenía dos tuberías compatibles con EM y Xe-LP también.

Hablando de eso, las matemáticas extendidas ahora se han trasladado a su propio SIMD2, y cada UE obtiene uno. Esto significa que la ejecución de funciones matemáticas extendidas ya no bloquea directamente la ejecución de aritmética de punto flotante, como fue el caso de Gen11; la UE no tiene que renunciar a las tuberías FP para hacer esto. Para subrayar aún más este punto, la UE puede co-emitir instrucciones tanto para FP / INT SIMD8 como para EM SIMD2 al mismo tiempo, lo que significa que bajo al menos algunas circunstancias, hacer cálculos matemáticos extendidos tampoco bloqueará indirectamente la aritmética FP / INT.

Como siempre con la emisión conjunta, el diablo está en los detalles; en este punto no nos queda claro cuáles son las limitaciones de emisión conjunta, pero es muy probable que se adapte mejor al tipo de cargas de trabajo que Intel está viendo en realidad. . AMD y NVIDIA también utilizan unidades dedicadas EM / SFU, y en proporciones igualmente pequeñas, todo lo cual parece funcionar bien para esas dos empresas. En ese sentido, la configuración de ALU de Intel se parece mucho más a la de sus competidores contemporáneos. Y esto, sospecho, es también una de las formas de optimización de cuellos de botella por las que ha pasado Intel para obtener más trabajo con la misma cantidad de FLOP en Xe-LP.

Estos cambios de ALU también afectan cómo se moverán los frentes de onda a través de la GPU. Dado que SIMD8 es la matriz de ALU más pequeña para aritmética normal, el tamaño mínimo de frente de onda de Intel ahora es del mismo tamaño que el hardware subyacente. Esto significa que Xe-LP ya no necesita varios ciclos para ejecutar una sola instrucción desde un frente de onda en un solo ciclo, al menos para el tamaño de frente de onda más pequeño. En Gen11, Intel también permitió los frentes de onda SIMD16 y SIMD32, y estoy esperando el documento técnico de Xe-LP para confirmar si se han retenido, en cuyo caso todavía necesitarían varios ciclos, o si Intel está obligando a que todo sea SIMD8.

Vale la pena señalar que este cambio es bastante similar a lo que hizo AMD el año pasado con su arquitectura RDNA (1) , eliminando la ejecución de ciclos múltiples de un frente de onda aumentando su tamaño SIMD y devolviendo su tamaño de frente de onda. En el caso de AMD, esto se hizo para ayudar a mantener ocupadas sus ranuras SIMD con más frecuencia y reducir la latencia de las instrucciones, y no me sorprendería si fuera una historia similar para Intel.

Un beneficio adicional de esta reorganización es que Intel ha podido simplificar su hardware de programación de subprocesos en general. Tan recientemente como Gen11, Intel todavía estaba usando el abordaje de puntuación de hardware para determinar cuándo ejecutar subprocesos y cuándo estarían listos los datos de los subprocesos. Pero con Xe-LP, el tablero de puntuación se ha trasladado al software, convirtiéndose en una responsabilidad del compilador de Intel.

Si bien el cambio al tablero de puntuación de software significa que la programación debe ser determinada de antemano por el software, y por lo tanto se vuelve estática y potencialmente da como resultado una programación menos que óptima, la recompensa es que el tablero de puntuación de hardware es bastante caro desde un área de dado y punto de vista del poder. Por lo tanto, pasar a la integración de puntajes de software permite UE más pequeñas y más eficientes en el consumo de energía, lo que retroalimenta la capacidad de Intel para construir un mayor número de UE y mejorar su eficiencia energética general. En general, esto refleja los cambios que NVIDIA hizo en su arquitectura hace casi una década con Kepler , donde de manera similar cambiaron al sistema de puntuación de software para el gran beneficio de su eficiencia energética (y sin dejar de mantener su alto rendimiento).

Rendimiento de la UE: en cifras

Ahora que hemos tenido la oportunidad de ver todos los cambios realizados a nivel de la UE, hablemos de lo que esto significa para las tasas de rendimiento reales de las UE.

Comenzando con el punto flotante, las cosas son simples aquí. A pesar de la reorganización de ALU, el número de FP ALU por UE sigue siendo 8. Y como resultado, el rendimiento de FP por UE se mantiene en 16 FP32 operaciones / reloj y 32 FP16 operaciones / reloj, al igual que Gen11.

Por otro lado, para el rendimiento de números enteros, el número de ALU con capacidad para números enteros se ha duplicado de 4 a 8 en relación con la arquitectura Gen11. Como resultado, el rendimiento de números enteros también se ha duplicado: Xe-LP puede guardar 8 operaciones INT32 o 32 operaciones INT16 por ciclo de reloj, en comparación con 4 y 16 respectivamente en Gen11. Sin embargo, esto significa que Xe-LP conserva la inusual desventaja INT32 de Gen11; la tasa INT32 es solo la mitad de la tasa FP32, mientras que la tasa INT16 es igual a la tasa FP16.

Finalmente, no vale la pena que Xe-LP no tenga nada equivalente a un núcleo tensorial u otra matriz sistólica de ALU para hacer matemáticas densas, que se ha convertido en el último grito del entrenamiento de redes neuronales y una inferencia. Este hardware llegará a la familia Xe en partes posteriores como Xe Matrix eXtensions (XMX), pero por ahora Xe-LP tiene que conformarse con sus EU regulares.

Pero por esa razón, Intel ha agregado una característica más a su SIMD de la UE: soporte para productos punto INT8. INT8 se ha vuelto cada vez más popular para la inferencia de redes neuronales en los últimos años y, a su vez, los productos punto son una operación muy común en ese proceso. Por lo tanto, agregar soporte para productos punto INT8 le da a Xe-LP un gran impulso en esta forma de ejecución de IA. Con la instrucción DP4A, la tasa de rendimiento INT8 puede llegar a 64 operaciones / reloj, el doble de la tasa INT16.

Alimenta a la bestia: Nueva caché L1 y buses de anillo doble

Cambiando de velocidad, echemos un vistazo al subsistema de memoria para Xe-LP y cómo Intel alimentará a la bestia que es su nueva arquitectura de GPU. Entre las muchas novedades contemporáneas para las arquitecturas de GPU de Intel, Xe-LP se encontrará en la interesante posición de cruzar la línea entre una GPU integrada y una GPU discreta. Lo que quiere decir que tiene que poder funcionar tanto con el IMC compartido de Tiger Lake como con el controlador de memoria dedicado propio de DG1.

Comenzando con las sublicencias, Xe-LP presenta un nuevo caché combinado de textura y datos L1. La información sobre este caché es limitada, pero Intel ha confirmado que es un caché de 64 KB por sublicencia y que se puede reconfigurar dinámicamente entre L1 y el almacenamiento en caché de texturas según sea necesario. Según la compañía, agregaron la caché L1 como resultado de su análisis de carga de trabajo, y al hacerlo, mejoró el rendimiento de la canalización de carga / tienda. Desafortunadamente, no está claro cómo encaja esto en el panorama general con el caché L2 de sublicencia anterior de Intel, y si ha sido reemplazado o aún existe y simplemente no está en estos diagramas.

La caché L3 en la GPU (que no debe confundirse con la caché de último nivel compartida de Tiger Lake) también ha experimentado sus propias actualizaciones, recibiendo tanto una capacidad como un aumento de ancho de banda. En el frente de la capacidad, la caché L3 ahora puede tener un tamaño de hasta 16 MB, en comparación con solo 3 MB en Gen11. Dicho esto, según las divulgaciones de Tiger Lake de Intel, está claro que un caché tan grande no llegará a los SoC de Intel; en su lugar, Tiger Lake se enviará con una caché de GPU L3 de 3.8 MB. Tiger Lake tiene su propia LLC más allá de esto, que la GPU también puede aprovechar, por lo que no necesariamente necesita un caché tan grande.

Para DG1, por otro lado, la caché L3 de la GPU es el último nivel de almacenamiento en caché, por lo que una caché más grande tiene sentido práctico allí. Con ese fin, no me sorprendería si eso es exactamente lo que vemos en DG1: una caché L3 de 16 MB. Aunque Intel ha reiterado que esta es una presentación arquitectónica y no una presentación de producto, por lo que es muy posible que no estén equipando ninguna GPU Xe-LP con un caché L3 de tamaño máximo.

Esta caché L3 más grande también es más rápida que la L3 de Gen11, con Intel duplicando el tamaño de transferencia. La caché L3 de Xe-LP ahora puede transferir 128 bytes / reloj, lo que para un chip teórico de 1.6GHz le daría más de 190GB / seg de ancho de banda L3 interno. Esta actualización es importante para alimentar los ROP y otras partes de la GPU, y va de la mano con el objetivo de Intel de duplicar el rendimiento de la GPU, lo que significa que necesitan alimentar a la bestia con muchos más datos en el proceso. Además, este cambio también mantiene la caché L3 alineada con lo que puede hacer el nuevo bus de anillo dual.

Uno de los cambios más enigmáticos para Tiger Lake, el SoC ha agregado un segundo ringbus aparentemente idéntico al chip, creando un segundo bucle que conecta los cuatro núcleos de CPU y la iGPU al controlador de memoria integrado. Como consecuencia de esto, la iGPU ahora necesita dos puertos Graphics Technology Interface (GTI) para crear las dos paradas de bus de anillo.

El gran beneficio de este cambio es que, si todos los demás aspectos se mantienen iguales, se duplica la cantidad de ancho de banda entre la GPU y el IMC en Tiger Lake. Entonces, en lugar de solo poder transferir 64B / reloj hacia arriba y hacia abajo, Xe-LP en Tiger Lake puede enviar dos solicitudes de 64B (para un total de 128B / reloj) usando los dos buses de anillo.

Dado que en esta coyuntura la iGPU se ha convertido en el mayor consumidor de ancho de banda en un SoC Intel, sospecho firmemente que el segundo bus de anillo se ha agregado principalmente para el beneficio de la iGPU. Desafortunadamente, esto no es algo que podamos calcular directamente, ya que el bus de anillo que tiene su propio dominio de reloj complica un poco las cosas, por lo que no está claro si 1 bus de anillo puede igualar el ancho de banda de memoria de un chip Tiger Lake con LPDDR5-5200. Pero incluso si pudiera, una GPU de mayor rendimiento como Xe-LP sin duda está ejerciendo una gran presión sobre el subsistema de memoria SoC de Intel.

Mientras tanto, esto también nos da una pista muy fuerte de que DG1 utilizará un bus de memoria de 128 bits para su VRAM dedicada. El backend 2x64B podría conectarse muy fácilmente a un controlador de memoria de 128 bits, en lugar de los dos buses en anillo de 64B. Esto también garantizaría que DG1 obtenga tanto o más ancho de banda de memoria que Tiger Lake, y con la ventaja de no tener que compartirlo con otras partes del sistema.

Finalmente, incluso con las importantes mejoras de ancho de banda subyacentes, Intel también ha estado trabajando para reducir su consumo de ancho de banda. Xe-LP se envía con versiones actualizadas de sus algoritmos de compresión de color y profundidad, que aunque Intel no proporciona cifras específicas para ello, cualquier mejora aquí se traducirá directamente en un tráfico de memoria reducido. Mientras tanto, la compañía también está ampliando esta funcionalidad de compresión a los medios y las interfaces de visualización, lo que significa que los datos de la imagen pueden permanecer comprimidos siempre que se muevan entre el motor de gráficos, el motor de medios y la pantalla.

Controladores de pantalla y medios Xe-LP

Nuestra última parada en nuestra inmersión profunda a través de la arquitectura Xe-LP son los aspectos de no renderización de la GPU: sus controladores de medios y pantalla. Los cambios aquí no son tan llamativos como los cambios en la arquitectura central, pero las mejoras realizadas en estos bloques ayudan a mantener actualizada la GPU general al admitir nuevos formatos de medios, así como nuevos protocolos de conectividad de pantalla.

En primer lugar, hablemos del motor de medios. No hay revisiones locas de las que hablar aquí, pero para Xe-LP Intel ha hecho algunas adiciones sensatas al motor. La característica de marquesina aquí es fácilmente compatible con la aceleración de decodificación AV1, lo que convierte a Intel en el primer proveedor de los 3 grandes en agregar soporte de decodificación de hardware para el nuevo códec.

Se espera que el prometedor códec libre de regalías se convierta en el sucesor de facto de H.264 / AVC, ya que mientras HEVC ha estado en el mercado durante varios años (y ya es compatible con todas las GPU recientes), el La loca situación de las regalías en torno al códec ha desalentado su adopción. Por el contrario, AV1 debería ofrecer una calidad similar o ligeramente mejor que HEVC sin regalías por su uso en la distribución, lo que lo hace mucho más aceptable para los proveedores de contenido. La única desventaja de AV1 hasta ahora es que tiene bastante CPU, lo que hace que el soporte de decodificación de hardware sea aún más importante no solo por razones de duración de la batería, sino incluso para garantizar una reproducción fluida y sin fallas.

Mientras tanto, de manera similar a los objetivos de rendimiento de procesamiento de Intel, la compañía ha trabajado para mejorar el rendimiento de codificación y decodificación del motor de medios. Según la compañía, el bloque actualizado ahora es capaz de duplicar el rendimiento de codificación y decodificación. Para las máquinas de consumo, es poco probable que esto importe demasiado, pero es algo que será particularmente importante para el producto de servidor SG1, que se centrará en la codificación masiva.

Finalmente, entre los cambios más pequeños realizados en el motor de medios, Intel ha agregado soporte oficial para la reproducción de HDR y Dolby Vision. La compatibilidad con HDR continúa extendiéndose a las PC, aunque sea lentamente, por lo que este es un paso notable para garantizar que las PC más nuevas puedan manejar contenido HDR codificado en esos formatos. También es notable una mejora en el bloque de codificación HEVC de Intel, que ahora admite la extensión HEVC Screen Content Coding (SCC), que está diseñada para mejorar las tasas de compresión HEVC en contenido con imágenes estáticas o casi estáticas.

Controlador de pantalla Xe-LP: DisplayPort 1.4, HDMI 2.0 y pantallas 8K

Por último, pero no menos importante, tenemos el motor de visualización de Xe-LP. Al igual que el bloque de medios, no hay cambios radicales aquí, pero hay algunas mejoras bienvenidas en todo momento.

Quizás el mayor cambio aquí es que después de varios años, Intel finalmente agregó una cuarta línea de visualización, lo que significa que la GPU ahora puede manejar cuatro pantallas independientes. Antes de esto, los diseños Gen11 y anteriores solo podían manejar tres pantallas, y aunque incluso eso es más de lo que la mayoría de la gente usará, 4 pantallas se han convertido en el número mágico para otros diseños de GPU. Para complicar las cosas, está el reciente impulso de computadoras portátiles de pantalla dual y otros dispositivos móviles con múltiples pantallas, que luego consumirían dos de esas tres salidas.

En esa nota, Intel también ha agregado una segunda salida DisplayPort incorporada, que sería extremadamente útil para esos dispositivos de pantalla dual.

De lo contrario, las opciones de salida de pantalla básicas no se modifican desde Gen11. Xe-LP es compatible con DisplayPort 1.4 y HDMI 2.0. Esto último es un poco decepcionante ya que los televisores HDMI 2.1 ya se están enviando, pero es cierto que no es inusual que Intel tome una generación adicional para adoptar estándares HDMI más nuevos. Estas salidas de pantalla también se pueden alimentar a un puerto USB4 / Thunderbolt 4, donde los datos de DisplayPort son un ciudadano de primera clase y se pueden mezclar en la señal, o el puerto se puede reconfigurar a través de modos alternativos.

No es evidente en los diagramas de bloques de Intel, la compañía ha realizado algunos cambios en las tuberías para alimentar mejor los controladores de pantalla. Específicamente, la compañía ha aumentado el ancho de banda disponible para el motor de visualización para que pueda manejar el tipo de pantallas extremas de alta resolución para las que DisplayPort 1.4 fue diseñado. Como resultado, el controlador ahora tiene suficiente ancho de banda y potencia de procesamiento interno para manejar pantallas 8K UHD, así como la generación reciente de pantallas de 360Hz.

Expectativas de rendimiento y primeros pensamientos

Resumiendo este análisis profundo de la arquitectura de la GPU, aunque Intel no usó el día de la arquitectura de este año para discutir productos y SKU específicos, la compañía se tomó un momento para discutir las expectativas de rendimiento para Xe-LP y ofrecer algunos videos rápidos de Xe-LP en acción. Desafortunadamente, no se nos permitió grabar estas demostraciones (al menos alguien las filtró), pero las publicaremos aquí tan pronto como Intel lance copias al público.

En cualquier caso, como se mencionó anteriormente, el objetivo de Intel era duplicar el rendimiento de gráficos de Ice Lake (Gen11), lo que Xe-LP logrará mediante una combinación de una GPU más amplia (más hardware), una GPU más eficiente en el consumo de energía (permitiendo relojes más altos). ) y una GPU más eficiente en rendimiento (mayor IPC). Este es un objetivo elevado dado el hecho de que no obtienen el beneficio de un nodo de proceso completamente nuevo, pero Intel parece bastante confiado en el potencial de rendimiento de su nuevo nodo de proceso SuperFin de 10nm, así como en la recompensa del probado- y verdadero método de forzar las cosas lanzándole más hardware.

Al observar nuestros propios datos de rendimiento de las revisiones de las computadoras portátiles Ice Lake y Ryzen 3000 “Renoir”, si Intel puede cumplir con sus objetivos de rendimiento, Tiger Lake debería poder adelantarse a las APU Ryzen de la serie U de AMD. Como siempre, esto dependerá del juego, pero las computadoras portátiles Ice Lake de gama alta nunca se quedaron atrás en más del 30% más o menos en escenarios con limitaciones de GPU. Pero dado que estamos hablando de escenarios móviles, la alimentación y la refrigeración siempre serán un comodín potencial que puede frenar una computadora portátil. Entonces, para las laptops ultraportátiles para juegos en particular, Intel indudablemente querrá que sus socios construyan laptops con las capacidades de enfriamiento adecuadas, para darle a Tiger Lake todas las oportunidades posibles de éxito.

Dejando a un lado los fotogramas, Intel también espera que el rendimiento de Xe-LP eleve significativamente el nivel de calidad de imagen. Dado que los gráficos integrados generalmente se ubican en la parte trasera en términos de calidad de imagen para ofrecer las velocidades de fotogramas necesarias, duplicar el rendimiento de su iGPU permitiría ejecutar muchos juegos con configuraciones de calidad de imagen más altas. De nuevo, esto variaría de un juego a otro, pero al menos con fines promocionales, Intel está considerando que Tiger Lake / Xe-LP pueda ejecutarse con una alta calidad de imagen en juegos donde Ice Lake solo podía manejar baja.

Pero Xe-LP no es solo una solución de gráficos integrados: también es para gráficos discretos. Y aunque anticipamos ansiosamente más información sobre DG1, dado el enfoque actual de Intel en la arquitectura sobre los productos, nos quedan más preguntas que respuestas. Intel tiene un plan muy interesante y amigable con los OEM con Xe-LP, y al aprovechar la misma arquitectura tanto para la iGPU como para una GPU discreta opcional, a los OEM les encantará el hecho de que no tienen que validar y cargar controladores de GPU separados para las GPU integradas y discretas.

Sin embargo, lo más importante es que Intel también se niega a responder la pregunta de los 10 millones de píxeles: ¿la iGPU de Tiger Lake podrá funcionar en conjunto con el DG1? Intel ciertamente no ha hecho ningún esfuerzo por rechazar esa idea, pero tampoco la está confirmando. E incluso entonces, si utilizan renderizado mutli-GPU, ¿lo harán bien? El renderizado de múltiples GPU en el escritorio está casi muerto, y por una buena razón: tiende a no funcionar bien con ciertas técnicas de renderizado modernas y puede agregar un poco de retraso de entrada. La respuesta a esta pregunta, y si Intel ha sido capaz de vencer los inconvenientes tradicionales de la renderización de múltiples GPU, tendrá un gran impacto en la viabilidad comercial de la GPU DG1. Así que estaremos esperando ansiosamente la respuesta a esas preguntas.

De lo contrario, Xe-LP marca un paso importante en la evolución de las arquitecturas de GPU de Intel, sin importar un gran trampolín en sus planes para convertirse en un proveedor de GPU de arriba a abajo. Aunque solo está destinado a computadoras portátiles, Xe-LP es la base de algo mucho más grande para Intel: Xe-LP será la base de toda una generación de GPU por venir. Entonces, lo que Intel hace aquí con respecto a las características, la arquitectura y, sobre todo, la eficiencia energética, tendrá enormes repercusiones en el futuro, para todo, desde el hardware de juegos hasta las supercomputadoras. En muchos sentidos, es el comienzo de una nueva era para Intel, y esperan que sea una era mejor que la que dejaron atrás.

Una respuesta a «Análisis profundo de la arquitectura de GPU Intel Xe-LP»

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *