Durante muchos años el gigante del chip ha podido mantener una estrategia muy interesante centrada en lo que conocíamos como «tick-tock». Como recordarán muchos de nuestros lectores dicha estrategia se caracterizaba por hacer un «tick», que implicaba una reducción de proceso, y un «tock», que suponía una nueva arquitectura, manteniendo un ritmo anual. Por ejemplo, los procesadores Intel Core Ice Lake son un «tick» con respecto a los procesadores Coffe Lake Refresh, ya que los primeros están fabricados en proceso de 10 nm y los segundos en proceso de 14 nm++.

Sin embargo, Intel no ha podido mantener ese ciclo de desarrollo anual. El salto al proceso de 10 nm que han marcado los procesadores Intel Core Ice Lake debería haberse producido mucho antes, concretamente tras el lanzamiento de los procesadores Skylake, ya que estos fueron un «tock» (nueva arquitectura) sobre Broadwell (los primeros en 14 nm). Después de Skylake Intel tuvo que lanzar los procesadores Kaby Lake, que llegaron bajo el proceso de 14 nm+ y fueron un nuevo «tock» sobre Skylake, una escena que se repitió con dos «tocks» más cuando se lanzaron Coffe Lake y Coffee Lake Refresh, ambos en proceso de 14 nm++.

El propio CEO de Intel, Bob Swan, explicó recientemente que los problemas que han tenido con el salto al proceso de 10 nm se han debido a una aproximación demasiado ambiciosa. Os lo explico, normalmente el gigante del chip ha doblado el número de transistores con cada salto de proceso, pero al aventurarse en los 10 nm decidieron multiplicar por 2.7 veces la cantidad de transistores con respecto al proceso de 14 nm. Ese aumento del 70% fue visto al principio como un desafío complicado aunque posible, pero al final acabó siendo más difícil de lo que parecía.

A pesar de todo Intel ha podido sacar adelante su aventura con el proceso de 10 nm y ha podido anunciar, por fin, los primeros procesadores Intel Core Ice Lake de décima generación. Como estaba previsto el debut de esta nueva generación se ha limitado de momento a los modelos de bajo consumo (serie U) y a los de consumo ultra bajo (serie Y), que cuentan con un máximo de cuatro núcleos y ocho hilos y tienen unas frecuencias de trabajo bastante contenidas.

Los procesadores Intel Core de décima generación de alto rendimiento no llegarán hasta finales de 2020, al menos en teoría, ya que el gigante de Santa Clara todavía está trabajando para mejorar los resultados de chips funcionales obtenidos por oblea de silicio al trabajar con procesadores más complejos. Os recuerdo que según las últimas filtraciones que hemos tenido ocasión de ver Intel tiene previsto cubrir el vacío que quedará hasta la llegada de dichos procesadores con Comet Lake, la última revisión del proceso de 14 nm++, cuyo lanzamiento se espera para principios de 2020.

La nueva plataforma Ice Lake de Intel es el segundo intento de la compañía de producir un chip de 10 nm para el mercado masivo, y sigue a la plataforma Cannon Lake. Utilizando el proceso de 10nm ‘igual pero diferente’, Ice Lake contiene dentro de una nueva microarquitectura de 10th Gen Core llamada Sunny Cove, gráficos Gen11 y soporte para LPDDR4X-3733, así como Thunderbolt y Wi-Fi 6. Antes de que los sistemas entren en el En el mercado, Intel dio un pequeño número de impresiones al día con sus sistemas de desarrollo de software para que pudiéramos probar el rendimiento de Sunny Cove, Gen11 y el nuevo producto de 10 nm de Intel.

Nota: a partir de aquí, este artículo ha sido traducido automáticamnete mediante GoogleTranslate, con algunas correcciones posteriores. Perdonen los problemas.

Un resumen rápido en Ice Lake: el nuevo Tick + Tock de Intel

Durante la mayor parte de una década, Intel estuvo en una estrategia conocida como Tick Tock. Por cada nueva familia y generación de productos, se conocería como Tick o Tock. Para cualquier Tick, se utilizó el mismo diseño central en un nuevo nodo de proceso de fabricación, como pasar de 45 nm a 32 nm. Para cualquier Tock, se utilizó el mismo nodo de proceso que la generación anterior, pero vimos un nuevo diseño central y una microarquitectura, como pasar de Ivy Bridge a Haswell.

Intel se mantuvo en esta estrategia de Tick Tock desde 2006 hasta alrededor de 2017, cuando parecía que su tecnología de nodo de proceso de 10 nm iba a retrasarse. La compañía pasó de una cadencia de dos pasos en Tick Tock a una cadencia de 3 pasos llamada Process Architecture Optimization. Esto es esencialmente Tick Tock, pero con otro paso de optimización al final. Desafortunadamente, ese plan se deshizo rápidamente, ya que terminamos con múltiples optimizaciones basadas en la microarquitectura Skylake construida en 14nm: Kaby Lake, Kaby Lake-R, Coffee Lake y Coffee Lake-R, sin mencionar el espacio móvil que también recibió Amber Lago y lago de whisky. Técnicamente, Intel lanzó una actualización de proceso en H1 2018 con Cannon Lake en 10nm, pero esa fue una distribución limitada.

El punto que estoy tratando de hacer aquí es que Intel históricamente solo ha hecho una de dos o tres cosas con una actualización del producto: mejorar el nodo del proceso, mejorar la microarquitectura u optimizar el diseño. Ice Lake, por primera vez en mucho tiempo, ve a Intel cambiar tanto la tecnología de proceso como el diseño de microarquitectura al mismo tiempo. Intel ha retrasado el reloj con un tic en el bloque.

Para el usuario general, esto es algo bueno ™. Ice Lake no solo está configurado para aprovechar la nueva tecnología de nodo de proceso, con un transistor más pequeño y una operación de menor voltaje, sino que también aplica una combinación de nuevas características y nuevos beneficios de rendimiento al mismo tiempo. No todos los días vemos un ticktock combinado de Intel (AMD lo ha hecho dos veces en dos años), pero me alegro de que esté aquí.

El camino hacia Ice Lake-U y Ice Lake-Y: 11 SKU

Hoy, Intel anuncia los procesadores para sus procesadores Ice Lake-U y Ice Lake-Y. Estos procesadores ahora se están produciendo en un volumen suficiente para suministrar hardware a los socios de lanzamiento clave a fin de permitir que los diseños de computadoras portátiles y móviles lleguen a los estantes a finales de año. Intel no está discutiendo actualmente ningún equivalente de procesador de escritorio o servidor en este momento: el diseño base de Ice Lake es actualmente un procesador de cuatro núcleos con HyperThreading y unos gráficos integrados robustos.

El Ice Lake SoC de Intel viene en dos factores de forma, técnicamente llamados ‘Tipo 3’ y ‘Tipo 4’. El Tipo 3 es un paquete más grande, adecuado para diseños de 15 W-28 W Ice Lake-U, mientras que el Tipo 4 es para plataformas de 9-12 W bajo Ice Lake-Y. De los procesadores que se anuncian hoy, en su mayoría pertenecen a las categorías de 9 W o 15 W.

En la parte superior de la pila se encuentra el Core i7-1068G7, el único procesador de 28W. El nombre es el siguiente:

• Core i7 = i7 clasificado
• 10 = 10º Gen Core
• 6 = Posición en la pila
• 8 = 28W
• G7 = Gráficos más altos (64 UE)

Para estos procesadores, Intel está eliminando el nombre Y y el nombre U, y en su lugar coloca una letra y un número al final para identificar qué tan poderosos son los gráficos.

El Core i7-1068G7, con un TDP de 28 W, será el procesador Ice Lake de mayor rendimiento, que Intel se reservará para los diseños premium de sus socios. Nos dijeron que los socios lo obtendrán más tarde que los demás, debido a la validación adicional (es decir, binning) que requiere, sin embargo, alcanza los 4,1 GHz que Intel ha anunciado como la frecuencia máxima de la plataforma. El TDP más alto se traduce en este caso a una frecuencia base mucho más alta que todo lo demás (2.3 GHz en lugar de 1.3 GHz), y debería ayudar a mantener las frecuencias turbo cuando no están limitadas térmicamente. Este procesador tiene gráficos Iris Plus, el nombre que Intel le está dando a todas las partes de gráficos Gen11 que tienen 48 o más UE (por lo tanto, G4 o G7).

El resto de la serie U es un TDP nominal de 15 W, con frecuencias base de 1.0 GHz a 1.3 GHz, y frecuencias turbo de hasta 3.9 GHz. Estos procesadores ofrecen un modo de cTDP de 25 W, que Intel nos dice que en realidad no estará relacionado con ningún ajuste de frecuencia base, pero proporcionará un estándar más alto de frecuencia turbo sostenida, dependiendo de la implementación OEM. Los OEM tendrán que diseñar para 25 W para poder soportarlo.

Vale la pena señalar que tenemos tres versiones del Core i5-1035, todas las cuales difieren en sus gráficos. La versión G7 tiene 64 unidades de ejecución, el G4 tiene 48 unidades de ejecución y el G1 tiene solo 32. El G4 y el G1 también disminuyen ligeramente la frecuencia de la CPU. Los gráficos G4 y G7 se llamarán Iris Plus, mientras que los gráficos G1 se llamarán Gráficos UHD.

Para ayudar a absorber algunas de las piezas de la serie U de menor rendimiento / agrupación, Intel también ofrecerá un Core i3-1005G1 de doble núcleo.

En la serie Y, vemos un rango similar de i7 a i3, nuevamente con G7 hasta G1. La diferencia aquí es la envolvente de potencia: el TDP nominal de estos procesadores es de 9W, sin embargo, un modo de cTDP para fabricantes está disponible a 12W.

También vale la pena ver el nombre del procesador para la serie Y: el nombre ‘m3’ ha desaparecido, y también la letra Y. Si un usuario no sabía nada mejor, estas partes se parecen a los números de la serie U . En el nombre, el ‘i7-1060’, ese 0 final hace toda la diferencia.

0 = serie Y, ~ 10W (9W-12W)
5 = serie U, 15 W (o 25 W en cTDP arriba)
8 = serie U, 28W

No pregunte cómo nombraría Intel los procesadores correspondientes de la serie H de 35W / 45W. En este punto, Intel no ha discutido nada más alto que 28W para los consumidores.

Sistema de desarrollo de software de Intel: probado

Entonces, como pueden imaginar, nosotros (la prensa) hemos estado hablando con Intel durante mucho tiempo sobre Ice Lake, está llegando a un punto en el que solo preguntamos si aún está listo. A principios de año, presenté una idea a Intel que básicamente decía esto:

“Cuando esté listo con un diseño de referencia para sus socios, permítanos probarlo. No es un diseño optimizado, pero tendrá el rendimiento bruto que sus socios aspiran a superar y proporcionará una buena línea de base para aumentar el interés potencial “.

Mi punto de referencia para estas discusiones fue lo que Qualcomm hace en el lado de los teléfonos inteligentes. Durante varias generaciones, Qualcomm ha invitado a la prensa seleccionada a probar sus modelos de ‘Diseño de referencia de Qualcomm’ (QRD) para sus últimos conjuntos de chips para teléfonos inteligentes. Proporciona una vista previa del rendimiento, y vemos que los socios de Qualcomm lo optimizan como locos para un mejor rendimiento, o producen diseños de factor de forma delgado radicalmente únicos para proporcionar la mejor experiencia disponible mientras siguen siendo competitivos en rendimiento y térmicos.

Bueno, parece que alguien en Intel pensó que era una buena idea. El grupo de nuevos empleados que Intel contrató desde el lado de la prensa de la cerca durante el último año más o menos hizo flotar la idea en la cadena, y lo ha hecho posible. Tenemos que probar Ice Lake antes de que los sistemas estén en los estantes.

Lo que Intel nos proporcionó fue un día de pruebas en una sala de conferencias cerca de la sede en Santa Clara. Estas máquinas eran sistemas de desarrollo de software, o laptops SDS, que se envían a los socios de software de Intel como Adobe y Microsoft para pruebas funcionales.

Al igual que otros diseños de referencia (como Qualcomm’s), estas unidades están diseñadas para funcionar y, en su mayor parte, no tienen restricciones térmicas. El ventilador está encendido todo el tiempo, hay biseles masivos y el dispositivo en sí es un poco grueso, para proporcionar todos los puertos que puede proporcionar el chip. En última instancia, los OEM pueden tomar estos diseños de referencia y agregar / quitar componentes como mejor les parezca, o usarlos como una guía para construir los suyos desde cero. Estas plataformas SDS están claramente basadas en la serie Lenovo Yoga, dado el mecanismo de bisagra y los ladrillos de potencia de Lenovo, pero eso tiene sentido que Intel pueda asociarse con uno de sus aliados más cercanos para producir una ejecución de estos sistemas.

Como siempre con la prueba de máquinas de diseño de referencia, hay algunas advertencias que vale la pena mencionar.

• Unidades para permanecer en la sala que se está probando (una sala de conferencias del hotel cerca de Intel HQ)
• Estos sistemas son unidades Core i7-1065G7, funcionando en modo 15W.
• Intel habilitó una opción para que pudiéramos elegir ejecutarlos en una configuración de 25W.
• Intel NVMe SSD de 256 GB, cuatro puertos Thunderbolt 3, DRAM LPDDR4X-3733 de 2×4 GB
• El ventilador está encendido al 100%.
• Intel preinstalado Windows 10 Pro 1903, compilación 18362.239, con chipset ICL y controladores de gráficos
• No se nos permitió cambiar el sistema operativo. Podríamos solicitar un restablecimiento de imagen. Esto se debió a que el modo 15W / 25W era una configuración especial, además de que los controladores todavía eran beta y aún no estaban envueltos en instaladores adecuados
• Vino con puntos de referencia preinstalados. Podríamos eliminar estos (lo hice).
• No hay pruebas térmicas o de duración de la batería, ya que estas unidades son solo demostraciones funcionales.
• La prueba de potencia estuvo bien.
• Puede ejecutar e instalar cualquier punto de referencia, siempre y cuando no ‘llame a casa’ (para detener fugas).
• Tiempo total de prueba, ~8 horas.

Ahora, para ser honesto, era de esperar la mayoría de estos desde mi punto de vista. Solo pruebe el dispositivo en una ubicación específica durante un tiempo limitado, sin vida térmica / batería en un sistema de desarrollo. Yo estaba bien con eso. Tener un sistema operativo limitado y tener puntos de referencia preinstalados fue un poco incómodo. Discutí esto internamente con otros editores de AnandTech, y teníamos opiniones diferentes (de ‘como se esperaba’ a ‘esto podría conducir a hacer trampa’).

Después de asistir al evento, al que fueron invitados menos de 10 periodistas, ahora entiendo por qué. Algunos de los invitados de la prensa no tenían imágenes del sistema operativo, no traían puntos de referencia con ellos y estaban muy contentos de seguir la corriente. Intel proporcionó puntos de referencia como Geekbench y 3DMark, que aquellos que presionaron con sus audiencias estaban felices de ejecutar. Vine preparado con una nueva imagen del sistema operativo 1903 y mi conjunto de pruebas, listo para rockear.

Lo que probamos

Hay dos formas de abordar este tipo de entorno de prueba de tiempo limitado, y estaba claro qué prensa asistía a qué público. Hay pruebas de dispositivo y rendimiento, que tienen como objetivo mostrar cómo un dispositivo podría funcionar en pruebas con un usuario estándar, y hay pruebas funcionales, llegar al corazón de la nueva microarquitectura y lo que puede hacer. Hicimos un poco de la columna A, pero principalmente de la columna B.

Nuestros puntos de comparación para esta prueba son dos computadoras portátiles Huawei: un Matebook 13 2019 con un Whisky Lake i7-8565U y 8GB de DDR4-3200, y un Matebook X Pro 2018, con un Kaby Lake-R Core i7-8500U. Ambos son CPU de cuatro núcleos con un TDP nominal de 15 W (sin embargo, el X Pro podría estar funcionando en modo de 25 W debido a su diseño). También tenemos resultados de doble núcleo de nuestra computadora portátil Core i3-8121U Cannon Lake 15W, una mini PC Core i3-8130U Kaby Lake-R y algunas otras CPU de baja potencia.

Idealmente, también habríamos probado con un AMD Ryzen 3700U en la mezcla, pero desafortunadamente las muestras de esos sistemas parecen ser bastante raras. Entendemos que las pruebas contra AMD deberían ser parte de este análisis, pero ninguno de los socios de AMD nos ha enviado un nuevo sistema AMD para probar en bastante tiempo.

Con nuestra selección de referencia, dado lo que queríamos probar, en realidad estábamos bastante limitados porque algunas de nuestras pruebas clave en realidad toman varias horas. Nuestro desglose de tiempo comenzó a partir de esto:

• Copie los puntos de referencia de la unidad USB 3.0, 0h25m
• Instalación de puntos de referencia de scripts, 0h40m
• Ejecución de pruebas de verificación de instrucciones, 0h35m
• ESPECIFICACIONES 2006, 2h00m
• ESPECIFICACIONES 2007, 2h20m
• Prueba de potencia, 0h20m

Eso me dio 2h40m restantes. En ese tiempo, ejecutamos algunos de nuestros paquetes de pruebas regulares, solo unas pocas pruebas y luego tres títulos de juegos rápidos con nuestra configuración de IGP. Probamos todo a 15W, excepto nuestras pruebas de juego y pruebas de potencia, que también ejecutamos en modo 25W. Lamentablemente, se nos acabó el tiempo para hacer algo más.

Idealmente necesito otro par de días con el sistema. Pero así es como son las pruebas del sistema, incluso con los puntos de referencia preparados y listos para funcionar, especialmente si desea descubrir todas las complejidades de una nueva arquitectura.

Siga leyendo para obtener un informe sobre nuestras pruebas.

Actualizaciones de caché y TLB

Uno de los mayores cambios en el nuevo núcleo de Sunny Cove es la jerarquía de caché. A lo largo de la mayor parte de la última década, Intel ha mantenido la misma configuración de caché entre sus núcleos de servidor con muy pocos cambios, además de mejorar el caché micro-operativo a través de Sandy Bridge hoy, pero con Sunny Cove, obtenemos algunas actualizaciones clave.

Según nuestro artículo de divulgación de microarquitectura, sabemos que Sunny Cove trae consigo un aumento de la memoria caché de datos L1, así como una memoria caché L2 duplicada, de Skylake. Con esto viene más asociatividad también.

También he incluido el tamaño de la memoria caché de microoperaciones en esta comparación, porque entendemos que la memoria caché L1-I y la microoperación generalmente se encuentran una al lado de la otra en el diseño del troquel; aumentar el tamaño de una normalmente significa limitando el tamaño del otro, sin embargo, dado que ambos trabajan para acelerar los mismos tipos de datos, es importante encontrar el equilibrio correcto: AMD para Zen 2 decidió reducir a la mitad el L1-I y duplicar su asociatividad, y luego duplicar el caché micro-op de 2k a 4k entradas. Para Sunny Cove, Intel aumentó el L1-D en un 50%, pero también aumentó el caché micro-operativo en un 50%, aprovechando el proceso de 10nm de segunda generación.

En la comparación del gráfico de latencia anterior, podemos ver notablemente las nuevas capacidades de caché aumentadas. El aumento de L1 de 32 KB a 48 KB es bien visible, así como el aumento de L2 de 256 KB a 512 KB.

Por parte del L2, es interesante ver que nuevamente las estructuras TLB del nuevo núcleo no cubren toda la capacidad del L2 y es por eso que la segunda mitad del L2 tiene peores latencias de acceso para los patrones de fallas del TLB L1D.

Las latencias L3 se parecen, sin embargo, nos detendremos en eso solo en un momento. Las latencias DRAM, por supuesto, son manzanas y naranjas en este caso, ya que el nuevo controlador de memoria LPPDR4X de Intel en la nueva parte ICL no tiene una contraparte con la que podamos comparar, pero como se esperaba, la latencia de la memoria es notablemente peor que una parte de escritorio. No hay grandes sorpresas allí.

Sin embargo, lo que es bastante decepcionante es que realmente no estamos viendo ningún tipo de cambio en los captadores previos y nuestros patrones de acceso entre las dos microarquitecturas parecen idénticos. Esperábamos que Intel mejorara en este aspecto, pero parece que, al menos para nuestros casos de prueba, no ha habido mejoras.

Uno de los principales actos de equilibrio con los tamaños de caché es también la latencia de caché. Cuanto más grande es el caché, más tiempo se tarda en recuperar los datos del mismo; aumentar la asociatividad también puede hacer esto. Intel durante mucho tiempo ha citado una latencia de 4 ciclos en su caché L1 y una latencia de 12 ciclos en su caché L2. Esto cambia, de manera bastante sustancial.

Debido al aumento en el caché L1, esa latencia de 4 ciclos ahora es una latencia de 5 ciclos. Intel espera que su doble ancho de banda de almacenamiento en L1 ayude a ocultar esa latencia, sin embargo, agregar un 20% de latencia en cada búsqueda de datos es un gran golpe. Es por eso que gran parte del resto del núcleo también está reforzado, por lo que el trabajo aún puede continuar cubriendo este ciclo adicional. Vale la pena señalar que los núcleos Atom de Intel en el pasado tenían una latencia L1 de 3 ciclos, sin embargo, también se han movido a 4 ciclos.

El L2 también cambia, de 12 ciclos a 13 ciclos. No puede duplicar un caché de forma gratuita, y es interesante notar aquí que ahora AMD e Intel comparten el mismo tamaño de caché L2 y la misma asociatividad, sin embargo, AMD tiene una ventaja de ciclo en Intel. Esto también tiene un efecto secundario para la latencia de caché L3, que ha aumentado de ~ 26-37 ciclos a ~ 30-36 ciclos en Intel, de Skylake. La latencia aquí no es uniforme porque el caché no es uniforme, y el acceso a los segmentos L3 no locales conlleva una penalización de latencia, a diferencia de la latencia uniforme L3 de AMD.

Una de las mayores adiciones que Intel deseaba hacer en nuestra divulgación de microarquitectura Sunny Cove es el aumento del ancho de banda L1. Según nuestras pruebas, el caché de datos L1 de Skylake era capaz de leer 2×32 bytes y escribir 1×32 bytes por reloj. Para Sunny Cove esto ha aumentado, pero se vuelve un poco más complicado. En un reloj, Sunny Cove puede realizar lecturas de 2×64 bytes y escritura de 1×64 bytes , escritura de 1×32 bytes o escrituras de 2×16 bytes . Entonces, tanto las lecturas como las escrituras, en el pico, se han duplicado con el ancho de bits, y las configuraciones de escritura son un poco más complejas.

Podemos ver los efectos directos del cambio de ancho de banda en nuestras pruebas de ancho de banda. El ancho de banda de almacenamiento en L1 es extremadamente evidente, ya que mide 222 GB / s en la parte ICL, mientras que solo alcanza 139 GB / s en el 9900K con un 28% más de velocidad. Si normalizamos la frecuencia, de hecho vemos una duplicación del ancho de banda de almacenamiento del nuevo núcleo.

El ancho de banda de caché L2 se ve sin cambios desde Skylake: la parte aquí se queda atrás con una cantidad igual a la diferencia de frecuencia. Sorprendentemente, el ancho de banda L3 funciona bastante bien aquí y está casi a la par con el escritorio 9900K a pesar de la diferencia de frecuencia. El ancho de banda DRAM es inferior en el chip móvil ICL, pero de nuevo eso es de esperar debido a la comparación de la arquitectura DRAM de manzanas y naranjas.

Pasando a las configuraciones de TLB, resulta que Intel se ha movido donde se almacenan estos datos. Estos datos generalmente se almacenan en CPUID.02h, sin embargo ahora se encuentran en CPUID.18h, y la información entre diferentes tamaños de página y capacidades ahora se da como subdivisiones. Los TLB tienen el siguiente aspecto y se dividen en configuraciones:

Esto significa que para las entradas 4K y 2M L1-I, hay un total de 8 + 16 = 24 posibles, pero solo 16 1G posibles. Para las entradas 4K L2, hay 1024 + 1024 = 2048 entradas posibles, sin embargo, solo 1024 de 2M / 1G son posibles. Los números máximos se alinean con lo que Intel nos ha dicho en nuestra divulgación de microarquitectura, sin embargo, es bueno sumergirse en lo que es posible.

Actualizaciones de seguridad, rendimiento de instrucción mejorado y actualizaciones AVX-512

Con cada nueva actualización de microarquitectura, hay objetivos en varios frentes: agregar nuevas instrucciones, disminuir la latencia de las instrucciones actuales, aumentar el rendimiento de las instrucciones actuales y eliminar errores. La gran adición principal para Sunny Cove y Ice Lake es AVX-512, que aún no ha aparecido en un procesador de consumo ampliamente distribuido, técnicamente lo vimos en Cannon Lake, pero esa era una CPU de ejecución limitada. Sin embargo, mucho de lo que entró en Cannon Lake también aparece en el diseño de Sunny Cove. Para complicar las cosas, AVX-512 viene en muchos sabores diferentes. Pero además de eso, Intel también realizó una cantidad significativa de mejoras en varias instrucciones a lo largo del diseño.

Seguridad

En cuanto a la seguridad, casi todas las soluciones de seguridad de hardware documentadas están en su lugar con Sunny Cove. A través de los resultados de CPUID, podemos determinar que SSBD está habilitado, al igual que IA32_ARCH_CAPABILITIES, L1D_FLUSH, STIBP, IBPB / IBRS y MD_CLEAR.

Esto se alinea con la lista de mejoras de seguridad de Sunny Cove de Intel:

Aparte de Specter V1, que no tiene una solución de hardware adecuada, casi todo el resto se ha resuelto a través de hardware / firmware (Intel no distinguirá cuál, pero en cierta medida no importa para el nuevo hardware). Este es un paso en la dirección correcta, pero, por supuesto, puede tener un efecto secundario, además, cualquier cosa que obtenga mejoras de rendimiento que se trasladen del firmware al hardware se incorporará a cualquier aumento de IPC anunciado.

También en el lado de la seguridad está SGX, o las Instrucciones de Intel Software Guard. Sunny Cove se convierte ahora en el primer procesador público de Intel en habilitar AVX-512 y SGX en el mismo diseño. Técnicamente, el primer chip con SGX y AVX-512 debería haber sido Skylake-X, sin embargo, esa característica finalmente se deshabilitó debido a la falla de algunos casos de validación de prueba. Pero ahora se une para Sunny Cove en Ice Lake-U, que también es un procesador de consumo.

Mejoras de instrucción y AVX-512

Como se mencionó, Sunny Cove saca una serie de mejoras clave del diseño de Cannon Lake, a pesar de que el chip Cannon Lake tiene la misma configuración de caché que Skylake. Uno de los puntos clave aquí es el rendimiento de la división de 64 bits, que pasa de una latencia de 97 ciclos a una latencia de 18 ciclos, superando la latencia de 45 ciclos de AMD. Como ex investigador sin idea de latencia de instrucción u opciones de compilador, trabajando en código matemático de alta precisión, esta aceleración habría sido crítica.

• IDIV -> 97 ciclos a 18 ciclos

Para los registros de propósito general, vemos muchos cambios, y la mayoría de ellos bastante considerables.

En el pasado, hemos visto que las instrucciones x87 se regresan, se hacen más lentas y se vuelven obsoletas. Por alguna razón, Sunny Cove reduce la latencia FMUL de 5 ciclos a 4 ciclos.

Las unidades SIMD también pasan por algunos cambios:

Ya hemos revisado todas las nuevas instrucciones AVX-512 en nuestra divulgación de microarquitectura Sunny Cove. Estas incluyen las siguientes familias:

• AVX-512_VNNI (Instrucciones de red neuronal vectorial)
• AVX-512_VBMI (Instrucciones de manipulación de bytes de vectores)
• AVX-512_VBMI2 (segundo nivel VBMI)
• AVX-512_ BITALG (algoritmos de bits)
• AVX-512_IFMA (suma multiplicada por entero)
• AVX-512_VAES (Vector AES)
• AVX-512_VPCLMULQDQ (Multiplacación sin palabras de palabras cuádruples largas)
• AVX-512 + GFNI (Nuevas instrucciones de campo de Galois)
• SHA (no AVX-512, pero aún nuevo)
• GNA (acelerador neuronal gaussiano)

(Intel también tiene el GMM (Modelo de mezcla gaussiana) dentro del núcleo desde Skylake, pero aún no he visto ninguna información sobre esto fuera de una sola línea en el manual de codificación).

Para todas estas nuevas instrucciones AVX-512, vale la pena señalar que se pueden ejecutar en modo de 128 bits, 256 bits o 512 bits, dependiendo de los tipos de datos que se le pasen. Cada uno de estos puede tener latencias y rendimientos correspondientes, que a menudo empeoran cuando se utiliza el modo de 512 bits, pero en general, suponiendo que pueda llenar el registro con un tipo de datos de 512 bits, el procesamiento bruto general será más rápido, incluso con El diferencial de frecuencia. Esto no tiene en cuenta ninguna sobrecarga adicional para ingresar al estado de potencia de 512 bits, debe tenerse en cuenta.

La mayoría de estas nuevas instrucciones son relativamente rápidas, con la mayoría de ellas solo 1-3 ciclos de latencia. Observamos lo siguiente:

Para todas las instrucciones AVX2 comunes, las latencias y el rendimiento de xmm / ymm son idénticos a Skylake, sin embargo, zmm suele ser unos ciclos más lento para las variantes DIV / SQRT.
Otras observaciones notables

A partir de nuestras pruebas, también pudimos probar algunas de las otras partes del núcleo, como los puertos de almacenamiento adicionales y las unidades barajadas.

Nuestros datos muestran que el segundo puerto de almacenamiento no es idéntico al primero, lo que explica el desequilibrio en lo que respecta a las escrituras: en lugar de admitir 2×64 bits con cargas, solo admite escritura de 1×64 bits o escritura de 1×32 bits, o Escrituras de 2×16 bits. Esto significa que vemos principalmente aceleraciones con datos GPR / XMM, y el resultado es solo una pequeña mejora para las instrucciones SCATTER de 512 bits. De lo contrario, parece que no funciona con ningún operando de 256 o 512 bits (sin embargo, puede usarlo con registros de máscara AVX-512 de 64 bits). Esto va a causar un ligero dolor de cabeza a cualquier persona actualmente limitada por el STORE-SCATTER.

La nueva unidad aleatoria tiene solo 256 bits de ancho. Manejará una cantidad de instrucciones enteras (UNPCK, PSLLDQ, SHUF *, MOVSHDUP, pero no PALIGNR o PACK), pero solo un par de instrucciones de coma flotante (SHUFPD, SHUFPS).

Resultados SPEC2017 y SPEC2006 (15W)

SPEC2017 y SPEC2006 es una serie de pruebas estandarizadas utilizadas para probar el rendimiento general entre diferentes sistemas, diferentes arquitecturas, diferentes microarquitecturas y configuraciones. El código debe compilarse y luego los resultados pueden enviarse a una base de datos en línea para su comparación. Cubre un rango de cargas de trabajo de enteros y de coma flotante, y puede ser muy optimizado para cada CPU, por lo que es importante verificar cómo se compilan y ejecutan los puntos de referencia.

Ejecutamos las pruebas en un arnés construido a través del subsistema de Windows para Linux, desarrollado por nuestro propio Andrei Frumusanu. WSL tiene algunas peculiaridades extrañas, con una prueba que no se ejecuta debido a un tamaño de pila fijo de WSL, pero para las pruebas de igual a igual es lo suficientemente bueno. SPEC2006 está en desuso a favor de 2017, pero sigue siendo un punto de comparación interesante en nuestros datos. Debido a que nuestros puntajes no son presentaciones oficiales, según las pautas de SPEC, tenemos que declararlos como estimaciones internas de nuestra parte.

Para los compiladores, utilizamos LLVM tanto para pruebas de C / C ++ como de Fortan, y para Fortran estamos usando el compilador de Flang. La razón de usar LLVM sobre GCC es mejores comparaciones multiplataforma con plataformas que solo tienen soporte LLVM y futuros artículos donde investigaremos más este aspecto. No estamos considerando compiladores de origen cerrado como MSVC o ICC.

Clang versión 8.0.0-svn350067-1 ~ exp1 + 0 ~ 20181226174230.701 ~ 1.gbp6019f2 (troncal)
clang versión 7.0.1 (ssh: //git@github.com/flang-compiler/flang-driver.git
24bd54da5c41af04838bbe7b68f830840d47fc03)

-Ofast -fomit-frame-puntero
-marcha = x86-64
-mtune = core-avx2
-mfma -mavx -mavx2

Nuestros indicadores del compilador son sencillos, con conmutadores ISA básicos, rápidos y relevantes para permitir instrucciones AVX2. A pesar de que ICL admite AVX-512, actualmente no lo hemos implementado, ya que requiere un nivel de delicadeza mucho mayor con el embalaje de instrucciones. El mejor software AVX-512 utiliza intrínsecos hechos a mano para proporcionar las instrucciones, según nuestra prueba 3PDM AVX-512 más adelante en la revisión.

Para estas comparaciones, seleccionaremos CPU de nuestro conjunto de datos para proporcionar contexto. Cabe señalar que algunos de estos podrían ser procesadores de mayor potencia.

SPECint2006

Entre SPECint2006, el único punto de referencia que realmente se destaca más allá del resto es el 473.astar. Aquí el nuevo núcleo Sunny Cove está mostrando algunas ganancias excepcionales de IPC, casi duplicando el rendimiento sobre el 8550U a pesar de que tiene una velocidad de 100MHz más baja. El punto de referencia es extremadamente sensible a la predicción de sucursales, y la única conclusión que podemos llegar a racionalizar este aumento es que los nuevos predictores de sucursales en Sunny Cove están haciendo un trabajo excelente y representan una mejora masiva sobre Skylake.

456.hmmer y 464.h264ref están muy vinculados a la ejecución y tienen las instrucciones reales más altas por métrica de reloj en este conjunto. Aquí es muy posible que la ventana fuera de servicio ampliamente aumentada de Sunny Cove pueda extraer mucho más ILP del programa y, por lo tanto, obtener aumentos significativos en IPC. Es impresionante que el núcleo de 3.9GHz aquí logre igualar y superar al núcleo Skylake de 5GHz de 9900K.

Otros puntos de referencia aquí que están limitados por otras características de µarch tienen varios aumentos dependiendo de la carga de trabajo. Sunny Cove duplicó el caché L2 sin duda debería ayudar con cargas de trabajo como 403.gcc y otras. Sin embargo, debido a que también tenemos una latencia de memoria limitada en esta plataforma, los aumentos no son tan grandes como cabría esperar de una variante de escritorio de ICL.

En SPECfp2006, la ventana fuera de servicio más amplia de Sunny Cove se puede ver nuevamente en pruebas como 453.povray, ya que el núcleo está registrando algunas ganancias impresionantes sobre el 8550U en relojes similares. 470.lbm también es una ventana de instrucciones, así como un gran almacenamiento de datos: el ancho de banda de almacenamiento duplicado del núcleo aquí ciertamente lo ayuda.

En general, en SPEC2006, el nuevo i7-1065G7 supera a un i7-8550U con un reloj similar en un considerable 29% en la suite int y 34% en la suite fp. Por supuesto, esta brecha de rendimiento será mucho menor en comparación con las piezas H móviles de la 9a generación en relojes más altos, pero estos también son productos TDP más altos.

El 1065G7 se acerca bastante a las partes de escritorio más rápidas, sin embargo, es probable que necesite un subsistema de memoria de escritorio para alcanzar el máximo rendimiento absoluto total.

Los incrementos de rendimiento por reloj en la nueva arquitectura Sunny Cove son extraordinariamente buenos. Los incrementos de IPC contra el móvil Skylake son de 33 y 38% en las suites de enteros y fp, aunque también debemos tener en cuenta que estas cifras van más allá de la arquitectura Sunny Cove y también incluyen mejoras a través de los nuevos controladores de memoria LPDDR4X.

Contra un 9900K, aunque las manzanas y las naranjas, estamos viendo 13% y 14% de aumento de IPC. Estas cifras probablemente serían más altas en una eventual parte de Sunny Cove de escritorio.
SPEC2017

Los resultados de SPEC2017 son similares a los de 2006. Contra el 8550U, estamos viendo grandes mejoras de rendimiento, apenas por debajo de los mejores procesadores de escritorio.

Aquí el aumento de IPC también se ve extremadamente sólido. En la suite SPECin2017, la parte de Ice Lake logra un aumento del 14% sobre el 9900K, sin embargo, también vemos un impresionante aumento del 21% en la suite fp.

En general, en el conjunto de 2017, estamos viendo un aumento del 19% en el IPC sobre el 9900K, que coincide aproximadamente con la métrica anunciada por Intel de un aumento del 18% en el IPC.

Resultados de consumo (15W y 25W)

Basado en la tabla de SKU, Intel estaba muy interesado en señalar que todos los procesadores de la serie Y para Ice Lake y todos los procesadores de la serie U de 15 W tienen modos cTDP up. Esto significa que los OEM, si construyen para ello, pueden aprovechar una mayor potencia base de un procesador que conduce a períodos de turbo más largos y una mayor frecuencia durante niveles de rendimiento sostenidos.

Si bien cTDP es una buena idea, uno de los problemas que tenemos con el concepto es que los socios OEM de Intel que diseñan las laptops y notebooks para estos procesadores nunca anuncian ni publicitan si están usando una CPU en modo cTDP arriba o abajo . Podría entender por qué un proveedor podría no querer anunciar usando un modo inactivo, pero un modo superior significa un rendimiento adicional y es difícil saber desde afuera qué está sucediendo.

Por lo que vale, la mayoría de los usuarios no pueden cambiar entre estos modos de todos modos. Están integrados en el firmware y el sistema operativo. Sin embargo, hay algunos sistemas que exponen esto al usuario, como descubrí recientemente con mi plataforma Whiskey Lake-U, donde el plan de energía del sistema operativo tiene opciones avanzadas para establecer los niveles de TDP. Muy interesante de hecho.

Además, para Ice Lake-U, Intel presenta una característica llamada Intel Dynamic Tuning 2.0.

Cubrimos esto en nuestro artículo de divulgación de arquitectura, pero lo breve y simple es que permite que los OEM implementen un sistema mediante el cual el PL1 / TDP de un sistema puede cambiar según un algoritmo a lo largo del tiempo. Por lo tanto, permite un turbo más estricto y estricto, y luego ajusta el presupuesto del turbo con el tiempo.

Esta característica tendrá la marca de la marca Adaptix de Intel, que cubre todas estas optimizaciones de CPU. Sin embargo, debe tenerse en cuenta que esta característica es opcional para el OEM. Requiere que el OEM realmente haga el trabajo para caracterizar el perfil térmico del sistema. Sospechamos que será principalmente en dispositivos premium, pero a medida que los chips se desplieguen en sistemas más baratos, esto no estará allí. Intel no está haciendo esta característica estándar.

Prueba de consumo

Según el tiempo disponible, no pudimos hacer muchas pruebas de potencia. Lo que pude hacer fue ejecutar un perfil de potencia durante el inicio de nuestra prueba 3DPM AVX512 en los modos 15W y 25W para el Core i7-1065G7.

La prueba aquí se ejecuta durante 20 segundos, luego descansa durante 10 segundos. Aquí están las primeras cuatro pruebas secundarias, y hay muchos puntos interesantes para tener en cuenta.

La potencia máxima en estos sistemas es claramente el modo PL2, que en la plataforma Intel SDS parece estar alrededor del modo 50W. Dado que el sistema de prueba funcional es un poco complicado, con un fuerte perfil térmico y el ventilador encendido todo el tiempo, esto es de esperar. El PL2 sugerido para Kaby Lake-R fue de 44W, por lo que esto podría indicar un pequeño salto en la estrategia. Por supuesto, con los diseños de Kaby Lake-R, nunca vimos muchos dispositivos que en realidad tuvieran un PL2 de 44W; la mayoría de los OEM eligieron algo más pequeño, como 22W o 35W.

El hecho de que la CPU pueda soportar un PL2 de 50W significa que Intel podría lanzar fácilmente Ice Lake al mercado de computadoras de escritorio en el rango de 35W. Fácil. Por favor haga esto Intel.

El segundo en tener en cuenta es la frecuencia AVX-512. No se enumera aquí, pero en el modo de 15W vimos la frecuencia AVX-512 alrededor de 1.0-1.1 GHz, mientras que a 25W fue de alrededor de 1.4-1.5 GHz. Eso es una gran caída del código no AVX-512, seguro.

Tercero, llegamos a la ventana turbo. Aumentar el TDP base significa que la ventana turbo tiene más presupuesto para turbo, y podemos ver que esto equivale a más de 2 veces en todas las subpruebas. En el modo de 15 W, en la primera prueba, superamos el presupuesto en 5 segundos, pero en el modo de 25 W, en realidad podemos pasar los 20 segundos de la primera prueba. Esto significa que todavía hay un presupuesto técnico en la mesa para el momento en que comenzamos la segunda prueba en el modo de 25W.

Además, esa tercera prueba: si se pregunta por qué ese gráfico se ve un poco más claro en los puntos de datos en comparación con los demás, es porque las instrucciones AVX-512 tomaron la mayor parte del tiempo en la CPU, que nuestro software de energía no No obtiene ninguno para actualizar los valores de potencia. Todavía tenemos suficiente para hacer un gráfico, pero eso solo muestra lo que puede hacer la CPU.

Para el consumo de energía base, en realidad tenemos un problema aquí con el efecto observador. Nuestro software de encuestas sondea con demasiada frecuencia y aumenta un poco la potencia. Sin embargo, si tomamos el consumo de energía promedio entre 25-30 segundos, menos de 25 W es 2.96 W y menos de 15 W es 2.87 W, que es similar.

Para los usuarios interesados ​​en el puntaje diferencial entre los dos:

• Para 3DPM sin instrucciones AVX, el modo 15W obtuvo 816 y el modo 25W obtuvo 1020 (+ 25%).
• Para 3DPM con AVX-512, el modo de 15 W obtuvo 7204 y el modo de 25 W obtuvo 9242 (+ 28%).

Resultados del sistema (15W)

Al probar un sistema de computadora portátil, hay varios ángulos a considerar sobre cómo realizar la prueba: ya sea puntos de referencia de la experiencia del usuario, que en su mayoría son de un solo subproceso y dan un buen impulso a la forma en que los sistemas implementan un acuerdo de turbo, o puntos de referencia sostenidos que prueban cómo funciona el sistema cuando lo empujas. Intel ha hecho todo lo posible para enfatizar lo primero para la próxima generación de CPU móviles: preferirían que los revisores se apeguen a pruebas muy similares a la experiencia del usuario, en lugar de decir, programas de renderizado. El problema es que, fuera de una serie de puntos de referencia enlatados, puede ser difícil. Los usuarios, y especialmente los creadores, que generalmente gastan mucho en un dispositivo premium, en realidad podrían estar haciendo puntos de referencia sostenidos.

Dado el tiempo que tuvimos que probar, en realidad estábamos limitados en lo que podíamos organizar.

Estas dos últimas pruebas suelen ser nuestras pruebas más sensibles a la memoria, y el LPDDR4X-3733 realmente gana al LPDDR3-2133 en los otros sistemas.

Resultados sintéticos y heredados (15W)

El ámbito de las pruebas sintéticas es complicado, dado que hay muchos puntos de referencia en la naturaleza que proporcionan un número, pero en realidad no se basan en cargas de trabajo reales o son muy limitados en lo que realmente prueban. El problema aquí es que este software intenta emular el mundo real, pero no está inmerso en los arneses o la matriz de lo que un usuario podría experimentar realmente. Por esa razón, solo tendemos a usar estos puntos de referencia basados ​​en las solicitudes de los lectores.

Los puntos de referencia heredados se incluyen por razones similares, pero pueden ayudar a obtener una perspectiva histórica.

Resultados de juego (15W y 25W)

Uno de los mayores cambios en el diseño de Ice Lake está en los gráficos integrados: Intel ahora está dando más atención y más área de matriz a los gráficos, algo que posiblemente ha estado descuidando durante varios años. Con Ice Lake, pasamos a una arquitectura de gráficos Gen11, que es casi como la Gen9.5 anterior pero ahora con soporte adicional para sombreado de velocidad variable (VRS), pasando de 24 EU a 64 EU, y soporte de memoria desde LPDDR3-2133 a LPDDR4X-3733.

World of Tanks es un punto de referencia muy impulsado por la CPU, y tener la frecuencia adicional del procesador de 25 vatios ayuda aquí. Estamos recibiendo un aumento considerable de Whiskey Lake, debido a la frecuencia adicional de la UE y la memoria.

Nuestra prueba de Final Fantasy parecía retroceder en el modo de 25 W, aunque todavía dentro del ruido. Esta prueba todavía está vinculada a la GPU, por lo que agregar el TDP adicional a la CPU en realidad no ayudó mucho. Sin embargo, en comparación con los gráficos integrados de Whiskey Lake, tenemos una aceleración de más del doble.

De manera similar con Civilization, con lo que normalmente es nuestra configuración ‘IGP’, todavía estamos limitados por GPU aquí.

Una de las características más nuevas de Intel es el sombreado de velocidad variable.

Si los desarrolladores agregan la opción, que pronto será marcar una casilla de verificación en Unity e Unreal, el juego puede decidir controlar la velocidad a la que sombrea los píxeles, desde calcular cada píxel hacia abajo usando un resultado en una cuadrícula de 4×4, para ahorrar potencia de cálculo. Actualmente, la única forma de probar esto es con la demostración funcional 3DMark.

La nueva prueba VRS en 3DMark está diseñada como una prueba de características para mostrar el posible efecto de elevación al habilitar el sombreado de velocidad variable dentro de un juego. Tanto en el modo de 15 W como en el de 25 W, los datos vieron una buena elevación, y parece que obtuvimos más del modo de 25 W que del modo de 15 W.

Conclusiones

En primer lugar, debo decir que Intel que nos ofrece probar un sistema de referencia antes de un lanzamiento es algo realmente bueno. No es algo que Intel haya hecho a menudo en el pasado; de hecho, la última vez que recuerdo que sucedió fue con Broadwell, cuando Intel nos probó uno de sus sistemas móviles CRB (placa de referencia del consumidor) para el chip de 45W. Antes de eso, Intel tuvo un pequeño intento de permitir que la prensa comparara a Conroe en 2006 con puntos de referencia preestablecidos en lata , lo que no funcionó bien. Por lo tanto, pasar a este régimen de prueba previa recibe algunas felicitaciones inmediatas para quienes aprobaron la prueba.

Dado que la plataforma Ice Lake está más orientada hacia diseños ultra premium, el sistema de desarrollo de software que terminamos probando era ciertamente una expectativa razonable y la dirección en la que entrarían estas partes. Por supuesto, solo tuvimos la mejor parte de nueve horas probar, y darnos la opción de probar los modos de 15W y 25W significaba que teníamos que elegir qué pruebas consideramos relevantes. Mi comentario más destacado a Intel sería darnos dos días para probar la próxima vez, ya que nos permite sentarnos en nuestros datos después del primer día y decidir qué hacer a continuación. Estaba claro que algunos de los asistentes de la prensa solo necesitaban un día (o medio día), pero para lo que hacemos en AT, entonces dos días serían mejores.

En cuanto a Ice Lake en sí, nuestros resultados se inclinan hacia Ice Lake superando a Whiskey Lake, aunque solo sea por un pequeño margen.

Para comenzar, quiero recordar un gráfico que Intel mostró en Computex:

Este gráfico muestra el rendimiento de un solo hilo de Skylake y más allá, en comparación con el hardware de 5ª generación Broadwell. Justo al final, vemos a Whiskey Lake con un rendimiento de +42% por encima de Broadwell, y Ice Lake con un rendimiento de +47% por encima de Broadwell. Un cálculo rápido de 1.47/1.42 significa que incluso Intel solo predice una ganancia absoluta de ~3.5% para Ice Lake sobre los sistemas de generación actuales.

La razón por la cual la diferencia es tan pequeña es por el IPC y la frecuencia. Intel está promocionando una ventaja mediana de IPC en los nuevos núcleos Sunny Cove de + 18% contra Skylake. Eso no es algo que pudimos probar en el poco tiempo que tuvimos con el sistema, pero + 18% debería proporcionar una mejora saludable: en realidad, vemos una serie de mejoras microarquitectónicas clave que brotan en nuestras pruebas SPEC.

Pero al mismo tiempo, la frecuencia ha disminuido: nuestro sistema Huawei Matebook Whiskey Lake tenía +500 MHz en la frecuencia base (+ 38%) y +700 MHz en la frecuencia turbo (+ 18%). Si no fuera por el gran aumento en la velocidad de la memoria, pasando de LPDDR3-2133 a LPDDR4X-3733, uno podría haber predicho que el procesador Core i7-1065G7 Ice Lake y el procesador Core i7-8565U Whiskey Lake hubieran tenido el mismo rendimiento.

La pregunta aquí es si prefiere IPC o frecuencia. Para tareas limitadas de instrucción, esa respuesta debe ser IPC. Para tareas limitadas de ruta crítica, nominalmente necesita frecuencia. Todo esto se confunde un poco con el aumento de la frecuencia de la memoria, pero con un IPC más alto a una frecuencia más baja, podría decirse que también debería tener una mayor eficiencia energética, lo que lleva a una mayor duración de la batería. En iso-performance entre Ice y Whisky, sin considerar otros factores como el precio, elegiría Ice.

Intel ha realizado una serie de mejoras en una parte del conjunto de instrucciones que debería funcionar bien para los usuarios, sin embargo, el nuevo diseño de caché más grande ha agregado un poco de latencia allí, lo que termina siendo un poco de dar y recibir con aciertos y errores de caché .

Por supuesto, la única área en la que sobresale Ice Lake es en los gráficos. Pasar de 24 EU a 64 EU, más un aumento en el ancho de banda de la memoria a> 50 GB / s, facilita la lectura. Mejora aún más en el modo de 25 W, para juegos que están limitados por la CPU, pero que aún no esperan abordar juegos AAA en altas resoluciones. A pesar de que Ice Lake se enfoca en el mercado de resolución ultra premium> 1080p, todavía estará jugando a 720p o 1080p en el mejor de los casos aquí.

La otra alternativa es conectar una tarjeta gráfica externa Thunderbolt 3. Si hay un complemento realmente bueno para Ice Lake, aparte de la mejora de gráficos, es la inclusión de hasta cuatro puertos TB3 como parte del silicio de la CPU. Si y cuando los controladores TB3 se vuelven mucho más baratos en el lado del dispositivo, esto realmente debería ayudar a acelerar un estándar de alto rendimiento aquí.

También deberíamos hablar sobre AVX-512: Intel está en una posición en este momento donde incluirlo en el chip usa una buena cantidad de área de matriz, y el ecosistema de software aún no lo ha adoptado. Al anunciar aceleraciones como DLBoost, la compañía espera atraer a los desarrolladores a trabajar con AVX-512 en mente y mejorar una serie de aplicaciones de aprendizaje automático para procesadores de consumo. El otro lado es qué tipo de aplicaciones de consumo necesitan aprendizaje automático que aún no se haya realizado en la nube. Es un poco un catch-22, pero en nuestras propias pruebas, el AVX-512 proporciona una aceleración significativa. Sin embargo, dado el reciente mantra de pruebas de Intel para la experiencia del usuario, será interesante ver cómo martillar la unidad AVX-512 se combina con ese mantra.

El alcance de cuándo estos procesadores Ice Lake están llegando al mercado, y cuánto, sigue siendo un signo de interrogación. Intel afirma que veremos a Ice Lake en el mercado para la temporada de vacaciones (es decir, Navidad), sin embargo, tenemos una serie de ferias comerciales a la vuelta de la esquina, como IFA en septiembre, donde podría comenzar a ver que algunas compañías comienzan a presumir sus diseños También sabemos que Intel planea lanzar procesadores móviles Comet Lake en algún momento de este año, en el antiguo proceso de 14 nm y la microarquitectura basada en Skylake, pero a frecuencias más altas, por lo que será interesante ver cómo compiten.

Durante muchos años el gigante del chip ha podido mantener una estrategia muy interesante centrada en lo que conocíamos como «tick-tock». Como recordarán muchos de nuestros lectores dicha estrategia se caracterizaba por hacer un «tick», que implicaba una reducción de proceso, y un «tock», que suponía una nueva arquitectura, manteniendo un ritmo anual. Por ejemplo, los procesadores Intel Core Ice Lake son un «tick» con respecto a los procesadores Coffe Lake Refresh, ya que los primeros están fabricados en proceso de 10 nm y los segundos en proceso de 14 nm++.

Sin embargo, Intel no ha podido mantener ese ciclo de desarrollo anual. El salto al proceso de 10 nm que han marcado los procesadores Intel Core Ice Lake debería haberse producido mucho antes, concretamente tras el lanzamiento de los procesadores Skylake, ya que estos fueron un «tock» (nueva arquitectura) sobre Broadwell (los primeros en 14 nm). Después de Skylake Intel tuvo que lanzar los procesadores Kaby Lake, que llegaron bajo el proceso de 14 nm+ y fueron un nuevo «tock» sobre Skylake, una escena que se repitió con dos «tocks» más cuando se lanzaron Coffe Lake y Coffee Lake Refresh, ambos en proceso de 14 nm++.

El propio CEO de Intel, Bob Swan, explicó recientemente que los problemas que han tenido con el salto al proceso de 10 nm se han debido a una aproximación demasiado ambiciosa. Os lo explico, normalmente el gigante del chip ha doblado el número de transistores con cada salto de proceso, pero al aventurarse en los 10 nm decidieron multiplicar por 2,7 veces la cantidad de transistores con respecto al proceso de 14 nm. Ese aumento del 70% fue visto al principio como un desafío complicado aunque posible, pero al final acabó siendo más difícil de lo que parecía.

A pesar de todo Intel ha podido sacar adelante su aventura con el proceso de 10 nm y ha podido anunciar, por fin, los primeros procesadores Intel Core Ice Lake de décima generación. Como estaba previsto el debut de esta nueva generación se ha limitado de momento a los modelos de bajo consumo (serie U) y a los de consumo ultra bajo (serie Y), que cuentan con un máximo de cuatro núcleos y ocho hilos y tienen unas frecuencias de trabajo bastante contenidas.

Los procesadores Intel Core de décima generación de alto rendimiento no llegarán hasta finales de 2020, al menos en teoría, ya que el gigante de Santa Clara todavía está trabajando para mejorar los resultados de chips funcionales obtenidos por oblea de silicio al trabajar con procesadores más complejos. Os recuerdo que según las últimas filtraciones que hemos tenido ocasión de ver Intel tiene previsto cubrir el vacío que quedará hasta la llegada de dichos procesadores con Comet Lake, la última revisión del proceso de 14 nm++, cuyo lanzamiento se espera para principios de 2020.

En total Intel ha anunciado seis nuevos procesadores Core de décima generación en la serie U y cinco procesadores en la serie Y. Como podemos ver en la imagen adjunta tanto los Core i7 como los Core i5 tienen cuatro núcleos y ocho hilos de ejecución, mientras que los Core i3 mantienen dos núcleos y cuatro hilos.

Para reducir el TDP de los procesadores Core de décima generación serie U hasta un margen que va desde los 15 hasta los 28 vatios ha decidido bajar las frecuencias de reloj, y lo ha hecho de una manera bastante agresiva, ya que como podemos ver hay modelos como el Core i5 1035G1 que funciona a 1 GHz de frecuencia base y puede llegar a los 3,3 GHz en modo turbo con todos los núcleos activos.

En el caso de los procesadores serie Y (consumo ultra bajo) vemos modelos con una frecuencia base de apenas 700 MHz, aunque pueden llegar a un máximo de 3,2 GHz con todos los núcleos activos. Este ajuste de frecuencias permite a Intel reducir el TDP hasta los 9-12 vatios. Y hablando de TDP, el gigante del chip ha destacado que estos nuevos procesadores vienen con un sistema de inteligencia artificial que es capaz de predecir la carga de trabajo que vamos a afrontar y de ajustar mejor las frecuencias de trabajo (en tiempo real) para equilibrar al máximo el consumo y el rendimiento. Muy interesante, sobre todo teniendo en cuenta que hablamos de chips que están pensados para ir montados en ultra portátiles, en convertibles y en sistemas dos en uno, donde lo que prima es la movilidad sobre el rendimiento bruto.

A nivel de rendimiento el salto más importante se ha producido a través de dos grandes frentes: la GPU integrada y las instrucciones AVX 512. Empezamos hablando de la GPU utilizada en los nuevos procesadores Intel Core Ice Lake, que está basada en la arquitectura Gen 11 y ofrece en sus versiones más potentes hasta 1 TFLOP de potencia.

Las primeras pruebas de rendimiento confirman que hay un salto tan grande frente a las GPUs utilizadas en los procesadores Intel Core Whiskey Lake (Core 8000U) que las nuevas GPUs Gen 11 logran doblar los resultados de aquellas. Basta con echar un vistazo a las gráficas adjuntas para darse cuenta de que hay un salto enorme, y sin que el TDP se haya visto afectado. Puntos para Intel en este sentido.

Como anticipamos las instrucciones AVX 512 también marcan una diferencia enorme, aunque no es algo que los desarrolladores estén utilizando a gran escala, así que su importancia es menor, al menos a día de hoy. Si pasamos a ver los resultados obtenidos en las pruebas de rendimiento bruto a nivel CPU nos damos cuenta de que la mejora es bastante discreta.

Uno de los más llamativos es el uso de memoria de alto rendimiento. Los procesadores Whiskey Lake que utilizaron venían con memoria LPDDR3 a 2133 MHz, pero el equipo de pruebas con Ice Lake montaba memoria LPDDR4X a 3733 MHz, una diferencia enorme que, a su juicio, ha sido determinante en la victoria del Core de décima generación.

Todavía es pronto para sacar conclusiones, pero las primeras pruebas de rendimiento de los Intel Core de décima generación basados en Ice Lake son bastante positivas. Tenemos un aumento del rendimiento bruto incluso trabajando a frecuencias inferiores (recordar lo que hemos dicho de la velocidad de la RAM), un salto muy marcado en el rendimiento de la GPU sin subir el consumo y también debemos tener en cuenta otras claves que añaden valor:

• Diferencia media de rendimiento CPU de un +3.5%, aproximadamente.
• Diferencia media de rendimiento iGPU de un +90%, aproximadamente.
• Instrucciones AVX 512.
• Frecuencia dinámica mejorara gestionada mediante IA.
• Conectividad Wi-Fi 6 integrada.
• GPUs integradas con memoria eDRAM (serie Iris).

Quedamos a la espera de que el gigante del chip mueva ficha y anuncie los Core de décima generación de alto rendimiento, una línea que estará formada, salvo sorpresa, por la serie Comet Lake que mantendrá, como dijimos, el proceso de 14 nm y tendrá hasta 10 núcleos y 20 hilos.

Pensamientos finales

Me alegro de haber probado Ice Lake. Es una pena que solo hayamos tenido un día para probar, porque podría haber pasado una semana probando ese sistema. El aumento del IPC es el mejor problema para resolver, incluso si proporciona un rendimiento similar debido a una frecuencia más baja, pero es de esperar que el efecto de activación aquí sea una mejor duración de la batería para los usuarios con el mismo rendimiento. Una vez que tengamos algunos sistemas para probar la duración de la batería, y el requisito del Proyecto Athena de más de 16 horas llegue al frente, creo que veremos los mejores ejemplos de Ice Lake brillar.

Fuente: Anandtech


1 comentario

Maikel · 3 agosto, 2019 a las 2:47 pm

en resumen, en lo visto por por ahora, solo laptops ultraportatiles y compactos, de +3 a +4% en CPU por encima de la arquitectura actual. +90% en el GPU integrado, aqui esta la ganancia, estimo que casi se han equiparado a los graficos integrados de AMD en laptops, algo asi al Vega 8, pero luego esta el Vega 11. en los graficos integrados ha sido donde Intel siempre ha ido detras de AMD.

AMD en CPUs y APUs para laptops tiene un retraso con respecto a lo que tiene para escritorio, y asi y todo esta bastante bueno

esta arquitectura de GPU con modificaciones y escalada debe o puede ser la que venga en las GPUs que planea sacar Intel el proximo año

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *