Análisis de Intel Lakefield: todo lo que debe saber sobre la primera CPU híbrida x86

Durante los últimos dieciocho meses, Intel ha presentado su nuevo diseño de procesador ‘Lakefield’ en torno a la prensa y al público como un modelo de innovación de nuevos procesadores. En el interior, Intel combina uno de sus núcleos rápidos de alto rendimiento con cuatro de sus núcleos de bajo consumo de energía, y utiliza tecnología novedosa para construir el procesador en el menor espacio posible. El nuevo diseño de Lakefield es una señal de que Intel está buscando nuevos paradigmas de procesadores, como procesadores híbridos con diferentes tipos de núcleos, pero también diferentes tecnologías de apilamiento y empaque para ayudar a impulsar la próxima ola de computación. Con este artículo, le diremos todo lo que necesita saber sobre Lakefield.

Parte Smartphone, Parte PC

Al diseñar un procesador, hay más de mil opciones de diseño para hacer. El procesador se puede construir para abordar todo, o puede apuntar a un nicho. Para la informática de alto rendimiento, puede ser necesario un diseño de alta potencia y alto rendimiento en el que la refrigeración no sea una consideración: compárelo con un procesador destinado a un dispositivo portátil, y debe ser eficiente en términos de energía y ofrecer una vida útil considerable de la batería para un tamaño de batería fijo También está el costo de diseñar el producto, cuánto invertir en investigación y desarrollo, cuántas unidades se espera que vendan y, por lo tanto, cuántas se deben producir y de qué tamaño debe ser el producto. Cuál es el rango de precios del mercado objetivo puede ser un factor importante, incluso antes de poner la pluma en el papel.


El nuevo Samsung Galaxy Book S

Es por eso que tenemos grandes procesadores multinúcleo con mucha aceleración de cómputo en servidores, potencia más moderada y conteos de núcleos en máquinas domésticas que se centran en el rendimiento de un solo núcleo y la experiencia del usuario, y por qué los procesadores de teléfonos inteligentes tienen que encajar físicamente en un diseño pequeño y ofrece una duración excepcional de la batería.

Los procesadores de computadoras portátiles siempre han encajado en el medio de los mercados de PC y teléfonos inteligentes. Los usuarios de computadoras portátiles, especialmente los profesionales y los jugadores, necesitan el alto rendimiento que puede proporcionar una plataforma de escritorio, pero los guerreros de la carretera necesitan algo que sea extremadamente eficiente en el consumo de energía, especialmente en inactivo, para proporcionar una vida útil de la batería durante todo el día como si estuvieran en buen estado. teléfono inteligente No solo esto, sino que cuanto más eficiente sea la energía y menor sea la huella del procesador y sus características, más delgada y liviana puede ser la computadora portátil, ofreciendo una experiencia de diseño de primera calidad.

Como resultado, hemos visto que el mercado de computadoras portátiles ultra premium converge desde dos direcciones.

Desde la parte superior, tenemos AMD e Intel, que utilizan sus diseños de procesador de computadora portátil en sobres de potencia cada vez más pequeños para ofrecer dispositivos delgados y livianos con un rendimiento excepcional y, sin embargo, conservar la eficiencia energética requerida para la duración de la batería. Para los diseños más premium, vemos más de 12-15 horas de duración de la batería de la computadora portátil, así como juegos muy capaces.

Desde abajo, tenemos Qualcomm, que desarrolla su línea de procesadores de teléfonos inteligentes de alto rendimiento en grandes envolventes de potencia, para ofrecer un rendimiento de clase de escritorio con conectividad de clase de teléfono inteligente y duración de la batería. Con los diseños que utilizan los procesadores de Qualcomm, un usuario puede esperar fácilmente más de 24 horas de duración de la batería, y con el uso regular de la oficina, solo cargue el sistema una vez cada dos días. Qualcomm todavía tiene una barrera adicional en software, hacia la cual está trabajando.

Ambas direcciones convergen en algo en el medio, algo que puede ofrecer un rendimiento de clase de escritorio, batería de 24 horas +, juegos capaces, pero también tiene una gama completa de soporte de software. En lugar de continuar tratando de llevar sus procesadores al nivel que requiere, Intel ha decidido cambiar su paradigma de procesador tradicional al revés y construir un procesador de clase de teléfono inteligente para este mercado, que coincida con Qualcomm en su enfoque de abajo hacia arriba mientras también busca nuevos técnicas de fabricación para hacerlo.

Este diseño de procesador se llama ‘Lakefield’.

Lakefield en Core y Atom

Durante las últimas dos décadas, Intel ha tenido dos tipos diferentes de diseño de CPU x86.

La gran CPU ‘Core’

Intel llama a su diseño x86 de alta potencia / alto rendimiento la familia ‘Core’. Esto puede hacer que sea muy confuso diferenciar entre el concepto general de un núcleo de procesador y un núcleo de procesador basado en ‘Core’.

A lo largo de los años, los núcleos de procesador basados ​​en Core se han diseñado para sobres de alimentación desde computadoras portátiles de baja potencia hasta los servidores más robustos. La línea Core de núcleos de procesador implementa una lógica más compleja para proporcionar una aceleración adicional, a expensas del tamaño físico y la potencia.

La pequeña CPU ‘Atom’

El segundo tipo de diseño x86 de Intel es su implementación más eficiente energéticamente, llamada ‘Atom’. Con los núcleos Atom, Intel simplifica el diseño con el fin de maximizar la eficiencia para una potencia determinada o un rendimiento determinado. Esto hace que el diseño sea más pequeño, más barato para el fabricante, pero tiene un rendimiento máximo más bajo que el diseño Core. Por lo general, vemos diseños de Atom en escenarios de energía restringida donde el rendimiento no es crítico, como IoT, o diseños de computadoras portátiles de bajo costo.

Donde Core se encuentra con Atom

Normalmente caracterizamos un diseño de núcleo de procesador en términos de esta potencia y rendimiento. Debido a la variación en el diseño, vemos dónde funcionan mejor algunos diseños, en varios puntos para una potencia determinada o para un rendimiento determinado. En el caso de la última generación de hardware Core y Atom de Intel, se ve más o menos así, si comparamos un hilo con un hilo:

De este gráfico, que mide el rendimiento en el eje inferior y la potencia en el eje lateral, hay un punto de cruce donde cada diseño tiene el mejor sentido. Cuando la demanda de rendimiento es inferior al 58%, el diseño Atom es el más eficiente energéticamente, pero superior al 58%, se prefiere un diseño Core.

CPU homogéneas (todas iguales) vs CPU heterogéneas (mezcla de diferentes)

Ahora en procesadores modernos, especialmente en computadoras portátiles, computadoras de escritorio y servidores, solo experimentamos un tipo de diseño central. Tenemos todo Core o Atom, y el rendimiento está diseñado para escalar dentro de esos diseños homogéneos. Se convierte en una curva simple de navegar, y cuando se requiere un rendimiento más paralelo, se activan más de esos tipos de núcleos para satisfacer las necesidades del usuario final. Este ha sido el caso de estos mercados durante los últimos 30-50 años.

El espacio de los teléfonos inteligentes, durante la última década, ha estado adoptando un enfoque diferente. Dentro del mundo de los teléfonos inteligentes, hay diseños principales listados como ‘grandes’ y diseños principales listados como ‘pequeños’, de la misma manera que Intel tiene diseños Core y Atom.

Estos procesadores de teléfonos inteligentes combinan números de núcleos grandes con números de núcleos pequeños, de modo que existe un beneficio intrínseco al ejecutar tareas en segundo plano en los núcleos pequeños, donde la eficiencia es importante, y elementos relacionados con la experiencia del usuario en los núcleos grandes, donde la latencia y el rendimiento son importante.

La complejidad de un diseño tan heterogéneo similar a un teléfono inteligente tiene muchas capas. Por defecto, la mayoría de los elementos comenzarán en los núcleos pequeños, y depende del procesador o del sistema operativo identificar cuándo se necesita el modo de mayor rendimiento durante un momento de experiencia del usuario. Esto puede ser difícil de identificar.

Luego también viene el asunto cuando una carga de trabajo tiene que moverse de un tipo de núcleo a otro, generalmente en respuesta a una solicitud de un nivel específico de rendimiento: si los núcleos están diseñados significativamente diferentes, entonces las demandas en la memoria pueden probablemente aumentar y depende del sistema operativo garantizar que todo funcione como debería. También hay un elemento adicional de seguridad, que es un tema más amplio fuera del alcance de este artículo.

En última instancia, la construcción de un diseño con núcleos grandes y pequeños se reduce mucho a lo que llamamos el planificador. Este es un programa dentro del sistema operativo que administra dónde se organizan diferentes procesos en segundo plano, eventos de experiencia del usuario o cosas como la edición de video y juegos. El mercado de teléfonos inteligentes ha estado trabajando en diferentes tipos de planificadores y optimizando los diseños, durante más de una década como se mencionó. Para la tierra de Intel y AMD, el impulso de los planificadores heterogéneos ha sido un proceso lento en comparación, y se convierte en un problema muy complejo: no hay necesidad de un planificador heterogéneo optimizado si nunca hay un procesador heterogéneo en el mercado.

Entonces, ¿por qué mencionar todo esto?

Lakefield es el primer procesador heterogéneo x86.

En su comercialización, Intel llama a esto una CPU ‘híbrida’, y comenzaremos a ver logotipos que lo identifiquen como tal. En el corazón de su diseño, Lakefield combina uno de los grandes diseños Core con un grupo de cuatro diseños Atom más pequeños, todos en una sola pieza de silicio. En la conversación normal del procesador x86, este es esencialmente un diseño ‘penta-core’, que comúnmente se denominará implementación 1 + 4 (para un núcleo grande y cuatro núcleos pequeños).

El objetivo de Intel con Lakefield es combinar los beneficios del núcleo Atom eficiente en energía con los mejores elementos de la experiencia del usuario proporcionados por el mayor núcleo de mayor rendimiento y mayor consumo de energía. Como resultado, se encuentra en el medio de los diseños homogéneos tradicionales de Intel que solo contienen un tipo de diseño x86: en algún lugar por encima del diseño ‘all Atom’ 0 + 4 y en algún lugar debajo del diseño ‘all Core’ 4 + 0 (en realidad , está más cerca de 0 + 4).

Según nuestras conversaciones con Intel, y las pequeñas demostraciones que hemos visto hasta ahora, la mejor manera de considerar el nuevo procesador Lakefield es considerarlo similar a uno de los procesadores Atom quad-core más antiguos, con los beneficios del rendimiento de un solo núcleo. de un gran núcleo. El grupo de cuatro CPU Atom más pequeñas se encargará de las solicitudes de rendimiento pesado y paralelo, ya que hay cuatro de ellas, mientras que el gran Core responderá cuando el usuario cargue una aplicación, toque la pantalla o recorra un navegador web.

Ahora, solo por alguna forma de aclaración, ya hemos tenido cierta experiencia con este tipo de diseños de CPU híbridos en sistemas operativos como Windows. Las computadoras portátiles Windows de Qualcomm en Snapdragon, como Lenovo Yoga, usan un diseño 4 + 4 con los chips de teléfonos inteligentes Snapdragon, y Qualcomm ha tenido que trabajar mucho con Microsoft para desarrollar un programador adecuado que pueda administrar las cargas de trabajo entre los diferentes diseños de CPU.

La principal diferencia con respecto a lo que ha hecho Qualcomm y lo que Intel está haciendo con Lakefield está en el soporte de software: los procesadores Qualcomm ejecutan instrucciones ‘Arm’, mientras que los procesadores Intel ejecutan instrucciones ‘x86’. La mayoría del software de Windows está diseñado para instrucciones x86, lo que ha limitado la efectividad de Qualcomm para penetrar en el mercado tradicional de computadoras portátiles. El diseño de Qualcomm realmente permite la ‘traducción x86’, sin embargo, su alcance es limitado y hay una penalización de rendimiento, pero es un trabajo en progreso. El punto es que, si bien no hemos tenido un programador de CPU híbrido para Windows en un sistema x86 anteriormente, Microsoft ha trabajado mucho hasta la fecha mientras trabajamos con Qualcomm.

Visualizando diseños heterogéneos de CPU

Estos son algunos ejemplos de procesadores móviles, de Intel y Qualcomm, con los núcleos en verde. A la izquierda está el propio procesador Ice Lake de Intel, con cuatro núcleos grandes. En el medio está el Lakefield de Intel, que tiene dos chips de silicio apilados, pero es el superior que tiene un núcleo grande y cuatro pequeños. A la derecha está el Snapdragon 8cx de Qualcomm, actualmente utilizado en Windows en dispositivos Snapdragon, que usa cuatro núcleos de rendimiento y cuatro núcleos de eficiencia, pero también integra un módem de teléfono inteligente a bordo.

En este artículo, en las siguientes páginas, veremos en detalle el nuevo procesador Lakefield de Intel, cubriendo el nuevo diseño de múltiples núcleos, discutiendo los chiplets y la nueva tecnología de unión de chip a chip de Intel llamada Foveros, las implicaciones de tal diseño en el tamaño de la computadora portátil (además de mirar las computadoras portátiles de Lakefield que se publican públicamente en el mercado), inyecciones, supuestos números de rendimiento, innovaciones térmicas y el futuro de Lakefield. Los datos para este artículo provienen de nuestra investigación, así como de entrevistas con el personal técnico de Intel y las propias presentaciones de Intel sobre Lakefield en eventos como HotChips , Architecture Day , CES , IEDM e ISSCC . Parte de la información se disecciona con aportes útiles deDavid Schor de Wikichip . También cubrimos algunas de las innovaciones de Intel con el alcance de otras compañías de semiconductores, algunas de las cuales pueden ser competidores.

Una CPU apilada: Foveros de Intel

Los diseños anteriores de Intel, AMD y Qualcomm son lo que llamamos diseños monolíticos: todo en el procesador ocurre en una sola pieza de silicio físico. Cuando todo está en una sola pieza de silicio, hace que la gestión de datos dentro del procesador sea mucho más fácil y simple, hace que el diseño del procesador sea mucho más simple, y la fabricación y el ensamblaje pueden simplificarse cuando solo se trata de un elemento físico para el procesador.

Sin embargo, ha habido movimientos en la industria para desviarse de estos diseños monolíticos únicos, ya que los beneficios de probar algo diferente están comenzando a ofrecer puntos beneficiosos de diferenciación dentro de una cartera de productos. Puede llevar a optimizaciones en diferentes partes del procesador, puede ser ventajoso por razones de costo y también puede expandir los productos de silicio más allá de los límites de fabricación tradicionales.

Monolítico vs Chiplets

Es posible que sepa que los procesadores de escritorio AMD recientes se basan en un diseño de ‘chiplet’. Aquí es donde se conectan múltiples piezas de silicio a través de cables en la PCB verde para crear un solo ‘procesador’. Al usar chiplets separados, cada chiplet individual puede enfocarse en una sola tarea (y fabricarse de la manera más eficiente para esa tarea) o puede ser uno de una unidad repetida diseñada para escalar el rendimiento del cómputo.

Por ejemplo, un núcleo de procesador que contiene circuitos lógicos puede tener como objetivo el rendimiento y, por lo tanto, puede requerir un diseño optimizado de velocidad. Esto tiene diferentes requisitos de fabricación en comparación con algo como un controlador USB, que está construido con una serie de especificaciones según el estándar USB.

Bajo un régimen monolítico tradicional, la pieza única de silicio utilizará un proceso de fabricación singular que debe ser capaz de satisfacer ambas situaciones, tanto la lógica central del procesador como el controlador USB. Al tener diferentes partes del diseño general separadas en diferentes piezas de silicio, cada una optimizada para el mejor escenario de fabricación. Esto solo funciona mientras funcione la conectividad entre los chips, y potencialmente permite una mejor combinación de rendimiento donde lo necesita, y una mejor eficiencia (o costo más barato) donde también lo necesita.

Por supuesto, hay compensaciones: se requiere conectividad adicional, y cada chiplet debe poder conectarse a otros chiplets; el área de diseño físico total de los chiplets combinados es a menudo mayor de lo que ofrecería una sola pieza de silicio debido a estas adiciones de conectividad, y podría ser costoso ensamblar dependiendo de cuántas partes estén involucradas (y si esas partes se fabrican en diferentes ubicaciones). En última instancia, si algunos chiplets se encuentran en un proceso de fabricación costoso y otros se encuentran en un proceso de fabricación más barato, entonces obtenemos los beneficios del proceso costoso (potencia, rendimiento) sin tener que gastar el dinero para construir todo en ese proceso, ahorrando en general dinero.

Otro beneficio que puede aportar un proceso de chiplet es el tamaño total de silicio del producto. Los diseños estándar de silicio monolítico, debido a las tecnologías de proceso de fabricación que utilizamos hoy en día, tienen un límite superior de cuán grande puede ser una sola pieza de silicio. Al implementar los chiplets, de repente ese límite superior no es una gran preocupación a menos que cada chiplet alcance ese límite; el uso de múltiples chiplets puede proporcionar un área de silicio total mayor que el diseño de un solo chip monolítico. Un ejemplo de esto son las CPU Rome de AMD, que suman un área de más de 1000 milímetros cuadrados, mientras que el chip de silicio monolítico más grande es la GPU A100 de NVIDIA, con 826 milímetros cuadrados.


La GPU A100 de NVIDIA, con un gran chip monolítico y seis chips de memoria de alto ancho de banda.

Ya en el mercado: Chiplets AMD

Para poner esto en el contexto de un diseño moderno, los procesadores Ryzen de AMD usan uno o más ‘chiplets de cómputo’ combinados con un solo chiplet ‘periférico’ (a menudo llamado chip IO). Los chiplets de computación están construidos en el nodo de fabricación de alto rendimiento de 7 nm de TSMC que extrae el máximo rendimiento y potencia del diseño. El chiplet ‘periférico’, que no está tan enfocado en el rendimiento máximo sino que está más ajustado a estándares como SATA, PCIe y USB, se puede construir en un nodo de fabricación donde la eficiencia es más importante, y también el costo puede ser menor, como GlobalFoundries ‘ nodo de fabricación más barato de 14 nm. En conjunto, estos chiplets forman un producto singular.

AMD tuvo que superar muchos obstáculos para llegar aquí, como desarrollar un estándar de conectividad de chip a chip (conocido como Infinity Fabric), administrar la potencia de la conectividad, pero también la fabricación física, como garantizar que todos los chiplets individuales coincidan la misma altura para que el disipador de calor y el enfriador que va encima sean efectivos.

Según la compañía, uno de los beneficios de AMD en esta ruta es que les permite escalar las partes de su diseño que son más fáciles de escalar para el rendimiento (los núcleos de cómputo) y también administrar dónde piensan el futuro del cómputo va. El otro gran beneficio es que el tamaño de matriz total de una de las CPU de servidor de AMD es mayor que lo que se puede fabricar en una sola pieza de silicio.

Este tipo de enfoque basado en chiplet también hace que las personas crean que AMD podría cambiar un chiplet basado en cómputo por un chiplet basado en gráficos, o un chiplet centrado en AI, y por lo tanto, AMD podría ofrecer en el futuro diferentes variantes de sus productos dependiendo de los requisitos del cliente para diferentes cargas de trabajo que pueda tener la organización.

Llegando al mercado: Intel Chiplets

Para Lakefield, Intel también sigue la ruta del chiplet. Pero en lugar de colocar los chiplets físicamente uno al lado del otro como AMD, los chiplets se apilan uno encima del otro. Esto crea un paquete de procesador físicamente más pequeño en las dimensiones xy, que es un componente crítico para portátiles y diseños móviles de factor de forma pequeño al que Lakefield apunta.

Este diseño apilado reemplaza la compensación del espacio físico por uno de enfriamiento. Al colocar dos bits de silicio de alta potencia uno encima del otro, la gestión de las térmicas se convierte en un problema. No obstante, el plano de planta físicamente más pequeño (junto con un diseño enfocado para incrustar más control en el procesador) en las direcciones xy ayuda a construir sistemas más delgados y livianos.

Para los dos chiplets apilados en el medio, el chiplet superior está construido en el nodo de fabricación de alto rendimiento de 10 nm + de Intel y contiene la configuración de núcleo de cómputo 1 + 4, así como los gráficos y el controlador de memoria. El chiplet inferior contiene los componentes ‘periféricos’ que no están tan relacionados con el rendimiento, como el controlador de seguridad, los puertos USB y los carriles PCIe. Esto se basa en el nodo de fabricación más barato de Intel de 22 nm.

Debido a que este chiplet está en la parte inferior y tiene conexiones para que pase la energía, Intel técnicamente llama al chiplet inferior un “intercalador activo”. Un intercalador es un término comúnmente utilizado cuando los chiplets se conectan a través de una pieza base de silicio, en lugar de a través de un PCB de paquete verde, porque permite que la comunicación entre los chiplets sea más rápida y eficiente, pero es una implementación más costosa.

Lo que lo convierte en un intercalador activo, en lugar de los intercaladores pasivos que hemos visto en algunas GPU en los últimos años, es que contiene lógica funcional, como los puertos USB, la seguridad, las funciones del conjunto de chips y otros. Los intercaladores pasivos son solo conexiones de conexión, aprovechando una señalización más rápida. Los intercaladores activos incluyen lógica funcional y tienen un consumo de energía asociado que va junto con eso.

La razón por la que menciono esto es porque hay un debate sobre si un intercalador activo es un verdadero apilamiento 3D como se interpreta tradicionalmente, o más parecido al apilamiento 2.5D, que es lo que comúnmente llamamos un intercalador pasivo. Para aquellos usuarios que leen más sobre Lakefield más allá de AnandTech, es probable que vean ambos usados.

Apilarse: DRAM y NAND vs Lakefield

El uso del apilamiento no es necesariamente nuevo en el mundo de los semiconductores. Tanto la memoria de acceso aleatorio de la computadora, como DRAM, como los componentes de almacenamiento, como NAND Flash, han implementado la tecnología de múltiples capas durante muchos años. Lo que hace que estos elementos sean diferentes es la forma en que se apilan, además del poder de los componentes involucrados.

Las dos formas principales de apilar silicio juntas son a través de una simple unión de cables, donde las capas no están conectadas directamente, o a través de vías de silicio (TSV), que son similares a las pilas que atraviesan las capas.

Esta es una imagen de la técnica de unión de cables NAND de Samsung, donde varias capas tienen conexiones separadas a una matriz base. No existe una conexión directa entre capas que no sea el acto de unirse físicamente.

Este es el apilamiento ‘Through Silicon Via’ (TSV), por el cual cada capa tiene un canal vertical que se conecta al chip por encima y por debajo. Permite la conexión directa a través de la pila para un acceso rápido, lo cual es útil cuando NAND tiene 64 o más capas. Puede ser bastante difícil de hacer también, pero los fabricantes de NAND son expertos en esta metodología.

Sin embargo, DRAM y NAND Flash no son los elementos de alta potencia de una computadora. Incluso las configuraciones de memoria más densas parecen contribuir con un solo dígito de milivatios de potencia por capa cuando están en uso. Aplicar estas técnicas a los chips de computadora de alta potencia es un poco más complejo.

Apilando con Lakefield

Lo que Intel está haciendo con Lakefield, con su apilamiento, es reunir múltiples capas de cómputo de alto rendimiento en un solo producto. Además, si bien la mayoría de las implementaciones de DRAM y NAND Flash apilan el silicio uno encima del otro, y luego usan una conexión de cable externa o TSV, para proporcionar conectividad: para Lakefield de Intel, la conectividad pasa por el silicio, como con un intercalador tradicional (como se mencionó anteriormente) ), y utiliza un enlace de chip a chip para proporcionar las comunicaciones.

Intel llama a su tecnología de apilamiento ‘Foveros’. Utiliza un diseño novedoso de conectividad de chip a chip

En la parte inferior se encuentra el material de embalaje base que conecta todas las señales que salen al sistema (alimentación, USB, pantalla). Además de esto, se encuentra el chip periférico de silicio base, el intercalador activo, que contiene elementos como el control USB, el control de almacenamiento, la seguridad y demás.

Entre el chip periférico de silicio base y el chip de cómputo lógico superior hay un método para conectar los dos, en este caso tenemos un conjunto de bolas de soldadura con un paso de 50 micras. Esta es esencialmente una técnica de ‘bolas sobre bolas’, pero con dos chips de silicio de diferentes técnicas de fabricación de nodos de proceso.

Estas conexiones vendrán en tres sabores: estructural, datos y potencia. La creación de estos baches y garantizar que entreguen lo que se pretende es un problema difícil: los problemas eléctricos, como la capacitancia y los problemas informáticos, como el mantenimiento de una frecuencia de reloj, deben gestionarse, junto con el logro de objetivos en el ancho de banda de la velocidad de datos y la potencia .

Aquí está la diapositiva de introducción principal que Intel presentó en la conferencia ISSCC con respecto a la interfaz de chip a chip . Desafortunadamente, esta era la calidad de las imágenes tal como se presentaron (las relaciones de aspecto ilegibles también son nativas de la presentación).

Como se mencionó, mantener la coherencia del reloj a velocidad y baja potencia es una preocupación, y esto es lo que hizo Intel, con cada conexión operando a 500 mega transferencias por segundo. El punto clave en esta diapositiva es la potencia: 0.2 picojulios de energía consumida por bit transferido. Si extrapolamos esto a un ancho de banda de memoria de 34 GBps (ancho de banda de memoria máximo de Lakefield), esto equivale a 54 milwatts de potencia para la transferencia de datos.

0.2 pJ / bit es uno de los beneficios de mantener la transmisión de los datos ‘dentro’ del silicio, pero moviéndose entre las dos capas. Este es un orden de magnitud mejor que los números citados por AMD para sus procesadores de servidor EPYC de primera generación, que utilizaron enlaces de transferencia de datos dentro del paquete de CPU: AMD citó la transferencia de 2 pJ / bit en comparación.

Aquí hay una diapositiva de los Hot Chips 2018 de Intel sobre nuevas transferencias de datos y sugerencias de conectividad. A la izquierda está la transferencia de energía ‘a bordo’ a través de una PCB, que funciona a 20 pJ / bit. En el medio está la transferencia de datos en el paquete, similar a lo que hizo AMD con los números de EPYC de primera generación, alrededor de 1-5 pJ / bit (depende de la técnica), y luego obtenemos un movimiento de datos en silicio, que es más 0.1 pJ / bit. La interconexión de chip a chip de Intel es muy parecida a esta última.

Lakefield: chip superior a chip inferior

En la parte superior está el chip de cómputo, que presenta los núcleos de cómputo, los gráficos y los motores de visualización para los monitores.

Puede ser más fácil imaginarlo como la imagen de arriba. Todo el diseño se ajusta a dimensiones físicas de 12 mm por 12 mm, o 0,47 pulgadas por 0,47 pulgadas, lo que significa que los chips de silicio internos son en realidad más pequeños que esto. Intel ha publicado anteriormente que la base de silicio de interposición periférica es de 92 mm 2 , y la matriz de cálculo superior es de 82 mm 2 .

Chip de cómputo

Donde ocurre la mayor parte de la magia es en el chip de cómputo superior. Esta es la pieza de silicio construida en el nodo de proceso más avanzado de 10 nm de Intel y contiene el núcleo grande, los núcleos pequeños, los gráficos, los motores de visualización, la unidad de procesamiento de imágenes y toda la conectividad punto a punto. La mejor imagen de este chip se ve así:

El gran bloque de la izquierda son los gráficos Gen 11, y es aproximadamente el 37% del chip de cómputo superior. Esta es la misma configuración de núcleo de gráficos que la que hemos visto en las CPU móviles Ice Lake de Intel, que también se basa en el mismo proceso 10+.

En la parte superior está el núcleo de Sunny Cove, también presente en Ice Lake. Intel ha declarado que ha eliminado físicamente la parte AVX-512 del silicio, sin embargo, todavía podemos verlo en la inyección. Esto a pesar del hecho de que no se puede usar en este diseño debido a una de las principales limitaciones de una CPU híbrida. Lo cubriremos más en un tema posterior.

En la parte inferior, en el medio, se encuentran los cuatro núcleos Tremont Atom, que están preparados para realizar la mayor parte del trabajo pesado (que no es sensible a la latencia) en este procesador. Vale la pena señalar los tamaños relativos del núcleo único Sunny Cove en comparación con los cuatro núcleos Tremont Atom, por lo que parece que podríamos colocar alrededor de tres núcleos Tremont del mismo tamaño que un Sunny Cove.

En este chip de cómputo superior, el contenido completo es el siguiente:

• 1 x núcleo Sunny Cove, con 512 caché KiB L2
• 4 x núcleos Tremont Atom, con una combinación de 1536 KiB de caché L2 entre ellos
• 4 MB de caché de último nivel
• La uncore y el anillo se interconectan
• 64 UE de gráficos Gen11
• Motores de pantalla Gen11, 2 x DP 1.4, 2x DPHY 1.2,
• Gen11 Media Core, compatible con 4K60 / 8K30
• Unidad de procesamiento de imagen de Intel (IPU) v5.5, hasta 6x cámaras de 16MP
• JTAG, depuración, SVID, unidad P, etc.
• Controlador de memoria LPDDR4X-4267

En comparación con el silicio móvil Ice Lake, que mide 122.52 mm 2 , este chip de cómputo superior se da oficialmente como 82.x mm 2 . Vale la pena señalar que el chip de Ice Lake también contiene lo que Lakefield tiene en el chip base. Se ha citado que este chip superior tiene 4.05 mil millones de transistores y 13 capas de metal. Para aquellos que juegan un juego de densidad de transistores en casa, este chip superior promedia 49.4 millones de transistores por milímetro cuadrado .

Chip Base / Chip Interposer

El chip de interposición base es, por el contrario, mucho más simple. Se basa en el proceso 22FFL de Intel, que a pesar del nombre es en realidad una versión optimizada del proceso de 14nm de Intel con algunas reglas relajadas para permitir el desarrollo de E / S ultraeficiente. El beneficio de que 22FFL sea una variante ‘relajada’ del propio proceso de 14nm de Intel también significa que es más simple de hacer y realmente chip en comparación con el diseño 10+ de la matriz de cómputo. Intel podría fabricar estas piezas de silicio 22FFL todo el año y no sudar. La única parte compleja viene en la conectividad de chip a chip.

Los pequeños puntos blancos en el diagrama están destinados a ser las posiciones de los parches de unión de chip a chip . Intel ha citado que este chip de silicio base tiene 10 capas de metal y mide 92.x mm 2 por solo 0.65 mil millones de transistores. Una vez más, para aquellos que juegan en casa, esto equivale a una densidad promedio de 7.07 millones de transistores por milímetro cuadrado .

En este chip inferior, junto con toda la gestión de las interconexiones de chip a chip , obtenemos la siguiente conectividad que se basa en estándares:

• Códec de audio
• USB 2.0, USB 3.2 Gen x
• UFS 3.x
• PCIe Gen 3.0
• Sensor Hub para soporte siempre activo
• I3C, SDIO, CSE, SPI / I2C

Una clave del elemento para el intercalador base y el silicio IO es que también tiene que llevar energía al chip de cómputo. Con el chip de cómputo en la parte superior para ayudar en la configuración de enfriamiento, todavía tiene que obtener energía de algún lado. Debido a que el chip de cómputo es la parte del diseño que necesita más energía, necesita conectividad de energía dedicada a través del paquete. Mientras que todas las señales de datos pueden moverse del chip de cómputo al chip periférico, la potencia debe pasar directamente. Como resultado, hay una serie de potencias orientadas ‘a través de vías de silicio’ (TSV) que deben integrarse en el diseño de la parte periférica del procesador.

Potencia y alta velocidad IO

Aquí hay una imagen más compleja de una presentación a principios de este año. Muestra que Intel está utilizando dos tipos de conexión desde la matriz inferior a la matriz superior: conexiones de señal (datos) y conexiones de alimentación. Intel no nos dijo exactamente cuántas conexiones se hacen entre los dos chips, afirmando que era información patentada, pero estoy seguro de que descubriremos a su debido tiempo cuando alguien decida poner el chip en un poco de ácido y averiguarlo correctamente.

Sin embargo, algunas matemáticas de servilletas muestran 28 puntos de TSV de potencia, que podrían estar en cualquiera de las configuraciones a la derecha: esas combinaciones tienen una media geométrica de 3.24 almohadillas por punto en la lista, por lo que con 28 puntos en el diagrama, estamos viendo ~ 90 TSV de potencia para transportar la potencia a través del paquete.

Normalmente, el paso de energía a través de un plano horizontal o vertical tiene el potencial de causar perturbaciones a cualquier señalización cercana: Intel mencionó que sus implementaciones de energía TSV son realmente muy indulgentes en este caso, y los ingenieros “ fácilmente ” construyeron suficiente espacio para cada TSV utilizado. El proceso 22FLL ayudó con esto, pero también la muy baja densidad del proceso necesario dio mucho espacio.

A partir de esta diapositiva podemos ver que las simulaciones en TSV en la matriz base requieren que se intercalen diferentes tipos de TSV para minimizar los diferentes efectos eléctricos. Los TSV de alta corriente tienen muy claramente el puesto más amplio en el diseño.

Cuando se trata del IO de la matriz inferior, los usuarios pueden ver que la designación PCIe 3.0 y el baulk: esta sería una excelente oportunidad para que Intel anuncie un producto PCIe 4.0, especialmente con un diseño de chiplet de silicio IO enfocado por separado. Sin embargo, Lakefield no es un procesador que vaya a combinarse con una GPU discreta, y estos carriles PCIe están destinados a periféricos adicionales, como un módem de teléfono inteligente.

Para no desanimarse, Intel ha presentado que ha investigado las E / S de alta velocidad a través de su interconexión de chip a chip

En este caso, Intel lucha contra la capacitancia como los requisitos de mayor frecuencia de las nuevas especificaciones PCIe. En este caso, la diferencia de pérdida de inserción de señal entre PCIe 4.0 y PCIe 5.0 es bastante baja y está dentro de una variación de 0.5 dB. Esto significa que este tipo de conectividad podría llegar a productos futuros.

Memoria

También se incluye en el paquete la memoria interna, en este caso es DRAM, no ninguna forma de caché adicional. La memoria PoP en la parte superior (PoP significa Paquete en paquete) proviene de un tercero, e Intel ensambla esto en la fabricación antes de que el producto se venda a sus socios. Intel ofrecerá Lakefield con variantes de 8 GB y 4 GB, ambas construidas en una memoria LPDDR4X-4266 rápida.

En nuestras conversaciones con Intel, la compañía se niega firmemente a revelar quién está produciendo la memoria, y solo confirmará que no es Intel. Parece que la memoria para Lakefield es probablemente una parte personalizada específicamente para Intel. Tendremos que esperar hasta que algunos de nuestros pares lleven los ácidos fuertes a una CPU de Lakefield para averiguar exactamente quién está trabajando con Intel (o Intel podría decirnos).

La altura total, incluida la DRAM, debe ser de 1 mm.

Como se mencionó anteriormente en el artículo, Intel se mueve a los chiplets uno encima del otro intercambiando el tamaño del paquete por uno de enfriamiento, especialmente cuando se unen dos partes de silicio computacionalmente activas y luego un gran trozo de DRAM en la parte superior. A continuación, consideraremos algunos de los aspectos térmicos de Lakefield.

Gestión térmica en silicio apilado

Con un diseño de procesador estándar, hay una sola pieza de silicio que hace todo el trabajo y genera el calor: se adhiere al paquete (que no hace ningún trabajo) y luego, según la implementación, hay un poco de adhesivo para un enfriador o un difusor de cabeza y luego un refrigerador. Al pasar a un diseño de chiplet apilado, se vuelve un poco más complicado.

Tener dos bits de silicio que “funcionan”, incluso si uno es el chip de cómputo pesado y el otro es un intercalador activo que se encarga del USB, el audio y otras cosas, significa que hay un gradiente térmico entre el silicio, y dependiendo de unión, potencial para puntos calientes térmicos y acumulación. Lakefield lo hace aún más complejo, al tener un paquete DRAM adicional colocado en la parte superior pero no unido directamente.

Podemos tomar cada uno de estos problemas de forma independiente. Para el caso de la interacción de chip , hay mucha investigación en esta área. Las discusiones y el desarrollo sobre los canales fluídicos entre dos chips de silicio calientes han estado ocurriendo durante una década o más en la academia, e Intel lo ha mencionado varias veces , especialmente cuando se relaciona con una posible solución de su nueva tecnología de apilamiento de chip a chip . .

La clave aquí es chips calientes, con puntos calientes térmicos. Al igual que con un diseño de silicio estándar, lo ideal es mantener dos áreas de alta potencia separadas, ya que brinda una serie de beneficios con la entrega de energía, el enfriamiento y la integridad de la señal. Con un chip apilado, es mejor no tener puntos de acceso directamente uno encima del otro, por razones similares. A pesar de que Intel usa su nodo de proceso 10+ de vanguardia para el chip de cómputo, el chip base está usando 22FFL, que es la implementación de bajo consumo de Intel de su proceso de 14 nm. No solo eso, sino que la matriz base solo se ocupa de IO, como USB y PCIe 3.0, que es esencialmente un ancho de banda fijo y costos de energía. Lo que tenemos aquí es un chip de alta potencia encima de un chip de baja potencia, y como tal, los problemas térmicos entre los dos chips de silicio, especialmente en un dispositivo de bajo TDP como Lakefield (7W TDP), no son un problema.

Lo que es un problema es cómo el chip de cálculo elimina el calor. En la parte inferior puede hacer convección al unirse a más silicio, pero la parte superior está bloqueada en última instancia por esa matriz DRAM. Como puede ver en la imagen de arriba, hay un gran espacio de aire entre los dos.

Como parte del diseño de Lakefield, Intel tuvo que agregar una serie de cambios de diseño para que las térmicas funcionen. Se puede hacer mucho trabajo con el diseño de silicio en sí mismo, como hacer coincidir los puntos calientes en el área correcta, usar el grosor adecuado de metales en varias capas y reorganizar el plano del piso para reducir la densidad de potencia localizada. En última instancia, tanto el aumento de la masa térmica como la disipación potencial se convierten en altas prioridades.

Las CPU de Lakefield tienen un límite de potencia sostenido de 7 vatios; esto se define en las especificaciones. Intel también tiene otro límite, conocido como límite de potencia turbo. En el Día de la Arquitectura de Intel, la compañía declaró que el límite de potencia del turbo era de 27 vatios, sin embargo, en la reciente sesión informativa sobre el producto, nos dijeron que está establecido en 9.5 W. Históricamente, Intel permitirá que sus socios OEM (Samsung, Lenovo, Microsoft) elijan el suyo. valores para estos basados ​​en qué tan bien el diseño implementa su enfriamiento: masa pasiva vs activa y disipador de calor y cosas así. Intel también tiene otro factor de tiempo de turbo, esencialmente una medida de cuánto tiempo se puede mantener la potencia del turbo.

Cuando inicialmente le preguntamos a Intel por este valor, se negaron a decirnos, afirmando que es información patentada. Después de preguntar nuevamente después de una llamada grupal sobre el producto, obtuve la misma respuesta, a pesar de que informé al equipo de Lakefield que Intel históricamente ha chip esta información. Más tarde, descubrí a través de mis colegas europeos que en una sesión informativa por separado, dieron el valor de 28 segundos, a lo que Intel me envió un correo electrónico varias horas después. Los OEM también pueden establecer este valor.

Luego encontré una de las diapositivas ISSCC de Intel.

Esta diapositiva muestra que una implementación básica solo permitiría una potencia sostenida durante 2.5 segundos. Agregar un adhesivo entre el chip superior y la DRAM se mueve hasta 12.4 segundos, y luego mejorar la refrigeración del sistema es de hasta 20 segundos. El resto de las mejoras funcionan por debajo del chip de cómputo: una mejora considerable proviene de aumentar la densidad del metal de chip a chip , y luego un plan de piso de energía optimizado que en total brinda soporte de energía sostenido durante más de 150 segundos.

CPU híbridas: Sunny Cove y Tremont

Ahora que hemos repasado el concepto del diseño de núcleo heterogéneo, es hora de profundizar en cada uno de los núcleos por separado y algunas de las compensaciones que Intel ha tenido que hacer para que esto funcione.

Big Sunny Cove

Como se mencionó anteriormente, el gran núcleo de Lakefield se conoce como Sunny Cove, y se mantiene como el mismo núcleo que vemos actualmente en los procesadores móviles Ice Lake de Intel en la actualidad. Es oficialmente el segundo núcleo de clase 10nm de Intel (el primero es el DOA Cannon Lake / Palm Cove), pero el primero en producción en masa.

El resumen rápido es el siguiente.

Muy similar a un diseño de Skylake, excepto que:

• Mejores prefetchers y predictores de rama
• + 50% de caché de datos L1
• + 100% de ancho de banda de la tienda L1
• + Caché 100% L2 con TLB L2 mejorado
• + 50% de caché micro-op
• + 25% uops / ciclo en el búfer de reordenamiento
• + 57% reordenar el tamaño del búfer
• + 25% de puertos de ejecución
• AVX-512 con VNNI

El efecto secundario de aumentar el tamaño de la caché de datos L1 fue una disminución de la latencia, con el L1-D moviéndose a un ciclo de 5 en lugar de un ciclo de 4. Normalmente eso sonaría como una caída de velocidad automática del 25%, sin embargo, el aumento del tamaño L1, el ancho de banda L1 y la caché L2 ayudan a una mejora general.

Intel afirmó que Sunny Cove debería funcionar ~ 18% mejor reloj por reloj en comparación con un diseño central de Skylake. En nuestra revisión inicial de Ice Lake, comparamos el procesador i7-1065G7 (Ice Lake) con el procesador Core i9-9900K (Coffee Lake, un derivado de Skylake), y vimos un aumento del 19% en el rendimiento por reloj, esencialmente coincidiendo con lo anunciado por Intel. números.

(Sin embargo, debe tenerse en cuenta que, en general, no vimos una gran mejora en el nivel general de chip y producto, porque Ice Lake corrió a una frecuencia más baja, lo que eliminó cualquier ganancia de velocidad de reloj).

Pequeño Atom Tremont

Podría decirse que el núcleo de Tremont es el más interesante de los dos en el diseño de Lakefield. Lakefield será el primer producto de consumo construido con un núcleo Tremont en su interior, y como resultado aún no hemos tenido la oportunidad de probarlo. Pero hemos repasado ampliamente la microarquitectura en un artículo anterior.

La razón por la cual Tremont es más emocionante es porque las actualizaciones de la línea de núcleos de procesador Atom de Intel ocurren a un ritmo mucho más lento. Tradicionalmente, Atom ha sido un núcleo que se enfoca en la parte de bajo costo del mercado, por lo que no hay tanta necesidad de llegar a la vanguardia, ya que impone márgenes más bajos para la empresa. Todavía juega un papel vital, pero para el contexto, este es el año en que hemos visto nuevos diseños de Atom en el mercado:

• 2008: Bonnell
• 2011: Saltwell
• 2013: Silvermont
• 2015: Airmont
• 2016: Goldmont
• 2017: Goldmont Plus
• 2020: Tremont

Tremont es el primer nuevo diseño de microarquitectura Atom en tres años, y técnicamente solo el tercer diseño de Atom en estar fuera de servicio. Sin embargo, Tremont es un gran salto en muchos cambios bajo el capó en comparación con Goldmont Plus.

• Puede estar en un clúster de 1 núcleo, 2 núcleos o 4 núcleos
• + 33% de caché de datos L1 sobre Goldmont +, sin penalización de rendimiento
• Caché L2 configurable por clúster, de 1.5 MB a 4.5 MB
• + 50% L2 TLB (1024-entrada, desde 512)
• Nuevo decodificador de 2×3 de ancho, en lugar de un solo decodificador de 3 de ancho
• + 119% de búfer de reordenamiento (208, en lugar de 92)
• 8 puertos de ejecución, 7 estaciones de reserva
• 3 ALU, 2 AGU
• Unidades AES duales de 128 bits
• Nuevas instrucciones *

Lo que hizo más ruido es el nuevo decodificador dual de 3 anchos. En la línea principal de Intel, no hemos visto muchos cambios en el decodificador en las últimas generaciones: todavía utiliza un decodificador de 5 anchos, dividido entre 1 decodificador complejo y 4 decodificadores simples, respaldados con un caché micro-op. El nuevo decodificador dual de 3 anchos de Tremont puede administrar flujos de datos duales para mantener los buffers más abajo en el núcleo. Intel declaró que para los objetivos de diseño de Tremont, esto era más eficiente en términos de área y energía que un decodificador de 6 anchos, o que tenía una gran memoria caché micro-op en el diseño del procesador (los núcleos Atom no tienen cachés micro-op hasta la fecha). Intel afirma que el diseño del decodificador ayuda a configurar el back-end del núcleo y el equilibrio de recursos.

También es digno de mención en Tremont el caché L1-Data. Intel pasó de un diseño de 24 KiB a un diseño de 32 KiB, un aumento del 33%. Esto se debe principalmente al uso del último nodo de fabricación. Sin embargo, un aumento en el tamaño de la memoria caché suele ir acompañado de un aumento en la latencia; como vimos en Sunny Cove, pasamos de 4 ciclos a 5 ciclos. Sin embargo, en el caso de Tremont, el caché L1-Data permanece en 3 ciclos para un diseño de 32 KiB de 8 vías. Incluso el caché L1-D de Skylake, con un diseño de 32 KiB de 8 vías, es de 4 ciclos, lo que significa que el L1-D de Tremont está sintonizado para superar incluso a Skylake aquí.

El último punto, las nuevas instrucciones de Tremont, requiere una sección por sí solo, específicamente porque ninguna de las nuevas instrucciones son compatibles con Lakefield.

Lo que falta en Lakefield

Uno de los mayores problemas con un diseño de procesador heterogéneo es el software. Incluso si vamos más allá de los problemas que vienen con la programación de una carga de trabajo en dicho dispositivo, el problema es que la mayoría de los programas están diseñados para funcionar en cualquier microarquitectura para la que fueron escritos. Los programas genéricos están diseñados para funcionar en todas partes, mientras que los grandes editores escribirán código personalizado para optimizaciones específicas, como si se detecta AVX-512, escribirá AVX-512.

El momento decisivo ocurre cuando un procesador tiene dos tipos diferentes de núcleos de CPU involucrados, y existe la posibilidad de que cada uno de ellos admita diferentes instrucciones o comandos. Por lo general, el programador no garantiza que el software se ejecutará en un núcleo determinado, por lo que, por ejemplo, si tuviera algún código escrito para AVX-512, se ejecutaría felizmente en un núcleo habilitado para AVX-512, pero causaría una falla crítica en un núcleo que no tiene AVX-512. El núcleo ni siquiera sabrá que es una instrucción AVX-512 hasta que llegue el momento de decodificarlo, y simplemente arroje un error cuando eso suceda. No solo esto, sino que el planificador tiene el derecho de mover un hilo cuando sea necesario; si mueve un hilo en medio de una secuencia de instrucciones, eso también puede causar errores. El procesador también podría mover un hilo para evitar que se produzcan puntos calientes térmicos, lo que provocará una falla.

Podría haber una situación en la que el programador pueda indicar que su código tiene instrucciones específicas. En un programa con instrucciones únicas, a menudo hay una comprobación que intenta detectar el soporte, para decirse algo como “¡AVX512 funcionará aquí!”. Sin embargo, todo el software moderno supone un procesador homogéneo: todos los núcleos admitirán las mismas instrucciones.

Se convierte en un problema de la gallina y el huevo, hasta cierto punto.

La única forma de salir de esto es que ambos procesadores en una CPU híbrida deben admitir las mismas instrucciones por completo. Esto significa que terminamos con lo peor de ambos mundos: solo se pueden habilitar las instrucciones compatibles con ambos. Este es el mínimo común denominador de los dos, y significa que en Lakefield perdemos soporte para AVX-512 en Sunny Cove, pero también cosas como GFNI, ENCLV y CLDEMOTE en Tremont (Tremont es bastante progresivo en su soporte de instrucción).

Sabiendo que Lakefield iba a tener que tomar el mínimo común denominador de los dos diseños principales, Intel probablemente debería retirar físicamente la unidad muy voluminosa AVX-512 del núcleo Sunny Cove. Mirando el tiro de la matriz, todavía está allí: hubo algunas dudas en las revelaciones recientes sobre si aún estaría allí, pero Intel ha declarado en el registro repetidamente que lo eliminaron. La inyección del silicio computacional muestra que ese no es el caso.

Para los programadores x86 que realizan detección de instrucciones por nombre de código o familia principal, esto podría tener que cambiar. En el mundo de los teléfonos inteligentes, donde los diseños de procesadores 4 + 4 son algo normal, este problema de mínimo común denominador se ha adoptado universalmente. Hubo un pequeño problema con un procesador Samsung que tenía una configuración de caché no unificada, que terminó siendo rectificada en el firmware. Pero ambos conjuntos de CPU tuvieron que depender de las instrucciones de mínimo común denominador.

Cómo tratar una CPU híbrida 1 + 4

Al principio del artículo, expliqué que la razón para usar dos tipos diferentes de núcleos de procesador, uno grande en rendimiento y otro grande en eficiencia, era que los usuarios podían obtener lo mejor de ambos mundos dependiendo de si se podía ejecutar una carga de trabajo eficientemente en segundo plano, o necesitaba el alto rendimiento para una interacción de experiencia de usuario. Es posible que haya captado el hecho de que también dije que debido a que Intel está usando un diseño 1 + 4, en realidad tiene más sentido que las cargas de trabajo de subprocesos múltiples se ejecuten en los cuatro núcleos Atom.

Usando gráficos de potencia / rendimiento similares, el efecto de tener un diseño 1 + 4 es bastante sustancial. A la izquierda están los gráficos de potencia / rendimiento de un solo núcleo, pero a la derecha es cuando comparamos 1 Sunny Cove con los 4 núcleos de Tremont trabajando juntos.

Donde el gráfico anterior consideraba un diseño 1 + 1, que es más relevante en los escenarios de experiencia del usuario enumerados anteriormente, a la derecha está el diseño 1 + 4 para cuando el usuario exige una carga de trabajo más pesada que podría no ser crítica para la latencia. Debido a que hay cuatro núcleos Atom, la línea azul se multiplica por cuatro en ambas direcciones.

Ahora, obviamente, el escenario del mundo real está en algún lugar entre los dos, ya que es posible usar solo uno, dos o tres de los núcleos más pequeños en un momento dado. Se espera que la CPU y el sistema operativo sepan esto, por lo que puede gobernar cuándo las cargas de trabajo que se pueden dividir en múltiples núcleos terminan en el núcleo grande o en el núcleo pequeño.

En este gráfico de Intel, tenemos tres modos distintos en los que pueden funcionar los subprocesos.

• ‘Sunny Cove / SNC’ es para hilos de respuesta y experiencia de usuario,
• ‘Tremont / TNT Foreground’, para tareas relacionadas con el usuario que requieren múltiples subprocesos que el usuario está esperando.
• ‘Tremont / TNT Background’, para tareas no relacionadas con el usuario ejecutadas en modo eficiente

Aunque el ejemplo aquí es la navegación web, sería mejor considerar algo un poco más robusto, como la codificación de video.

Si ejecutamos la codificación de video, debido a que es una tarea relacionada con el usuario que requiere múltiples subprocesos, se ejecutará en los cuatro núcleos de Tremont (TNT FG). Todo lo que Windows quiera hacer junto con eso se programa como TNT BG. Si luego abrimos el menú de inicio, porque esa es una tarea de respuesta, se programa en el núcleo de SNC.

¿Es 1 + 4 la configuración correcta?

Intel ha implementado un diseño de núcleo 1 + 4, sin embargo, en el espacio de los teléfonos inteligentes, las cosas se ven de manera un poco diferente. La configuración más popular, con mucho, es un diseño 4 + 4, simplemente porque se escribe una gran cantidad de código de teléfono inteligente para aprovechar múltiples hilos en primer plano o múltiples en segundo plano. Hay una serie de diseños de bajo costo que reducen el área de chips y la potencia al optar por una implementación 2 + 4. Todos parecen convencidos de que 4 es un buen número para los núcleos más pequeños, en parte porque son pequeños y baratos de agregar, pero porque la implementación de cuatro núcleos de Arm es una unidad base para su IP.

El espacio de los teléfonos inteligentes en los últimos trimestres también ha evolucionado a partir de un sistema de núcleos de dos niveles. En algunos de los diseños más avanzados, ahora tenemos tres tipos de núcleo: uno grande, uno medio y uno pequeño. Debido a la tendencia a quedarse con ocho diseños principales, ahora obtenemos diseños 1 + 3 + 4 o 2 + 2 + 4, impulsados ​​por programadores complejos que gestionan dónde colocar los hilos para la mejor experiencia de usuario, la mejor duración de la batería, o en algún lugar en el medio. Mediatek ha sido famoso incursionando en 10 diseños centrales, con un enfoque 2 + 4 + 4.

Una cosa que falta en todas estas implementaciones es un SoC con un núcleo grande y cuatro núcleos pequeños. Los vendedores de teléfonos inteligentes no parecen estar interesados ​​en el silicio 1 + 4 y, sin embargo, Intel lo ha decidido para Lakefield. Esto se debe a las decisiones tomadas en ambos lados.

Desde la perspectiva del teléfono inteligente, cuando surgieron los diseños híbridos, los núcleos grandes simplemente no eran lo suficientemente potentes por sí solos. Para ofrecer algo más que simplemente básico, se necesitaban al menos dos núcleos, pero debido a la forma en que Arm diseñó los diseños grandes y pequeños, casi se convirtió en estándar buscar implementaciones 4 + 4 de núcleos grandes y pequeños. Fue solo hasta que esta configuración se popularizó durante un par de años, y los grandes núcleos de Arm se volvieron más potentes, que los diseños de chips comenzaron a buscar diseños 2 + 4 o 1 + 3 + 4.

En el lado de Intel de la cerca, el mayor problema que tiene es el tamaño del núcleo de Sunny Cove. En comparación, es muy, muy grande. Debido a que el núcleo de gráficos es el mismo que Ice Lake y reutiliza su diseño, simplemente no hay suficiente espacio dentro del chip de cómputo de 82 mm2 para agregar otro núcleo. No solo eso, sino que hay una cuestión de poder. Sunny Cove no fue construido para operación por debajo de 1W, incluso en el diseño de Tremont. Vemos una gran cantidad de silicio de teléfonos inteligentes que alcanza de 4 a 5 W cuando los ocho núcleos están activos; de acuerdo con nuestra comprensión de los diseños de Intel, no hay forma de que podamos ver cuatro (o incluso dos) núcleos Sunny Cove en el rendimiento óptimo por rango de vatios siendo tan bajo Los gráficos Lakefield de Intel, con 64 UE, se ejecutan a solo 500 MHz, mucho más bajos que los diseños de Ice Lake.Incluso si Intel lo movió a un diseño de 32 UE para hacer espacio para otro núcleo de Sunny Cove, creo que se comería el presupuesto de energía para el desayuno y algo más.

Intel ha hecho que el diseño 1 + 4 actúe como un diseño 0 + 4 que a veces tiene acceso a un modo de mayor rendimiento. Mientras que los chips para teléfonos inteligentes están diseñados para que los ocho núcleos se enciendan durante períodos prolongados, Lakefield está diseñado solo para 0 + 4 cargas de trabajo sostenidas. Y eso podría ser en última instancia su caída. Esto lleva a una discusión profunda sobre el desempeño de Lakefield y lo que debemos esperar de él.

Lakefield en términos de tamaño de computadora portátil

En un procesador AMD o Intel tradicional diseñado para computadoras portátiles, experimentamos de dos a ocho núcleos de procesamiento, junto con algunos rendimientos gráficos, y corresponde a la compañía construir el chip con el objetivo de alcanzar el punto de eficiencia correcto (15 W, o 35/45 W) para permitir el mejor rendimiento para una ventana de energía determinada. Estos procesadores también contienen una gran cantidad de conectividad y funcionalidad adicionales, como un controlador de memoria de doble canal, carriles PCIe adicionales para admitir gráficos externos, compatibilidad con conectividad de puerto USB o un centro de conectividad externo, o en el caso de los últimos diseños de Intel, compatibilidad con Thunderbolt integrado en el silicio sin la necesidad de un controlador externo. Estos procesadores suelen tener dimensiones físicas de 150 milímetros cuadrados o más, y en una computadora portátil,cuando se combina con la entrega de energía adicional y los controladores necesarios, como Wi-Fi y módems, pueden tender hacia la placa dentro del sistema (la placa base) con un total de 15 pulgadas cuadradas en total.


Uno de los ejemplos de Qualcomm de 2018

Para un procesador Qualcomm diseñado para computadoras portátiles, el silicio se combina con los elementos esenciales comúnmente asociados con un teléfono inteligente. Esto significa que la conectividad del módem está integrada en el procesador, y el hardware asociado con la entrega de energía y el USB están en la escala de un teléfono inteligente. Esto significa que una placa base diseñada alrededor de un procesador Qualcomm tendrá aproximadamente la mitad del tamaño, permitiendo diferentes factores de forma o más capacidad de batería en el mismo tamaño de chasis de la computadora portátil.

Con el nuevo diseño del procesador Lakefield de Intel, el chip es mucho más pequeño que las implementaciones anteriores de Intel. La compañía diseñó el procesador desde cero, con tanto contenido en la CPU como para no necesitar chips adicionales en la placa base, y para adaptarse a las dimensiones similares a uno de los procesadores de Qualcomm. Arriba hay una diapositiva que muestra cómo Intel cree que con un módem LTE incluido, una placa base Lakefield puede moverse hasta 7.7 pulgadas cuadradas, similar a un diseño de Qualcomm. Esto deja más espacio para la batería dentro de un dispositivo.

Cuando Intel lo compara con sus propias implementaciones de CPU de baja potencia anteriores, la compañía cita una disminución del 60% en el área general de la placa en comparación con sus procesadores de 4,5 W de primera generación.

Vale la pena señalar que para la entrega de energía, Intel colocó los MIMCAP dentro del silicio de Lakefield, al igual que un procesador de teléfono inteligente, y como resultado puede funcionar con la implementación de entrega de energía con un par de PMIC (IC de administración de energía). La razón por la que hay dos se debe a los dos chips de silicio en su interior: se controlan de manera diferente por el poder por una serie de razones técnicas. Si cada capa dentro de una implementación apilada activa requiere su propio PMIC, eso presumiblemente pondría un límite superior en futuros diseños apilados: espero que Intel esté trabajando en algún tipo de solución para que esto no sea un problema, sin embargo, eso no fue implementado a tiempo para Lakefield.

Para aquellos que estén interesados, los PMIC de Lakefield están bajo los nombres en clave de Warren Cove y Castro Cover, y se desarrollaron en 2017-2018.

Las CPU y dispositivos de Lakefield llegan al mercado

Con Intel burlándose de Lakefield a fines de 2018 y declarando la disponibilidad de 2020, naturalmente habíamos esperado un anuncio en algún momento este año, y a principios de junio la compañía anunció oficialmente los dos procesadores que vendrían a la familia Lakefield. Técnicamente se trata de cuatro SKU, a los que me referiré.

Ambas partes cuentan con la marca ‘Core i5 / i3’, sin embargo, no entrarán en un nombre tradicional de generación Core. Entonces, ¿dónde estaba Skylake 6 ª Gen Core, el cometa lago fue de 10 º Gen Core, estos son sólo ‘Intel Core procesadores Intel con tecnología Hybrid’. Se quita la lengua, ¿no?

Ambas CPU son el mismo silicio debajo, solo con diferentes frecuencias de núcleo y configuraciones de GPU con el Core i3 que lo tiene parcialmente desactivado.

Intel confirmó que la frecuencia base y los valores turbo de todos los núcleos son frecuencias unificadas en todos los núcleos, mientras que el turbo de un solo núcleo se aplica al núcleo Sunny Cove. El soporte para LPDDR4X-4267 se proporciona para ambos procesadores, y es una muesca de frecuencia superior al soporte encontrado en Ice Lake. Los gráficos son amplios y lentos, se ejecutan a solo 500 MHz, y ambas CPU tienen un TDP de 7W. La cantidad de memoria PoP no afecta el TDP.

Sin embargo, es la memoria PoP la que proporcionará a cada uno de estos procesadores dos variantes. La memoria para Lakefield está siendo proporcionada por un tercero (Intel no dirá quién, así que supongo que lo sabremos cuando coloquemos la CPU en ácido), y el montaje lo realiza Intel. Intel ofrecerá ambos procesadores en configuraciones de 4 GB y 8 GB, con un ancho de banda de memoria máximo de 34 GB / s, indicativo de controladores de memoria duales de 16 bits. Entonces, a pesar de que la frecuencia de la memoria es mayor que Ice Lake, Ice Lake puede abordar controladores de memoria de 4×16 bits, lo que brinda un ancho de banda de memoria general más alto.

Intel estrenará estos dos SKU en su primera generación de Lakefield. Incluso esas CPU son una configuración 1 + 4, que operan principalmente en un 0 + 4 como se menciona en las páginas anteriores, Intel las está colocando en los espacios de mercado premium debido a la mayor complejidad de la construcción, pero también en base a la baja inactividad poder. Intel reclama una potencia inactiva de 2-3 mW (inicialmente dijo 2 mW, luego dijo 3 mW, luego se estableció en 2.6 mW, dependiendo de a quién le pregunte) mientras está en modo de espera conectado. Esto ayudará a cualquier sistema que los use a lograr largos períodos de modos de suspensión sin tener que preocuparse por el drenaje casual.

Como resultado, estas CPU encontrarán hogares en computadoras portátiles premium siempre conectadas, como el Samsung Galaxy Book S que se espera en los mercados este mes, el Lenovo ThinkPad X1 Fold , que llegará más adelante este año, y en el Microsoft Surface Book Neo .

Samsung Galaxy Book S

Presentado por primera vez por Samsung a fines del año pasado , la versión de la computadora portátil basada en Lakefield se unirá a su modelo actual basado en Qualcomm 8cx, cambiando el Arm SoC por x86, proporcionando un punto de competencia muy interesante si podemos comparar los dos en el mismo chasis. El Intel Galaxy Book S será el primer dispositivo que se enviará con Lakefield, poniendo a prueba el nuevo procesador para ver si Intel puede igualar el tipo de batería de todo el día por el que el Galaxy Book S existente es conocido.

Echando un vistazo a las especificaciones, la versión basada en Intel del Galaxy Book S es una imagen viva de la versión Qualcomm. Samsung parece estar usando el mismo chasis aquí, por lo que la computadora portátil de 13.3 pulgadas conserva las mismas dimensiones que el modelo actual, así como los mismos dos puertos USB-C. Las capacidades de la batería también son idénticas a 42 Wh, y espero que el modelo Intel también esté usando la misma pantalla LCD de 1080p. Sin embargo, curiosamente, el modelo Intel termina siendo mucho más liviano que el modelo Qualcomm: Samsung pone el primero en 950 g, 10 g más liviano que el modelo Qualcomm 960 g.

En cuanto a la memoria y el almacenamiento, debido a que la memoria es parte del paquete Lakefield, Samsung solo ofrece una configuración de 8GB aquí. Desafortunadamente, la hoja de especificaciones de Samsung no enumera las frecuencias de memoria, por lo que tendremos que esperar y ver a qué velocidad de memoria de Lakefield se encuentra Intel. Mientras tanto, Samsung proporciona el almacenamiento, utilizando 256 GB o 512 GB de su memoria flash eUFS. Que yo sepa, esta es la primera computadora portátil x86 que se envía con eUFS, lo que refleja las raíces móviles de los dispositivos que Intel está apuntando con Lakefield. Más expansión de almacenamiento está disponible a través de una ranura para tarjeta microSD.

Una especificación que falta notablemente en el anuncio de Samsung es la duración esperada de la batería del modelo basado en Intel, y este quizás sea el aspecto más interesante de Lakefield. Intel ha trabajado muy duro para reducir su consumo de energía inactiva para poder igualar lo que Qualcomm ha logrado con el 8cx, y la compañía afirma que Lakefield consume solo ~ 2-3mW en inactivo. Al mismo tiempo, sin embargo, Lakefield carece de un módem integrado y, como resultado, Samsung confía en un módem externo Intel Cat 16 aquí. Entonces, en la batalla de Galaxy Books, Qualcomm tendrá la ventaja de requerir menos chips.

En cuanto a otra conectividad inalámbrica, el nuevo modelo Intel se enviará con una radio Wi-Fi 6 2×2, lo que le da una ventaja sobre el modelo Qualcomm con Wi-Fi 5. Y ambos modelos se envían con soporte Bluetooth 5.0.

Para completar el paquete, el Galaxy Book S basado en Intel tiene una cámara web de 720p, un micrófono incorporado y altavoces estéreo con la insignia Dolby Atmos codiseñados con AKG. La computadora portátil también tiene un lector de huellas digitales compatible con Windows Hello. El precio es actualmente desconocido.

Lenovo ThinkPad X1 Fold

El nuevo Fold es un verdadero Thinkpad de alta gama, con una pantalla OLED flexible de 13.3 pulgadas dividida en las dos mitades del diseño, convirtiéndose esencialmente en el tamaño de un bloc de notas cuando está plegado. Esto significa que cuando se despliega, ofrece 2 veces más espacio en pantalla que un teléfono inteligente plegable de Samsung. La construcción de la pantalla plegable incluye marcos de metal y soportes combinados con placas de fibra de carbono. El mecanismo de bisagra pretende proporcionar un plegado sin fricción, pero también permite un soporte rígido en una variedad de ángulos cuando se despliega como una cubierta estándar.

Cuando está plegado, el dispositivo tiene un grosor de poco más de una pulgada (27.8 mm) en su punto más ancho, pero cuando está desplegado tiene solo 7.8 mm de grosor, o 11.5 mm con la cubierta incluida. La razón por la que la dimensión plegada es más de 2 veces la desplegada es porque habrá una ligera cresta en la bisagra donde está el pliegue, por lo que la pantalla no está plegada con precisión.

Dentro de la unidad late el corazón de una computadora portátil correctamente construida. Tenemos una de las primeras salidas nuevas para el procesador Lakefield de Intel, con 1 núcleo grande Sunny Cove y 4 núcleos Tremont Atom más pequeños, combinados con los gráficos HD Gen11 de Intel (los que vienen con Ice Lake, aunque no menciona las frecuencias o UE). La memoria es un total de 8 GB de LPDDR4X-2133 con almacenamiento proporcionado por un disco NVMe M.2 2242 estándar, aunque Lenovo ofrecerá variantes de hasta 1 TB. Hay una cámara incorporada de 5 MP, y la batería es de 50 Wh, buena para más de 11 horas según Lenovo.

Las especificaciones exactas en la pantalla son un OLED flexible de 13.3 pulgadas con una resolución de 2048×1536, con brillo de hasta 300 nits y una gama de colores que admiten hasta el 95% de DCI-P3. El tacto también está implementado.

Para IO, el dispositivo tiene dos puertos USB tipo C (uno USB 3.1, un USB 3.2) y un puerto Displayport sobre puerto tipo C para pantallas externas. También hay una ranura SIM para usar el módem integrado. Lenovo enumera el módem como 4G / 5G, aunque no indica qué módem es este, es probable que sea el X55 de Qualcomm en este momento. El dispositivo también es compatible con 802.11ax y BT5.0.

El precio según Lenovo es de $ 2499 para el modelo de 1 TB. Todas las unidades vendrán con un lápiz activo y un teclado externo en la caja, y en conjunto la unidad pesa 999 g / 2.2 lbs (cubierta incluida). El teclado puede estar fuera del portátil o colocado en la mitad de la pantalla:

El Lenovo ThinkPad X1 Fold parece un dispositivo loco que me encantaría probar. Lenovo tiene una fecha tentativa de ‘mediados de 2020’ para el producto, que probablemente dependerá de la disponibilidad de la pantalla, así como de la producción de procesadores Lakefield de Intel.

Microsoft Surface Book Neo

Se sabe menos sobre Surface Book Neo. Fue presentado por Microsoft en un evento en octubre de 2019, con pantallas duales de 9 pulgadas y una bisagra totalmente giratoria, y según el sitio web de Microsoft debería estar disponible al final de la temporada de vacaciones 2020.

El Neo es un verdadero dispositivo de doble pantalla, en lugar de algo plegable, pero seguirá utilizando el teclado externo. Esperamos algún tipo de soporte de lápiz, y debería estar ejecutando Windows 10X, una compilación especial de Windows creada para dispositivos de pantallas múltiples como esta. Sin embargo, se ha informado que Windows 10X se ha retrasado hasta el próximo año debido a las complejidades adicionales de trabajar desde casa durante la pandemia, así como a un enfoque más en los dispositivos de pantalla única.

Números de rendimiento: cómo interpretarlos

En la página anterior, cubrimos los tres diseños iniciales de Lakefield. Los tres son productos muy premium, ya sea que ofrecen una cubierta súper ligera y delgada con Samsung, una pantalla plegable con Lenovo o pantallas duales de 9 pulgadas en el caso del dispositivo Microsoft. Por lo general, vemos este tipo de dispositivos emparejados con el mejor hardware de rendimiento de su clase, que puede costar mucho dependiendo de dónde provenga. Agregue el costo del material del dispositivo, y podemos ir fácilmente al norte de $ 999, $ 1499 o incluso más cuando se combina con mucho almacenamiento o elementos como pantallas de actualización variable. No se equivoque, Lakefield terminará en productos premium de alto costo.

Esto significa que habrá una cierta expectativa de rendimiento. Los usuarios no estarán satisfechos si obtienen un producto costoso con un rendimiento de rango medio; si han pagado el mejor precio, quieren que supere en todas las áreas. El rendimiento, la duración de la batería y la estética son importantes para el usuario final cuando nos ocupamos de cosas como pantallas flexibles o factores de forma nuevos y emocionantes además de todo lo demás.

Ahora no nos malinterpreten aquí, Lakefield ciertamente cumple con muchos de los criterios de un producto premium. Fue diseñado específicamente para adaptarse a una pequeña huella mediante el uso de tecnología novedosa y compleja. Mediante el uso de las técnicas de unión de chip a chip y la memoria PoP, Intel ha puesto 174 mm 2de silicio en dimensiones de 12 mm x 12 mm a solo 1 mm de altura z. Aprovecha tanto el nodo de fabricación de vanguardia 10+ de Intel como el nodo de fabricación de alta eficiencia 22FFL de Intel, y luego optimiza el diseño y la fabricación para garantizar que tenga las características térmicas más apropiadas para el diseño. También está la potencia inactiva ultra baja, que supuestamente mide 2-3 mW, que ha sido una característica importante en las computadoras portátiles que han estado utilizando procesadores de teléfonos inteligentes. Ofrecer una vida útil considerable de la batería inactiva es clave para comercializar este tipo de producto.

Sin embargo, esta página trata sobre el rendimiento. En última instancia, Lakefield se puede comparar con una serie de productos en el mercado. Los números entre paréntesis indican núcleos grandes y núcleos pequeños:

• Intel 7 W Lakefield (1 + 4) vs Qualcomm Snapdragon 7c (0 + 8)
• Intel 7 W Lakefield (1 + 4) vs Intel 6 W Goldmont + Atom (0 + 4) N5030
• Intel 7 W Lakefield (1 + 4) frente a Intel 5 W Amber Lake-Y (2 + 0) m3-8100Y
• Intel 7 W Lakefield (1 + 4) vs Intel 9 W Ice Lake-Y (2 + 0) 1005G1

Un procesador que me perdí aquí es el Qualcomm Snapdragon 8cx, que es una configuración 4 + 4 que Qualcomm ha creado específicamente para este tipo de dispositivos móviles. La configuración 4 + 4, en papel, puede parecer injusta para el 1 + 4 de Lakefield, mientras que la configuración 0 + 8 del Snapdragon 7c está más en línea con lo que podríamos esperar. Sin embargo, el Snapdragon 7c no está realmente dentro de ningún dispositivo minorista en este momento, ya que solo se exhibió en el propio evento de Qualcomm en diciembre.

La cuestión es que el Snapdragon 7c está configurado para estar en dispositivos que compiten en el nivel de $ 500 contra los dispositivos Intel Celeron de nivel de entrada. El 8cx es el chip premium, que termina en los dispositivos premium. Aquí es donde Intel tendrá dificultades.

En las diapositivas de Intel, la compañía realiza dos comparaciones principales.

• Puntos de referencia contra Amber Lake-Y, el i7-8500Y en modo 5W
• Los puntos de referencia donde el i5-L16G7 se ejecuta en los modos 1 + 4 y 0 + 4

Benchmarks versus Intel Amber Lake i7-8500Y

Para el primer punto, Intel promueve lo siguiente contra Amber Lake:

• + 12% de rendimiento de subproceso único, medido por SPEC2006 (3.0 GHz vs 4.2 GHz)
• + 70% de rendimiento gráfico, 3DMark11 comparando HD615 (24 EUs, Gen 9.5 a 1.05 GHz, 2×4 GB LPDDR3-1866) vs HD (64 EUs, Gen11 a 500 MHz, 2×4 GB LPDDR4X-4267)
• + 24% de eficiencia energética, puntaje por vatio en WebXPRT 3
• + 100% de cargas de trabajo AI en gráficos, ResNet50 lote 128 en OpenVINO, comparando

Para cada una de estas cargas de trabajo, hay algo muy obvio para elegir.

El primero es SPEC2006, no SPEC2017, y está comparando un núcleo de Amber Lake con un núcleo de Sunny Cove, que como discutimos debería tener + 18% de IPC. La diferencia de frecuencia (suponiendo que a ambos se les permitiera alcanzar el turbo máximo) es del 40% a favor de Amber Lake, sin embargo, Lakefield tiene una ventaja de 40% de TDP.

En cuanto al rendimiento gráfico, es un mashup sustancial: Gen 9 vs Gen 11, 24 EUs vs 64 EUs, 1.05 GHz vs 500 MHz, LPDDR3-1866 vs LPDDR4X-4267. Sabemos que Intel se está ampliando y ralentizando con Lakefield, y el hecho de que Lakefield tiene un 40% de TDP adicional para ayudar a los gráficos y los núcleos de la CPU, sospecho que cada chip estaba luchando para encontrar el equilibrio correcto de potencia para la CPU o la potencia a la GPU.

En la carga de trabajo de IA, este punto de referencia se ha seleccionado a mano. Intel ha realizado un Resnet-50 fuera de línea y ha ejecutado las CPU en lotes. Dado que la GPU es amplia y lenta, existe la pregunta de si la GPU sería competitiva en escenarios de tipo lote-1. Una vez más, también hay una diferencia de TDP aquí, así como una diferencia de memoria que explica el cambio de rendimiento en bruto.

Puntos de referencia contra Lakefield en modo 1 + 4 contra modo 0 + 4

Para el segundo conjunto de puntos de referencia, Intel promueve un rendimiento web + 33% más alto y un 17% mejor de eficiencia energética al agregar un núcleo grande a un cuarteto de núcleos pequeños, esencialmente comparando un Lakefield completo con un diseño Atom de cuatro núcleos.

Lo que esto significa es que Lakefield, en general, realizará lo mismo que un átomo de cuatro núcleos en casi todas las tareas, especialmente las tareas pesadas. Dado que no hemos tenido una nueva plataforma Atom desde 2017, y ha pasado incluso más tiempo desde que vimos los portátiles Atom a lo grande, puedo garantizar que muchos usuarios mirarán a Lakefield y lo compararán con diseños de gran núcleo. Intel también se ha tropezado con sus propios pies al no comparar el rendimiento con ninguno de los diseños de Qualcomm. El costo parecería cuadrar contra el Snapdragon 8cx, sin embargo, el diseño central sugiere que el 7c sería una pelea más justa. Poner la prueba de inteligencia artificial de Intel contra el hardware de Qualcomm también sería una comparación interesante.

Otra cosa a tener en cuenta, que Intel pasó por alto, por la que la mayoría de las personas estarán realmente preocupadas.

Para qué sirve realmente el Big Core

He mencionado varias veces en este artículo que el gran núcleo de Sunny Cove es más para las interacciones impulsadas por la latencia del usuario final, como tocar en la pantalla, escribir en el teclado. Cuando se trata de cargar una página web, esto difumina la línea entre la respuesta y la carga de trabajo, dependiendo del navegador y de cómo maneja los hilos.

Ahora, si tomamos una carga de trabajo tradicional de un solo subproceso de alta carga, como por ejemplo, renderizado. ¿En qué núcleo se ejecutará? Una gran cantidad de materiales de marketing de Intel, además de considerar el diseño del chip, puede hacer que un usuario final razonable espere que se ejecute en el núcleo único de alto rendimiento. Sin embargo, considere dos cosas: en primer lugar, renderizar un marco no es una interacción impulsada por la latencia. En segundo lugar, ¿cuántos procesos se ejecutan en segundo plano? Ambos elementos apuntarían al sistema operativo que empuja la carga de trabajo, a pesar de tener un solo subproceso, en los núcleos de Tremont Atom.

En el momento de escribir este artículo, Notebookcheck es el único medio para publicar datos de una mirada temprana en el Galaxy Book S. de Samsung. Si tomamos una sola carga de trabajo de renderizado, como Cinebench R15, Lakefield obtiene 88 puntos, mientras que el Lago Amber que Intel usó en sus diapositivas puntajes 129, un aumento de rendimiento de + 46% al antiguo sistema de Amber Lake. ¿Qué sucede? Está funcionando en los núcleos Atom.

Nuestra recomendación, para cualquiera que desee probar el rendimiento de ese núcleo único de Sunny Cove, es implementar una máscara de afinidad en el software que se utiliza. Si el software solo sabe que existe un núcleo, entonces solo puede ejecutarse en ese núcleo. Así es como sospechamos que Intel logró las ganancias de rendimiento de un solo núcleo en puntos de referencia como SPEC2006. Sin embargo, Intel tiene más herramientas a su disposición: existe la posibilidad de que el programador de estos sistemas ignore las máscaras de afinidad para mantener un equilibrio térmico en el diseño. Debemos esperar hasta obtener una muestra para nosotros mismos.

Hasta cierto punto, vemos esto en la prueba de múltiples subprocesos Cinebench R15. Con un procesador estándar de 5 hilos, si ejecuta una prueba nT estándar, esperamos que llene todos los núcleos para obtener el mejor rendimiento. En el artículo de Notebookcheck, podemos ver que el planificador ha desalojado la carga de trabajo del núcleo principal. Esto probablemente se deba a razones de energía / punto de acceso térmico.

En el administrador de tareas de la derecha, vemos que los primeros cuatro núcleos Atom se ejecutan al 100% durante la prueba de subprocesos múltiples, mientras que el núcleo grande Sunny Cove está relativamente inactivo. Tenga en cuenta que la CPU está funcionando a 1.9 GHz, y no los 2.8 GHz que Intel ha promovido es el turbo de núcleo completo para este producto.

Pero la conclusión es que, en la mayoría de los casos, se espera que Lakefield tenga un rendimiento similar a cuatro núcleos Atom, justo por encima de Goldmont Plus, y no como ninguno de los productos Skylake / Ice Lake Core y sus derivados.

El futuro de Lakefield

Lakefield como producto es un movimiento lateral para Intel. La compañía está tomando parte de su nueva y popular IP, y la está colocando en un factor de forma novedoso que ha requerido una gran cantidad de I + D desde una perspectiva de fabricación y construcción. El objetivo de Lakefield era cumplir con los requisitos particulares del cliente, que entendemos que se trata de la duración de la batería, el rendimiento y el soporte de pantallas múltiples, y de acuerdo con Intel, esos objetivos se han cumplido y producirán las generaciones futuras de productos Lakefield.

Esta diapositiva esencialmente establece que el producto de Lakefield en el cuadro amarillo tiene dos chips de silicio, uno optimizado para computar en el proceso P1274 de Intel (10+ nm) y la capa Foveros (la capa de interposición activa) en el proceso 22FFL de Intel.

El próximo producto con integración de fabricación heterogénea será el gran producto Xe-HPC de Intel, Ponte Vecchio, que utilizará el proceso P1276 de Intel (7 nm) como un chip de cómputo y el proceso P1274 (10+) de Intel como una capa de interposición básica.

Más allá de esto, Intel busca continuar con sus productos de varias capas al tener la capa de cómputo en el nodo de proceso más avanzado, con la capa de interposición una generación atrás, en una variante optimizada ‘Foveros’.

Entonces, la primera generación de Lakefield es esencialmente un producto que combina P1274 y 22FFL, y es probable que se construya un producto futuro en P1276 en la capa de cómputo y P1274 para la capa de interposición. Mantener este tipo de cadencia tiene mucho sentido. Sin embargo, Intel tendrá que aprender de Lakefield de varias maneras, especialmente a medida que analicemos las formas en que se puede expandir el concepto de capas heterogéneas. Lo he dividido en varias áreas que considero críticas para que los procesadores en capas realmente puedan hacer la diferencia.

Cultivar un chip apilado a un mayor TDP y recuento de núcleos

He combinado estos dos puntos porque esencialmente van juntos. La implementación de dos chips de silicio simples juntos en un producto de factor de forma pequeño, aunque es interesante en el lado de la potencia de la ecuación, no investiga la cuestión de ampliar el producto. Es bastante fácil escalar el producto agregando alguna forma de conectividad a la pila y luego conectándolos juntos (que es lo que está sucediendo en Ponte Vecchio), pero en algún momento la pila tiene que pasar a un mayor nivel de consumo de energía si quiere moverse hacia arriba en el poder.

Esto significa que las térmicas se convierten en un problema mayor si aún no lo fuera. Si tomamos el diseño actual de Lakefield, con un chip de cómputo sobre un intercalador activo, con la ruta correcta y luego moviéndonos a un plano de planta físicamente más grande y una potencia más alta no debería ser un gran problema, en todo caso, hacer que la base muera más grande debería ayudar a difundir mucho de ese IO, haciendo que el intercalador sea un intercalador funcionalmente menos activo. O Intel implementará la próxima generación de su tecnología de apilamiento de chip a chip , donde los chips superiores pueden ser más grandes que los chips base, de forma en voladizo.

El mayor acuerdo con las térmicas será en la parte superior, con la memoria PoP apilada. Entramos más en el aspecto de las comunicaciones de memoria en un momento, pero lo ideal es que la memoria deba estar al lado para que el chip de cómputo pueda tener acceso a un disipador de calor adecuado. La única razón por la que se apila en Lakefield es por las limitaciones de tamaño y por intentar poner todo en ese pequeño factor de forma. Para cualquier cosa más grande, debe haber un controlador de memoria que se vea fuera del chip, que es algo que esperamos de Ponte Vecchio con HBM. Un producto de escritorio probablemente estaría en el medio.

Hacer crecer un chip apilado a más pilas

El otro ángulo para un producto de silicio apilado es colocar más pilas en su lugar. Esto nuevamente provoca la pregunta sobre el enfriamiento entre las pilas, dependiendo de lo que hay realmente allí. Lakefield tiene solo dos pilas en este momento, con una pila de alta potencia y una pila de baja potencia. Intel tendría que demostrar que podía gestionar múltiples pilas de alta potencia para expandir el cómputo en la dimensión vertical, pero eso genera sus propios problemas.

Para comenzar, con Lakefield, la potencia principal para el chip de cómputo superior se proporciona con TSV que atraviesan la capa de interposición activa. Para cada chip de cómputo en una pila de múltiples chips, tendría que haber TSV para cada uno con el fin de proporcionar potencia individual. A menos que el intercalador activo también actúe como un PMIC, esto podría volverse difícil dependiendo de qué otros TSV o rutas de datos deben establecerse entre las capas.

Tenga en cuenta que cuando hablamos con Ramune Nagisetty de Intel en IEDM el año pasado, cuando se le preguntó si Intel alguna vez discutiría si un producto apilado usaría capas ‘falsas’ para ayudar en el enfriamiento, nos dijeron que esto probablemente no se mencionaría, centrándose solo en el capas que realmente hacen cualquier trabajo. Pero en última instancia, podría haber una causa para que las capas ficticias ayuden en el enfriamiento, de modo que puedan proporcionar masa y distancia entre los puntos calientes térmicos entre los chips de cómputo involucrados. Sin embargo, a medida que aumenta el número de capas, algo como Lakefield tendría que mover la memoria PoP de la parte superior, como ya se mencionó.

Comunicaciones de memoria

Un elemento del diseño de Lakefield que realmente no hemos cubierto aquí es cómo se comunica la memoria. En el diseño actual de Lakefield, los núcleos de cómputo y los controladores de memoria están ubicados en el chip de cómputo. Para que una parte de la memoria principal sea leída en la matriz de cómputo, la comunicación debe viajar a través del intercalador activo, ir al paquete y luego volver a la memoria apilada.

En el siguiente diagrama, a la izquierda, tenemos (1) yendo de Compute Die a DRAM, y (2) DRAM nuevamente al chip de cómputo.

Este camino es mucho más largo que simplemente pasar del chip de cómputo directamente a la memoria, lo que sería teórico en el lado derecho si los dos estuvieran unidos y tuvieran los caminos apropiados.

Si un futuro producto de Lakefield quiere continuar por la ruta de la memoria en la parte superior, una optimización podría ser unir esa matriz de memoria superior de manera similar a Foveros. Se podría argumentar que significa que Intel tendría que unir la memoria en la etapa de fabricación, pero esto ya sucede con la generación actual de diseños de Lakefield. El único inconveniente sería conseguir que las almohadillas de unión en la parte superior de la matriz de cómputo y la parte inferior de la matriz de memoria se alineen, y luego administrar las comunicaciones desde allí. El poder de la memoria también tendría que venir en TSV.

Pero si estamos uniendo la memoria a la pila, técnicamente podría ir en cualquier capa; probablemente haya beneficios al mantener los chips de cómputo en la parte superior. Esto podría conducir a múltiples capas de memoria según sea necesario.

Administración de energía

Con el diseño actual de Lakefield, tanto la matriz de cómputo como la matriz de interposición activa tienen su propio IC de administración de energía (PMIC) para ayudar a suministrar energía. Basado en los propios diagramas de Intel, estos diseños PMIC ocupan más espacio físico en la PCB que el propio Lakefield.

En algún nivel, Intel tendrá que decidir crear una solución PMIC unificada para cubrir cada capa del producto. Es probable que reduzca el espacio de la placa y simplifique las cosas, como lo hace con las computadoras portátiles que pueden administrar la energía a la CPU y la GPU en el mismo chip con un controlador de energía a bordo. Un PMIC que puede escalar con recuentos de capas obviamente será una ventaja.

Enfriamiento

A pesar de todo esto, como he mencionado varias veces, el enfriamiento será una gran preocupación. No hay una forma fácil de evitar la física de disipar 5-10 W en un espacio tan pequeño, o más de 100 W si el producto se convierte en algo en un factor de forma que tiene un atractivo más amplio. Anteriormente en el artículo, mencioné que habíamos discutido esto con Intel, y cómo áreas como los canales de microfluidos obviamente han tenido algo de investigación, pero nada hasta el punto de que pueda hacerse comercialmente y a escala. Es un paradigma que vale la pena resolver, porque los beneficios serían enormes.

Más allá de Windows y habilitando 5G

Una cosa a tener en cuenta es que Lakefield de Intel solo está planeado con soporte de Windows 10 en este momento. Linux actualmente no está en el plan para este producto, pero tendría que estarlo si Intel quiere una adopción más amplia de la tecnología.

No solo esto, sino que como la mayoría de las personas están comparando estos dispositivos con el hardware de Qualcomm, será necesario aplicar el soporte 5G adecuado: la generación actual de Lakefield no es parte de la colaboración de Intel y Mediatek en 5G, que solo se aplica a Tiger Lake y más allá. Los clientes de Lakefield tendrán que confiar en 4G como extra opcional, o 5G a través de un módem externo.

El futuro de Lakefield

Incluso si esta versión de primera generación de Lakefield se ve muy afectada en las evaluaciones comparativas centradas en el rendimiento por ser más lenta que un Whisky Lake de doble núcleo, Lakefield marca algunos pasos muy importantes para Intel. Los diseños híbridos de CPU y la conectividad apilada de chip a chip aparecerán en las futuras hojas de ruta de Intel, en qué puntos dependerá de cuánto Intel esté dispuesto a experimentar, pero también qué tan bien Intel puede ejecutar. Ha habido discusiones sobre Intel que quizás esté buscando un diseño de CPU híbrida 8 + 8 en el futuro, aunque no hay nada que podamos corroborar, pero sabemos que el Ponte Vecchio con matriz apilada llegará a fines de 2021.

Uno de los ingredientes clave de todo esto será en qué puntos la cartera de tecnología de Intel se cruzará con su cartera de productos. Es posible que algunas de estas tecnologías se adapten mejor a aspectos como las redes 5G o la automotriz, en lugar de algo que podamos consumir en el escritorio. En lo que respecta a Lakefield, esta primera generación será un gran desafío para Intel: están lanzando un producto de bajo rendimiento en un segmento de alto costo basado en tecnología (y en cierta medida, duración de la batería). El apilamiento de chip a chip será más fácil de hacer como rampas de escala, y es de esperar que las nuevas tecnologías de nodo de proceso impulsen la eficiencia energética de esos núcleos más grandes para permitir diseños 2 + 4 o más grandes cuando están en un factor de forma apilado.

Esperamos ansiosamente la oportunidad de probar la 1.a generación de Lakefield, pero también estamos atentos a lo que podría ser en la segunda y tercera generación.

Fuente: Anandtech

Una respuesta a «Análisis de Intel Lakefield: todo lo que debe saber sobre la primera CPU híbrida x86»

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *