La Red de Conocimientos Pedagógicos - Conocimientos históricos - La diferencia entre ejecución fuera de orden

La diferencia entre ejecución fuera de orden

Tecnología de ejecución fuera de orden y tecnología de ejecución secuencial

Lo que necesitará el futuro mercado informático convencional (computadoras de escritorio, servidores, portátiles) es una arquitectura multinúcleo limitada, que enfatice el rendimiento de un solo subproceso del núcleo. , mientras que muchas arquitecturas centrales (decenas de uno o incluso cientos de núcleos) se utilizarán en entornos informáticos especiales como la computación en flujo, HPC y SoC. Esto también será un punto de inflexión para los futuros procesadores Intel, por lo que existirán los llamados procesadores de "núcleo grande" y de "núcleo pequeño". El primero se basa en la arquitectura central actual y busca un mejor rendimiento de un solo subproceso. Este último se basa en el núcleo Atom y está diseñado para enfatizar un mayor paralelismo y un menor consumo de energía.

En términos de ejecución de instrucciones, el "núcleo grande" usa ejecución fuera de orden y el "núcleo pequeño" usa ejecución en orden. La ejecución fuera de orden, correspondiente a la ejecución secuencial, se refiere a una tecnología en la que la CPU permite que múltiples instrucciones se expandan fuera del orden especificado por el programa y se envíen a la unidad de circuito correspondiente para su procesamiento.

Comparación

En comparación con la tecnología de ejecución secuencial, la ejecución fuera de orden puede mejorar más eficazmente el IPC, es decir, aumentar la cantidad de instrucciones que se pueden ejecutar por frecuencia de reloj. En términos generales, en el mismo ciclo de reloj, el número de instrucciones ejecutadas por el núcleo fuera de orden es mayor que el número de instrucciones ejecutadas por el núcleo en orden, por lo que la potencia de cálculo de un solo núcleo de un procesador con una La arquitectura de ejecución desordenada es más sólida. El diseño del circuito de los procesadores en modo de ejecución desordenada es más complejo y el consumo de energía del núcleo es relativamente alto. Cuando los teléfonos móviles y algunas aplicaciones integradas requieren un consumo de energía absolutamente bajo, es difícil cumplir con los requisitos de diseño. Procesamiento atómico El procesador adopta naturalmente el modo de ejecución secuencial.

En el futuro, muchos procesadores centrales y procesadores multinúcleo limitados se desarrollarán en paralelo para satisfacer las necesidades de entornos informáticos cada vez más diferenciados y complejos. Los criterios para evaluar la calidad de un procesador serán más complejos y pueden no basarse en la frecuencia principal o incluso en el IPC, sino en las características de su aplicación.

Tecnología de ejecución fuera de orden y chip Loongson 2F

Aplicaciones de aplicaciones

Los procesadores Loongson se han utilizado ampliamente en control industrial, PC, portátiles, militares y otros campos. De hecho, en cierto sentido, los chips nacionales han entrado en el mercado principal. Según Wang Chengjiang, muchos gobiernos y ejércitos han estado utilizando la plataforma Loongson durante mucho tiempo.

Comparación

Sugon Gigabit Firewall utiliza el chip Loongson 2F, que es un procesador RISC de uso general de 64 bits fabricado mediante un proceso CMOS de 90 nm y totalmente compatible con el estándar MIPS 64. Loongson 2F es una versión mejorada del procesador Loongson 2E y se desarrolló con éxito en 2007. Loongson 2F integra el núcleo de CPU Loongson 2 de alto rendimiento, una estructura superescalar dinámica de cuatro temas, una canalización de 9 a 10 etapas y admite tecnologías de ejecución fuera de orden, como cambio de nombre de registros, programación dinámica y predicción de ramas. Loongson 2F mejora el rendimiento de E/S y el ancho de banda de acceso a la memoria sobre la base de Loongson 2E e integra un controlador de memoria para aumentar la velocidad de procesamiento de datos y proporcionar una mejor plataforma para productos de seguridad de red.

Tecnología de ejecución fuera de servicio y procesador Intel E8400

Introducción

El procesador Intel Core 2 Duo E8400 de 45 nm puede admitir aplicaciones integradas durante hasta 7 años . El procesador también es compatible con la tecnología Intel Trusted Execution para ayudar a los clientes a implementar soluciones integradas seguras.

Rendimiento multimedia mejorado

Este procesador de 45 nm presenta un motor de ejecución súper fuera de orden que mejora Intel Streaming SIMD Extensions (SSE) optimizado para gráficos y algoritmo de procesamiento multimedia. El motor de ejecución súper fuera de orden puede reducir la latencia, mejorar significativamente el rendimiento del último conjunto de instrucciones SSE4 y al mismo tiempo acelerar la ejecución de las instrucciones SSE existentes. Los desarrolladores pueden aprovechar al máximo el conjunto de instrucciones multimedia SSE4 para mejorar las capacidades de edición y codificación de vídeo inherentes a aplicaciones integradas como clientes interactivos o firmas digitales.

Tecnología Intel Trusted Execution

La tecnología Intel Trusted Execution es una tecnología de extensión de hardware en el procesador Intel Core 2 Duo E8400 que introduce la seguridad de datos de hardware en el mercado integrado y permite el doble núcleo. El dispositivo es ideal para defensa, gobierno, equipos de seguridad de redes de rango medio y aplicaciones minoristas.

Esta tecnología de seguridad está diseñada para proteger los datos en entornos informáticos virtualizados de ataques de software, intrusiones de virus y otros tipos de amenazas. [6]

Edite este párrafo

Tecnología de ejecución fuera de orden y chips de arquitectura Nehalem de Intel

Construcción

Nehalem es básicamente construido sobre el marco de microarquitectura central, se agregan SMT, caché de 3 capas, TLB jerárquico y predicción de ramas, IMC, QPI, soporte DDR3 e instrucciones SSE4.2. En comparación con el gran cambio de la arquitectura NetBurst de Pentium 4 a la microarquitectura Core, los cambios en la arquitectura Nehalem de la microarquitectura Core a la parte central básica son menores porque Nehalem sigue siendo una decodificación/cambio de nombre/cancelación de 4 instrucciones de ancho.

Razones

El motor fuera de servicio de Nehalem se ha ampliado significativamente, no solo por razones de rendimiento, sino también para proporcionar SMT, ya que SMT requiere recursos para disfrutarlo.

Al igual que con Core 2, la tabla de alias de registros (RAT) de Nehalem indica que cada registro arquitectónico va a un búfer de reordenamiento (ROB). Vaya al Archivo de Registro de Jubilación (RRF, o traducido a Archivo de Registro de Jubilación) y conserve el estado especulativo más reciente. El FRR, por otra parte, mantiene su reciente estatus no especulativo. RAT puede cambiar el nombre de cuatro microoperaciones por ciclo, dando a cada microoperación un registro de destino en el ROB. Las instrucciones renombradas leen sus operandos de origen y los envían a una estación de reserva (RS) unificada con una arquitectura común que puede ser utilizada por varios tipos de instrucciones.

El ROB (búfer de reorden) de Nehalem ha aumentado de 96 a 128 y el RS (estación de reserva) ha aumentado de 32 a 36. Ambos son compartidos por dos subprocesos, pero las estrategias son diferentes. El ROB se asigna estáticamente a ambos subprocesos para que ambos subprocesos puedan ser lo más predecibles posible en el flujo de instrucciones. Y RS es competitivo, en función de las necesidades de cada hilo. Esto se debe a que muchas veces un subproceso puede quedar detenido, esperando operandos de la memoria y utilizando muy pocos elementos RS. Es mejor tener otro hilo más activo que utilice tantos elementos RS como sea posible. Cuando todos los operandos de una instrucción en RS están listos, se asignan a las unidades de ejecución.

En comparación con Core 2, la unidad de ejecución de Nehalem básicamente no ha cambiado y no se ve afectada por SMT, excepto por una mayor utilización.

Editar este párrafo

Tecnología de ejecución fuera de orden y nanoprocesador

Introducción

El procesador VIA Nano es parte de VIA Serie de plataforma x86 El primer procesador de ejecución fuera de orden superescalar de 64 bits diseñado para activar los mercados tradicionales de computadoras de escritorio y portátiles y brindar un rendimiento verdaderamente de alta calidad para aplicaciones de tecnología informática, entretenimiento y conectividad de red.

Los procesadores de la serie VIA C7 adoptan tecnología de ahorro de energía líder en el mercado, y la serie de procesadores VIA Nano ha mejorado el rendimiento 4 veces dentro del mismo rango de consumo de energía, mejorando aún más su posición de liderazgo en la relación rendimiento-potencia. . La misma compatibilidad de pines con los procesadores de la serie C7 garantiza que los fabricantes OEM y los fabricantes de placas base puedan lograr una conversión más fluida entre ellos. Además, también facilita la actualización de los sistemas y placas base existentes.

Serie de procesadores VIA Nano

Nombre del procesador

Modelo

Frecuencia de reloj

Vía bus frontal V4

Embalaje

Proceso del procesador

Consumo de energía en inactividad

VIA Nano

L2100

1.8GHz

800 MHz

NanoBGA2

65 nanómetros

500mW

VIA Nano

L2200

1.6GHz

800 MHz

NanoBGA2

65 nanómetros

100 MW

VIA Nano

U2300

1,3 GHz

800 MHz

NanoBGA2

65 Nano

100 MW

VIA Nano

U2500

1.2GHz

800 MHz

NanoBGA2

65 Nano

100 MW

VIA Nano

U2400

1.0GHz

800 MHz

NanoBGA2

65 nanómetros

100 MW

Rendimiento arquitectónico clave

Medidas

El procesador VIA Nano utiliza la avanzada tecnología de procesador de 65 nm de Fujitsu para lograr la combinación perfecta de alto rendimiento y bajo consumo de energía. Consolida aún más la posición de liderazgo de VIA en miniaturización de procesadores y permite una nueva generación de diseños y aplicaciones miniaturizados para la plataforma x86 a través de un diseño ultradenso.

Tamaño del paquete: VIA Nano) Paquete BGA2 (21mm x 21mm)

Tamaño del núcleo: 7.650mm x 8.275mm (63.3mm2)

Microarquitectura de 64 bits de ejecución superescalar fuera de orden

El procesador VIA Nano admite un conjunto completo de instrucciones de 64 bits, con funciones de macrofusión, microfusión y predicción de ramas complejas. Reduzca aún más el consumo de energía del procesador y mejore su eficiencia.

Procesamiento de medios y computación de alto rendimiento

El procesador VIA Nano admite el bus frontal VIA V4 de bajo consumo y alta velocidad de 800 MHz, admite nuevas instrucciones SSE y dos Cachés L1 de 64 KB y caché L2 independiente de 1 MB con rendimiento de conexión de 16 canales, lo que supone un gran salto en el rendimiento multimedia.

En particular, el procesador VIA Nano ha mejorado significativamente en operaciones de punto flotante de alto rendimiento, adoptando un nuevo algoritmo de adición de punto flotante, que reduce en gran medida la latencia de punto flotante más baja en los procesadores x86. Asimismo, los multiplicadores de coma flotante también tienen la latencia de coma flotante más corta.

En otras palabras, esto significa que el procesador VIA Nano proporciona un rendimiento excelente para una reproducción fluida de discos Blu-ray y otros formatos de vídeo de alta definición, y puede decodificar transmisiones multimedia a 40 Mbps. Además, su exclusiva unidad de punto flotante (FPU) de doble reloj y su ruta de datos de 128 bits brindan una excelente experiencia de juego y un rendimiento fluido de gráficos 3D.

La siguiente imagen muestra las ventajas computacionales del procesador VIA Nano sobre el popular procesador C7:

Gestión térmica y de energía avanzada

Potente administración dinámica de energía, que incluye soporte para el nuevo estado de energía "C6", tecnología PowerSaver, nuevo diseño de circuito y mecanismo para administrar la temperatura del núcleo del chip, reducir el consumo de energía y mejorar los niveles de administración térmica.

A través de las tecnologías innovadoras mencionadas anteriormente en el procesador, el procesador VIA Nano tiene una arquitectura superescalar, logrando importantes mejoras de rendimiento manteniendo el mismo consumo de energía que los procesadores de la serie VIA C7 anterior.

VIA 1.0 GHz VIA Nano) El primer producto del procesador ULV tiene un consumo máximo de energía de diseño (TDP) de solo 5 vatios (el consumo de energía en funcionamiento inactivo es de solo 100 MW), mientras que el VIA Nano de 1.8 GHz Procesador El consumo de energía del procesador es de sólo 25,5 vatios (el consumo de energía en funcionamiento inactivo es de 500 MW).

El rendimiento informático del procesador VIA Nano se ha mejorado, pero el consumo de energía sigue siendo el mismo, lo que mejora aún más su relación rendimiento-potencia, convirtiéndolo en el mejor producto para un nuevo comienzo en la industria. .

Puntuaciones de rendimiento total de las pruebas de 2007

TDP (disipación máxima de energía térmica) de 1,6 GHz Celeron-M = 31 W; TDP de Nano es 1,6 GHz = 17 W

OS = Windows Vista Enterprise

Procesador VIA C7 actualizable: el procesador VIA Nano es compatible con pines de la familia de procesadores VIA C7, lo que permite a los fabricantes de equipos originales y de placas base intercambiar sin problemas productos con nuevas arquitecturas y permitirles expandirse. en diferentes segmentos del mercado con una sola placa base o diseño de sistema.

Tecnología ecológica: además, cumple totalmente con los estándares RoHS y las reglas WEEE, y el producto no contiene halógenos ni plomo, lo que supone un gran beneficio para la protección del medio ambiente y la tecnología informática sostenible.

Mejorado por Padlock Security Engine

El procesador VIA Nano hereda el acelerador de cifrado de hardware y las funciones de seguridad de la familia de procesadores VIA, incluidos generadores de datos aleatorios duales (RNG), motor de cifrado AES, bits NX y un motor híbrido seguro para manejar cálculos criptográficos SHA-1/SHA-256.

AMD Phenom Intel Core 2 Intel Atom vía C7 vía Nano

Secure Mix No No No SHA-1 completo SHA-256 completo

p>

Desbordamiento de búfer Bit NX Bit NX Bit NX Bit NX Bit NX Bit NX

Cifrado en chip) No No No Aceleración de traducción/codificación AES completa Aceleración RSA CBC, CFB-M, AC, Pico de 25 Gb/s en modo CTR; aceleración de traducción/codificación AES completa. RSA aumenta las velocidades máximas en los modos CBC, CFB-M, AC y CTR en 25 Gb/s.

Generación de números aleatorios (RNG) NO NO NO 2 RNG de hardware mejorado, la velocidad de salida a SHA es de 12 Mb/s 2 RNG de hardware mejorado, la velocidad de salida a SHA es de 12 Mb/s [7 ].

Editar este párrafo

Análisis de nuevas características de Barcelona: operación de pila y ejecución fuera de orden

Origen

El primer Pentium M de Intel procesador Se introduce una nueva característica, llamada "administrador de pila dedicado", que, como su nombre indica, es responsable de todas las operaciones de la pila X86 (como push, pop, call, return, etc. Procesa estos datos de forma centralizada y lo hace). no requiere la participación de otras unidades de ejecución, especialmente Simplifica el trabajo de la unidad de ejecución de enteros de la CPU y acelera la velocidad de procesamiento de la unidad de ejecución de enteros.

Tecnología

AMD también lanzó una tecnología similar en Barcelona, ​​que AMD llama Sideband Stack Optimizer. Con el optimizador de pila de banda lateral, las instrucciones en el procesador ya no necesitan codificarse de tres maneras, ni necesitan ser procesadas por la unidad de ejecución de enteros, lo que acelera la velocidad de procesamiento de la pila y la unidad de ejecución de enteros.

Una mejora importante en la microarquitectura Intel Core es la ejecución fuera de orden de OOOE: cuando la cola de instrucciones de carga está esperando, el procesador puede primero cargar y ejecutar las instrucciones en espera al final de la cola en lugar de esperando hasta que termine la congestión. De media, unas 30 instrucciones quedan bloqueadas durante algún tiempo. La introducción de este modo de ejecución desordenada ha mejorado significativamente el rendimiento de la CPU de nueva arquitectura. La arquitectura K8 de AMD no admite instrucciones de ejecución fuera de orden OOOE, por lo que aunque la arquitectura K8 tiene un excelente controlador de memoria incorporado, aún así es derrotada por la arquitectura central del oponente.

Ante este atraso tecnológico, AMD rápidamente mejoró Barcelona, ​​el primer chip de la arquitectura K8L, a tecnología OOOE. Esta mejora definitivamente traerá grandes mejoras al rendimiento de la arquitectura K8L.

Barcelona podrá ejecutar instrucciones desordenadas y también podrá utilizar celdas inactivas para cargar y procesar la siguiente instrucción antes de procesar la anterior, incluso si las dos instrucciones necesitan leer direcciones de memoria diferentes. Barcelona tiene tres unidades de generación de direcciones y puede completar tres instrucciones de registro por ciclo, mientras que la arquitectura central solo puede ejecutarse una vez por ciclo: la velocidad de registro de la arquitectura K8L es tres veces más rápida que la arquitectura central.

El marco K8L agrega nuevas extensiones de instrucciones SSE4: instrucciones SSEEXTRQ/INSERTQ e instrucciones MOVNTSD/MOVNTSS. El primero puede combinar varias instrucciones en una sola para su ejecución y el segundo se utiliza para calcular las instrucciones de registro de flujo. Intel también lo agregará a su procesador Penryn lanzado posteriormente.