Anuncios
jueves, septiembre 21, 2017

25 de agosto de 2017.- Hot Chips es una conferencia anual donde los mejores y más brillantes de la industria de semiconductores proporcionan profundos detalles  sobre los últimos procesadores de vanguardia. Este año se presentó una amplia gama de temas que reflejan las últimas tendencias de la industria. Naturalmente, esto significa una dosis enorme de IA. Presentaciones de Nvidia, Google y Microsoft, entre muchos otros, mostraron sus últimos desarrollos.

Nvidia estaba presente para presentar algunos de los detalles microarquitecturales más finos de su nueva Volta GV100 SM. Llegaremos a la presentación en breve, pero también tuvimos una reunión con Rob Ober, Tesla Jefe de la Plataforma Arquitecto en Nvidia, para una mirada más cercana a la GV100.

Nvidia Volta GV100

Ober pasó a tener en la mano una Tesla V100 que tenía escondida en su bolsa, así que aprovechamos la oportunidad para tomar algunas fotos. El GV100 viene en el factor de forma SXM2. Cuatro pilas de HBM2 (16 GB en total) se montan sobre un portador de sustrato de silicio, visible en los lados opuestos de la matriz, y están flanqueadas por cuatro “alas” que ayudan a sostener el paquete cuando se aplica la presión de montaje del disipador.

Nvidia está presionando los límites de la fabricación de semiconductores con Volta; Es el die más grande de la empresa hasta el momento. El masivo de de Volta de 815mm2, que maneja 21 mil millones de transistores construido en TSMC con un proceso FFN de 12nm, es casi del tamaño de un retículo completo. Esto presenta desafíos debido a la alta probabilidad de defectos.

volta

Nvidia envía la GPU con 80 SM (5.120 núcleos CUDA), pero la compañía diseñó el dice con 84 SM para maximizar los rendimientos. Los cuatro SMs de repuesto compensan cualquier defecto en el proceso de fabricación; La probabilidad de que un SM sufra de un defecto es alta, mientras que las probabilidades de que cuatro SM defectuosos sean bastante bajas. Nvidia simplemente deshabilita los SM defectuosos para evitar problemas, aumentando así el rendimiento. Sin embargo, si un defecto irreparable cae en un área crítica del chip, tal como interconexiones de E/S o vías críticas, el dice es (usualmente) descartado. En cualquier caso, Volta es una hazaña de ingeniería; Su tamaño de matrices supera a la matriz GP100 de Nvidia 610mm2 (15,3 millones de transistores) en un 33%.

El die de Volta reside en un bloque de acero, por lo que el GV100 tiene poco peso en el. Nvidia equipó la parte inferior del GV100 con dos conectores mezzanine. Un conector sirve principalmente al tráfico PCIe típico y el otro está dedicado a las conexiones NVLink. Los módulos GV100 están asegurados a placas personalizadas (Nvidia ofrece su placa de referencia HGX) a través de ocho sujetadores, y las placas residen dentro de chasis de servidor de alturas variables.

volta

Una amplia gama de 16 inductores y reguladores de voltaje alinean el borde de la tarjeta. El paquete consume un promedio de 300W a un poco por debajo de 1V, por lo que más de 300A fluye en el dice. Nvidia ofrece diseños de refrigeración de referencia, pero la mayoría de sus clientes de HPC optan por soluciones de enfriamiento de líquidos personalizadas, mientras que muchos hiperescaladores van con refrigeración por aire. La solución térmica se adhiere a los cuatro agujeros de borde de plata junto a la matriz.

volta

El DGX-1 Tesla V100 es impulsado por ocho GPU Voltsa abarrotados en un chasis de 3U para entregar una tremenda potencia de procesamiento de 960 TFLOPs dcon 40.960 núcleos CUDA. También trae la adición de 5.120 núcleos de Tensor y seis conexiones de NVLink 2.0 que aumentan el rendimiento unas 10 veces la de una conexión PCIe estándar (300 GB / s). El DXG-1 alcanza los 3.200W dentro de un solo chasis, por lo que un enfriamiento eficaz es imprescindible.

El NVLink de Nvidia aloja varias topologías de sistemas, como la malla de cubo híbrido en el DGX-1 para aplicaciones de aprendizaje de máquinas y el diseño exclusivo del sistema P9 coral de HPC. Estas topologías minimizan la latencia peer-to-peer y proporcionan capacidades de multipathing.

Nvidia diseñó su protocolo patentado NVLink específicamente para comunicaciones de GPU punto a punto de baja latencia y alto rendimiento. La compañía ha considerado la apertura del protocolo NVLink como un estándar, pero en última instancia, Nvidia cree que podría dificultar el desarrollo. Grandes consorcios industriales están desarrollando estándares abiertos competitivos, como CCIX y CAPI, pero Nvidia cree que NVLink es el más adecuado para su caso de uso específico.

volta

Nvidia afirma ventajas impresionantes de rendimiento sobre su generación anterior P100. Los puntos destacados incluyen un impulso de 12x a la formación y un impulso de 6x para la inferencia. El rendimiento es alimentado, en parte, por una rápida HBM2, y cachés L2/L1. Mientras tanto, el ancho de banda ampliado de NVLink 2 casi duplica el rendimiento inter-GPU.

Son 80 SMs (Streaming Multiprocessors), con un total de 5.120 núcleos CUDA y 640 núcleos tensores, rellenan el dice. Las mejoras incluyen planificadores de urdimbre dobles, una caché de instrucciones L1 mas grande y un aceleración de tensor. La caché de instrucción L1 compartida introduce una instrucción de urdimbre por reloj en los sub-núcleos programados de forma independiente. Cada sub-núcleo procesa una instrucción de urdimbre por reloj y se alimenta en la unidad MIO compartida. La unidad MIO contiene textura, caché de datos compartidos L1 y memoria compartida.

Cada sub-núcleo SM tiene su propia caché de instrucciones L0 y una unidad de ramificación dedicada. El planificador de urdimbre alimenta la unidad de envío de matemáticas, envía instrucciones MIO a la cola de instrucciones MIO para la programación posterior, y alimenta los dos núcleos tensores de 4x4x4 (que se utilizan específicamente para el aprendizaje profundo).

Los cuatro sub-núcleos envían instrucciones al programador MIO. El caché de datos 128KB L1 proporciona 128 bytes de ancho de banda por reloj. Cada sub-núcleo tiene una conexión de 64 bytes por reloj a la caché de datos L1. Nvidia señaló que diseñó el subsistema de caché para un rendimiento de transmisión de datos superior; este ofrece cuatro veces el ancho de banda y la capacidad en comparación con el GP100.

 

Fuente: tomshardware

Anuncios
Tags: , ,
Soy un profesional de TI con muchos años de experiencia en el área, entusiasta del Hardware y gamer de hueso colorado. Editor del sitio HardwareMX.

Related Article

0 Comments

A %d blogueros les gusta esto:
Ir a la barra de herramientas