AMD Instinct MI200 CDNA 2 MCM GPU Is A Beast: Xung nhịp 1,7 GHz, 47,9 TFLOPs FP64 & Tăng hơn 4 lần về hiệu suất FP64/BF16 so với MI100

AMD Instinct MI200 với thiết kế GPU CDNA 2 MCM sắp ra mắt HPC, có các con số hiệu suất khủng khiếp & tăng gấp 4 lần tính toán so với MI100 của Instinct

Instinct MI200 hàng đầu của AMD sắp ra mắt và nó sẽ là GPU đầu tiên cho phân khúc HPC có thiết kế MCM dựa trên kiến trúc CDNA 2. Có vẻ như GPU sẽ cung cấp một số con số hiệu suất điên rồ so với GPU Instinct MI100 hiện có với khả năng tính toán FP16 tăng gấp 4 lần.

AMD Instinct MI200 CNDA 2 MCM GPU Is A Beast: 1.7 GHz Clocks, 47.9 TFLOPs FP64 & a 4X Increase In FP16 Performance Over MI100

Chúng tôi phải tìm hiểu các thông số kỹ thuật của máy gia tốc Instinct MI200 theo thời gian nhưng số liệu hiệu suất tổng thể của nó cho đến nay vẫn là một bí ẩn. Người trong cuộc và người rò rỉ Twitter, ExecutableFix, đã chia sẻ các số liệu hiệu suất đầu tiên cho bộ tăng tốc GPU MCM dựa trên CDNA 2 của AMD và đó là một con thú.
Theo tweet của ExecutableFix, AMD Instinct MI200 sẽ có tốc độ xung nhịp lên đến 1,7 GHz, tăng 13% so với Instinct MI100. GPU MCM được hỗ trợ bởi CDNA 2 cũng tạo ra gần gấp đôi số lượng bộ xử lý luồng là 14.080 lõi, được đóng gói trong 220 Đơn vị tính toán. Mặc dù dự kiến ​​GPU sẽ tạo ra 240 đơn vị Máy tính với 15.360 lõi, nhưng cấu hình được thay thế bằng một biến thể cắt giảm do hiệu suất. Như đã nói, chúng ta có thể thấy SKU đầy đủ ra mắt trong tương lai, mang lại hiệu suất cao hơn nữa.
Về hiệu suất, Bộ tăng tốc AMD Instinct MI200 HPC sẽ cung cấp gần 50 TFLOPs (47,9) TFLOPs mã lực tính toán FP64 & FP32. So với Instinct MI100, đây là mức tăng 4,16 lần trong phân đoạn FP64. Trên thực tế, số FP64 của MI200 vượt quá hiệu suất FP32 của người tiền nhiệm của nó. Chuyển sang các con số FP16 và BF16, chúng tôi đang xem xét 383 TFLOPs hiệu suất điên rồ. Đối với quan điểm, MI100 chỉ cung cấp 92,3 TFLOP cho hiệu suất BFloat16 cao nhất và 184,6 TFLOP cho hiệu suất FP16 cao nhất.
AMD Instinct MI200 CDNA 2 'Aldebaran' MCM HPC GPU Accelerator Launching Later This Year
Theo HPCWire, AMD Instinct MI200 sẽ cung cấp năng lượng cho ba siêu máy tính hàng đầu bao gồm hệ thống Frontier ngoại hạng của Hoa Kỳ; hệ thống LUMI pre-exascale của Liên minh Châu Âu; và hệ thống Setonix petascale của Úc. Cuộc thi bao gồm A100 80 GB cung cấp 19,5 TFLOP của FP64, 156 TFLOP của FP32 và 312 TFLOP của công suất tính toán FP16. Nhưng chúng ta có khả năng sẽ nghe nói về GPU Hopper MCM của NVIDIA vào năm tới, vì vậy sẽ có một cuộc cạnh tranh gay gắt giữa hai nhà sản xuất GPU vào năm 2022.

Đây là những gì mong đợi từ Bộ tăng tốc GPU AMD Instinct MI200 ‘CDNA 2’

Bên trong AMD Instinct MI200 là một GPU Aldebaran có hai khuôn, một thứ hai và một chính. Nó có hai khuôn với mỗi khuôn bao gồm 8 động cơ đổ bóng trong tổng số 16 SE. Mỗi Shader Engine đóng gói 16 CU với FP64 tốc độ đầy đủ, FP32 được đóng gói & Công cụ ma trận thế hệ thứ 2 cho các hoạt động FP16 & BF16. Mỗi khuôn, như vậy, bao gồm 128 đơn vị máy tính hoặc 8192 bộ xử lý luồng. Điều này làm tròn tổng cộng 220 đơn vị máy tính hoặc 14.080 bộ xử lý dòng cho toàn bộ chip. GPU Aldebaran cũng được cung cấp bởi kết nối XGMI mới. Mỗi chiplet có động cơ VCN 2.6 và bộ điều khiển IO chính.
The block diagram of AMD's CDNA 2 powered Aldebaran GPU which will power the Instinct MI200 HPC accelerator has been visualized. (Image Credits: Locuza)
Đối với DRAM, AMD đã sử dụng giao diện 8 kênh bao gồm các giao diện 1024 bit cho giao diện bus rộng 8192 bit. Mỗi giao diện có thể hỗ trợ các mô-đun DRAM HBM2e 2GB. Điều này sẽ cung cấp cho chúng tôi tối đa 16 GB dung lượng bộ nhớ HBM2e cho mỗi ngăn xếp và vì có tổng cộng tám ngăn xếp, tổng dung lượng sẽ là một con số khổng lồ 128 GB. Đó là nhiều hơn 48 GB so với A100 có bộ nhớ HBM2e 80 GB. Hình ảnh đầy đủ về GPU Aldebaran trên Instinct MI200 có sẵn tại đây.

Bộ tăng tốc AMD Radeon Instinct 2020

Accelerator Name AMD Instinct MI300 AMD Instinct MI200 AMD Instinct MI100 AMD Radeon Instinct MI60 AMD Radeon Instinct MI50 AMD Radeon Instinct MI25 AMD Radeon Instinct MI8 AMD Radeon Instinct MI6
GPU Architecture TBA (CDNA 3) Aldebaran (CDNA 2) Arcturus (CDNA 1) Vega 20 Vega 20 Vega 10 Fiji XT Polaris 10
GPU Process Node Advanced Process Node Advanced Process Node 7nm FinFET 7nm FinFET 7nm FinFET 14nm FinFET 28nm 14nm FinFET
GPU Dies 4 (MCM)? 2 (MCM) 1 (Monolithic) 1 (Monolithic) 1 (Monolithic) 1 (Monolithic) 1 (Monolithic) 1 (Monolithic)
GPU Cores 28,160? 14,080? 7680 4096 3840 4096 4096 2304
GPU Clock Speed TBA ~1700 MHz ~1500 MHz 1800 MHz 1725 MHz 1500 MHz 1000 MHz 1237 MHz
FP16 Compute TBA 383 TOPs 185 TFLOPs 29.5 TFLOPs 26.5 TFLOPs 24.6 TFLOPs 8.2 TFLOPs 5.7 TFLOPs
FP32 Compute TBA 95.8 TFLOPs 23.1 TFLOPs 14.7 TFLOPs 13.3 TFLOPs 12.3 TFLOPs 8.2 TFLOPs 5.7 TFLOPs
FP64 Compute TBA 47.9 TFLOPs 11.5 TFLOPs 7.4 TFLOPs 6.6 TFLOPs 768 GFLOPs 512 GFLOPs 384 GFLOPs
VRAM TBA 64/128 GB HBM2e? 32 GB HBM2 32 GB HBM2 16 GB HBM2 16 GB HBM2 4 GB HBM1 16 GB GDDR5
Memory Clock TBA TBA 1200 MHz 1000 MHz 1000 MHz 945 MHz 500 MHz 1750 MHz
Memory Bus TBA 8192-bit 4096-bit bus 4096-bit bus 4096-bit bus 2048-bit bus 4096-bit bus 256-bit bus
Memory Bandwidth TBA ~2 TB/s? 1.23 TB/s 1 TB/s 1 TB/s 484 GB/s 512 GB/s 224 GB/s
Form Factor TBA Dual Slot, Full Length / OAM Dual Slot, Full Length Dual Slot, Full Length Dual Slot, Full Length Dual Slot, Full Length Dual Slot, Half Length Single Slot, Full Length
Cooling TBA Passive Cooling Passive Cooling Passive Cooling Passive Cooling Passive Cooling Passive Cooling Passive Cooling
TDP TBA TBA 300W 300W 300W 300W 175W 150W

Kiều Gia Huy | Nguồn: wccftech.com

Contact Me on Zalo
0908.69.77.86