解密LLM推論晶片新王：Groq LPU的三大亮點

󠀠

Groq 如何用14nm的LPU

打敗了4nm的NVIDIA H100呢?

󠀠

Groq Die photo

Groq System

SW-controlled Network

Comparison w/ GPU

我認為有幾個設計亮點

1) 採用Dataflow架構

↪︎Dataflow架構會使用編譯器預先做好排程，可降低控制電路面積

↪︎目的：最大化晶片的算力與SRAM記憶體大小

󠀠

2) 捨棄傳統多階層的Memory Hierarchy

↪︎不使用DRAM/HBM，也不將SRAM記憶體編排成L1、L2、L3 cache等階層，只有一層軟體可控的SRAM記憶體 Scratchpad

↪︎目的：SRAM可以直接供給運算單元資料，最大化記憶體頻寬 (80 TBps)

󠀠

3) 捨棄複雜的跨晶片Networking

↪︎讓LPU也成為Router，使用Compiler來控制跨晶片的資料傳輸

↪︎目的：簡化晶片之間傳輸資料所需要的硬體成本，可彈性配置跨晶片頻寬、提升頻寬利用率

󠀠

▌參考資料

[1] Groq Head of Silicon-Igor Arsovski的演講：https://youtu.be/WQDMKTEgQnY?si=Bicqpg2yPM3jvXZ6

[3] Think Fast: A Tensor Streaming Processor (TSP) for Accelerating Deep Learning Workloads, ISCA’20 (計算機結構四大頂尖會議)

[4] A software-defined tensor streaming multiprocessor for large-scale machine learning, ISCA’22

[5] The J-Machine Multicomputer: An Architectural Evaluation, ISCA’93

註：基本上台灣10年只會有5篇以內的計算機結構頂會，難度超高

i.e., ISCA、MICRO、HPCA、ASPLOS

Related Posts