解密LLM推論晶片新王:Groq LPU的三大亮點

󠀠

Groq 如何用14nm的LPU

打敗了4nm的NVIDIA H100呢?

󠀠

我認為有幾個設計亮點

1) 採用Dataflow架構

↪︎Dataflow架構會使用編譯器預先做好排程,可降低控制電路面積

↪︎目的:最大化晶片的算力與SRAM記憶體大小

󠀠

󠀠

2) 捨棄傳統多階層的Memory Hierarchy

↪︎不使用DRAM/HBM,也不將SRAM記憶體編排成L1、L2、L3 cache等階層,只有一層軟體可控的SRAM記憶體 Scratchpad

↪︎目的:SRAM可以直接供給運算單元資料,最大化記憶體頻寬 (80 TBps)

󠀠

󠀠

3) 捨棄複雜的跨晶片Networking

↪︎讓LPU也成為Router,使用Compiler來控制跨晶片的資料傳輸

↪︎目的:簡化晶片之間傳輸資料所需要的硬體成本,可彈性配置跨晶片頻寬、提升頻寬利用率

󠀠

󠀠

▌參考資料

[1] Groq Head of Silicon-Igor Arsovski的演講:https://youtu.be/WQDMKTEgQnY?si=Bicqpg2yPM3jvXZ6

[2] Groq Chief Architect在Stanford的演講:https://youtu.be/kPUxl00xys4?si=sV8r_MrX7GLN7ZLV

[3] Think Fast: A Tensor Streaming Processor (TSP) for Accelerating Deep Learning Workloads, ISCA’20 (計算機結構四大頂尖會議)

[4] A software-defined tensor streaming multiprocessor for large-scale machine learning, ISCA’22

[5] The J-Machine Multicomputer: An Architectural Evaluation, ISCA’93

註:基本上台灣10年只會有5篇以內的計算機結構頂會,難度超高

i.e., ISCA、MICRO、HPCA、ASPLOS

You cannot copy content of this page

Scroll to Top