解密LLM推論晶片新王:Groq LPU的三大亮點

󠀠 Groq 如何用14nm的LPU 打敗了4nm的NVIDIA H100呢? 󠀠 我認為有幾個設計亮點 1) 採用Dataflow架構 ↪︎Dataflow架構會使用編譯器預先做好排程,可降低控制電路面積 ↪︎目的:最大化晶片的算力與SRAM記憶體大小 󠀠 󠀠 2) 捨棄傳統多階層的Memory Hierarchy ↪︎不使用DRAM/HBM,也不將SRAM記憶體編排成L1、L2、L3 cache等階層,只有一層軟體可控的SRAM記憶體 Scratchpad ↪︎目的:SRAM可以直接供給運算單元資料,最大化記憶體頻寬 (80 TBps) 󠀠 󠀠 3) 捨棄複雜的跨晶片Networking ↪︎讓LPU也成為Router,使用Compiler來控制跨晶片的資料傳輸 ↪︎目的:簡化晶片之間傳輸資料所需要的硬體成本,可彈性配置跨晶片頻寬、提升頻寬利用率 󠀠 󠀠 ▌參考資料 [1] Groq Head of Silicon-Igor Arsovski的演講:https://youtu.be/WQDMKTEgQnY?si=Bicqpg2yPM3jvXZ6 [2] Groq Chief Architect在Stanford的演講:https://youtu.be/kPUxl00xys4?si=sV8r_MrX7GLN7ZLV [3] Think Fast: A Tensor Streaming Processor (TSP) for Accelerating Deep Learning Workloads, ISCA’20 […]

解密LLM推論晶片新王:Groq LPU的三大亮點 Read More »