NVIDIA

8堂生成式 AI 必修課

「取代你的不是AI,是比你更會用AI的人」,相信這句話你讀過很多次。 你一定想問:「然後呢?該怎麼辦?」 解法有兩種:1) 躺平專心做自己  2) 充實自己,學習技術演進到哪了。 如果你選後者的話,這邊是8堂推薦的入門級生成式AI 課程。 — ▋Andrew Ng:為所有人開設的生成式AI課程 Andrew Ng是Stanford教授、AI領域神級人物。 這個是他為大家整理的免費課程,快搶前排座位上課。 https://reurl.cc/6vE206 ▋Andrej Karpathy:大型語言模型簡介 (180萬次觀看) Andrej 是前Tesla AI研究總監、OpenAI創始成員、Stanford博士、李飛飛教授得意門生。 一個小時的演講中,他淺顯易懂的講述了 LLM 如何壓縮整個網路,獲得智力,很值得一看。 https://reurl.cc/dLk1G2 ▋IBM:生成式AI基礎專門訓練 從技術簡介到Prompting Engineering都有介紹。 大家別忘了老字號IBM。 https://reurl.cc/kO7dq9 ▋Google Cloud:生成式AI導論 (155萬次觀看) Google Cloud 拍攝的課程,搭配動畫容易學習。 每上半小時的課程,做個測驗就可以拿到Google Cloud徽章,很有成就感。 https://www.cloudskillsboost.google/paths/118 ▋3Blue1Blown:圖像化講解什麼是GPT (204萬次觀看) 圖像化解釋底層數學與技術,我只服3Blue1Blown,我的大學線性代數唯一導師。 這堂半小時的演講淺顯易懂的講述了 GPT 在幹嘛,還可以延伸看著名的Transformer。 https://reurl.cc/jW8XWD ▋Microsoft:18堂給初學者的生成式AI課程 微軟這系列課程包山包海,從技術介紹到實際部署到Azure和OpenAI的平台上。 https://reurl.cc/OMp1r7 ▋Databricks:大型語言模型-從應用到量產 這間美國超級熱門的資料平台推出的生成式AI課程,共有6個模組,快來一探究竟。 https://reurl.cc/Vzj6M5 ▋NVIDIA:解釋生成式AI 老黃的晶片公司當然也提供一些免費的生成式AI教學,只要註冊就能免費上課。 https://reurl.cc/kO7dyr […]

8堂生成式 AI 必修課 Read More »

NVIDIA 2024 GTC 五大重點

老黃今年的 GTC Keynote 有五大重點 ▌新產業「Accelerated Generative AI」 針對生成式AI的加速運算服務將是下世代重要產業 󠀠 ▌新晶片「Blackwell」 推出史上最大的GPU,有2080億個電晶體,由兩個晶片拼接而成 󠀠 ▌新服務 「NIM (NVIDIA Inference Microservice)」 NIM是結合了Pre-trained model、軟體環境、針對NVIDIA GPU優化的AI服務包 未來可根據需求買一些NIM AI服務來與自己共同工作了 󠀠 ▌新商業模型 「AI Foundry」 NVIDIA的終極目標是給使用者一站式的AI服務,NVIDIA提供軟到硬一切事情 當需要AI服務->去NVIDIA AI Store買需要的NIM AI服務包 當需要AI晶片->去NVIDIA Cloud買需要的運算、或是部署到自己的NVIDIA GPU上 當需要客製AI->用NEMO Retriever將公司專屬資料存到Vector資料庫中,客製化自己的AI 󠀠 ▌新世界 「ISAAC Robotics & Omniverse」 使用其數位孿生技術,讓機器人可以在虛擬世界不會摔斷腿就可以學會走路、揮手 NVIDIA將會提供Robotic Foundation Model,加速機器人時代來臨 󠀠 Blackwell、NIM、ISAAC Robotics、Omniverse一定是媒體關鍵字 󠀠 我最喜歡的兩個小彩蛋: 1. 老黃最後展示了一堆機器人 (包含小綠小橘),但demo時小綠不受控,尷尬笑慘 2.

NVIDIA 2024 GTC 五大重點 Read More »

解密LLM推論晶片新王:Groq LPU的三大亮點

󠀠 Groq 如何用14nm的LPU 打敗了4nm的NVIDIA H100呢? 󠀠 我認為有幾個設計亮點 1) 採用Dataflow架構 ↪︎Dataflow架構會使用編譯器預先做好排程,可降低控制電路面積 ↪︎目的:最大化晶片的算力與SRAM記憶體大小 󠀠 󠀠 2) 捨棄傳統多階層的Memory Hierarchy ↪︎不使用DRAM/HBM,也不將SRAM記憶體編排成L1、L2、L3 cache等階層,只有一層軟體可控的SRAM記憶體 Scratchpad ↪︎目的:SRAM可以直接供給運算單元資料,最大化記憶體頻寬 (80 TBps) 󠀠 󠀠 3) 捨棄複雜的跨晶片Networking ↪︎讓LPU也成為Router,使用Compiler來控制跨晶片的資料傳輸 ↪︎目的:簡化晶片之間傳輸資料所需要的硬體成本,可彈性配置跨晶片頻寬、提升頻寬利用率 󠀠 󠀠 ▌參考資料 [1] Groq Head of Silicon-Igor Arsovski的演講:https://youtu.be/WQDMKTEgQnY?si=Bicqpg2yPM3jvXZ6 [2] Groq Chief Architect在Stanford的演講:https://youtu.be/kPUxl00xys4?si=sV8r_MrX7GLN7ZLV [3] Think Fast: A Tensor Streaming Processor (TSP) for Accelerating Deep Learning Workloads, ISCA’20

解密LLM推論晶片新王:Groq LPU的三大亮點 Read More »

六強合推AI運算新規則:MicroXcaling 格式

隨著生成式AI浪潮到來,AI模型變的更肥大、更加耗費運算量 因應這個挑戰,Microsoft、AMD、Intel、Meta、NVIDIA、Qualcomm等科技六巨頭在2023年底向Open Compute Project提交一個AI數值系統標準:MicroXcaling 格式 (簡稱MX),希望能比FP8更省AI記憶體空間、運算成本更低 󠀠 AI運算所需的位元寬度(bitwidth),就像iPhone的價格一樣,「越低」就「越好」 怎麼說呢? 如果iPhone的價格從5萬台幣跳水成1萬台幣,就會有更多人買得起iPhone 如果AI運算所需的位元寬度能從8位元降到更低,就會有更多人用得起AI 󠀠 ▌科學記號與主流數值系統 現有主流的數值系統我們可以初步分為:整數(int)、浮點數(fp)、塊狀浮點數(block fp)、指數(exp)四大類。 相信大家國中都有學過「科學記號」,250這個「整數」可表示為2.5×10^2 因為電腦採用二進制,我們把科學記號從10為基底改成2為基底,250可以表示成1.953125×2^7,這就是「浮點數」 如果讓一群小數共用一個指數 (2^7),那就變成「塊狀浮點數」 我們也可以把這個浮點數四捨五入只看指數項,1.953125×2^7可以近似成2^7,這時就是「指數」囉 󠀠 󠀠 ▌MicroXcaling (MX)賣點是什麼? MicroXcaling最像是「塊狀浮點數」,也就是一群數字(element)共用一個縮放因子 (scale) 因為一群element共用一個scale,所以element有機會可以用到很少位元數,而scale則用來保證值域足夠 利用共用,MX既達成了「更低位元數」,又能「保持需要的值域」! 󠀠 而element與縮放因子都是可以調整其格式的,可以配置其整數(M)有幾位元、指數(E)有幾位元 󠀠 目前MX格式有四種:MXFP8、MXFP6、MXFP4、MXINT8 每32個elements共用一個scale,每個scale都是8位元指數,element分別是FP8、FP6、FP4、INT8格式 MXINT8 就很像是8位元的塊狀浮點數 󠀠 ▌什麼!GPT-3只要4位元MXFP4就夠了嗎!? 作者們實驗了20多種模型,有興趣歡迎自行查看論文的數據 講重點,在GPT-3上,用4位元的MXFP4來量化AI模型權狀可以達到跟FP32差不多的準確度! 󠀠 󠀠 ▌台灣的AI數值系統 蘿蔔身為台灣一份子,知道其實也有許多認真的研究生和工程師在努力研發。 󠀠 相比於大陸的CSDN、知乎,台灣好像沒什麼媒介能幫忙增加研究成果曝光 我們想做點改變,若你知道有相關的研究成果,且認為是「真」的研究成果,歡迎寄信給我們、或是直接留言 寄信格式:列出論文題目、發表位置、10~20字以內的總結 我們的email:lobolab.service@gmail.com 我們會幫忙統整進本文,利用社群力量讓更多人看到辛苦的研究成果! ▌延伸閱讀與資源 [1] https://www.opencompute.org/……/ocp-microscaling…… [2] Microscaling Data

六強合推AI運算新規則:MicroXcaling 格式 Read More »

You cannot copy content of this page

Scroll to Top