大師演講統整

Jim Keller:AI也就600行程式碼,你知道AI晶片怎麼設計了吧

—— 開創AMD、Apple、Tesla最重要晶片的辣個男人,來了。 Jim Keller 是《AMD Zen系列》、《Apple Silicon 初代A系列晶片》、《Tesla 首代 FSD 自駕晶片》的開創者,《Tenstorrent AI 晶片公司》的CEO。 . 大神說:「其實最潮AI的程式碼,不過就600行而已」 不信的話,請你自己去讀最潮的Llama開源大語言模型程式碼。 (NVIDIA可能在後面說:「拜託別說了,我的股價!」 . 總之,這跟20年前百家爭鳴的電腦應用相比,超級收斂的。 . 大神又說:「未來的AI晶片,一定會長得跟CPU很不一樣」 所以,到底長怎樣? 還是大神要收費「解鎖課程」嗎? . 還真沒有。 以下是他濃縮自己開公司的心法,無私分享給大家。 1. 「從底層」出發,專心優化一個「Layer」 2. 重申「Abstraction Layer」 3. 「開源」軟硬體,一定是未來 . ▋大絕招:「從底層」出發,專心做好一個「Layer」 現在的AI,其實是由一層一層Layer組成的。 所以,Jim Keller說,其實只要把晶片設計成「以Layer為單位」。 專心做好每一層就好。 . 你應該會好奇,那會有多少種「Layer」呢? 大神算了一下,大概5個Layer。 Matrix Multiply、Convolution、TM、Softmax、All-to-all . 正因如此。 . 「從底層切入」好好優化做一個「Layer」的速度,從軟到硬「去蕪存菁」是最重要的。 . 這也是大神公司正在做的事情。 . 更甚者,他們把自己做的很棒的一些成果開源了。 像是Compiler、Runtime等等。 因為他們相信:「開源才是王道。」 . […]

Jim Keller:AI也就600行程式碼,你知道AI晶片怎麼設計了吧 Read More »

摩爾定律不重要?台積電資深副總受訪一次回答您

Q: 請問您覺得摩爾定律已死嗎?應該有新定律嗎? A: 只要系統層級的能耗、密度、效能持續變好,我們其實不那麼在乎Moore’s Law是否活著。此外,我們會留給別人去定義新定律。 Q: TSMC成功多少有歸功於漸進式更新每代製程的策略? (N5->N5P等等) A: 我不喜歡”漸進式”這詞。從5nm到3nm,再到2nm,每代能效提升超過30%。 Q: 客戶選擇主要節點更新,是否節省成本? A: 是的,升級到5nm後,可利用N5到N5P,再到N4和N4P的性能提升。 Q: 增強主要節點是內部設計還是客戶需求? A: 我們和客戶緊密合作,選擇合適技術節點,達到最佳產品效益。 Q: 有沒有客戶提出過驚訝的需求? A: 沒有,我們不喜歡出乎意料。我們和客戶緊密合作,確保他們選擇合適技術。 Q: 新的A16和Super Power Rail技術有何優勢? A: A16是革命性提升性能,Super Power Rail設計提高性能和供電效率。 Q: 新技術是否增加成本? A: 會增加成本,但密度和性能提升的好處遠超過成本。 Q: A16什麼時候投產? A: 目標是2026年下半年。 Q: N2上的NanoFlex如何不同於FINFLEX? A: NanoFlex允許設計師混合不同寬度的電晶體,達到最佳效益。 Q: CoWoS擴展進度如何? A: CoWoS需求激增,我們快速擴展產能,未來將能集成多達12個HBM堆疊。 Q: System-on-Wafer技術進展如何? A: 已有限量生產,預計2026/2027年滿足AI需求。 Q: TSMC對High-NA EUV技術立場? A: 我們會選擇合適時機應用High-NA

摩爾定律不重要?台積電資深副總受訪一次回答您 Read More »

Jim Keller 成為晶片之神的五大心法

↑這是Jim,他演講比中指也沒關係 Jim Keller 是《AMD Zen》架構師,《Apple Silicon 初代A系列晶片》的開創者,《Tesla 首代 FSD 自駕晶片》的開創者: 他數次在四年內開發出世界最好的晶片,瀟灑離去,繼續挑戰下世代最好的晶片,有如射雕英雄傳中的俠客-周伯通一般。 這一次,他加入了 AI 晶片新創公司 TensorTorrent,並擔任 CTO。 你一定會問:「怎麼做到的?一個大學畢業生怎麼可能完成這麼多事情?」 Jim Keller 不僅做到了,他願意直接分享心法給你。 以下,是他濃縮自己與團隊合作,成功改變世界的關鍵。 1. 以「目標」為導向,激勵團隊2. 替組織建立「Abstraction Layer」,大而不亂3. 不把「舊團隊」帶去「新公司」,成就創新4. 想像5年後的晶片路線,制敵機先5. 假設先前做的東西「很糟」,除舊佈新 1. 以「目標」為導向,激勵與幫助團隊 大神認為,沒有領導這回事。 只有大家一起做一個計畫,像是設計世界上最好的自動駕駛晶片,大家才能找到自己想做的事,成為團隊。 而執行計畫時,除了debug,還有更多個人問題,像是:健康、家庭、同事等等。 其實,這些每個人「自己」的問題才是最重要的。 當主管幫助團隊成員解決這些問題時。 計畫通常就順利往前推進了,Jim Keller 也不知道為什麼。 󠀠久而久之,人們開始說Jim Keller是他們的「導師」。 但他其實只是幫大家的生活 debug 而已。 2. 替組織建立「Abstraction Layer」,才能大而不亂 計算機結構有一個很重要的觀念,稱為 Abstraction Layer。 講白話文,就是硬體跟軟體之間有一個統一的溝通規則。 一定要遵守。 好處是什麼呢?做晶片的人可以專心想晶片怎麼改良,不用天天跟軟體的人開會。 軟體的人也可以專心想演算法怎麼改良,不用一天到晚開會。 只要中間的公通規則是不變的! 而組織也需要其「Abstraction

Jim Keller 成為晶片之神的五大心法 Read More »

AI教父Andrew Ng:三個臭皮匠,勝過諸葛亮?運用ChatGPT Agents打敗GPT4!

ChatGPTs贏過GPT4的關鍵在於Agentic Reasoning! 什麼是Agentic Reasoning? 把LLM視為工作代理人,讓LLMs擁有工作角色、工具、團隊合作、復盤能力 把工作派給LLM Agents,就是所謂的Agentic Reasoning! 舉例來說: 我們可以開兩個ChatGPTs 一個寫程式,一個負責審核程式 這樣就是最簡單的Agentic Reasoning! 更重要的是,ChatGPT Agents互動達成任務,會比直接使用GPT-4更厲害! 講完定義,我們必須看一下實驗結果 在寫程式HumanEval這個任務上 使用多個ChatGPT Agents,會比單獨使用GPT-4完成任務的效果好很多! 上圖橫軸為寫出來的程式其通過率,越接近100%越好 Zero-shot就是使用單一個LLM一次回答可以達到的正確率 可以看到單一個GPT-3.5的準確度僅有48%,遠低於單一個GPT-4的67% 但是當使用多個GPT-3.5 agents後,準確度大幅提升至90%以上超越單一個GPT-4、比肩多個GPT-4 agents! Andrew提到有四大方法幫助LLM Agents效果變更好: 招數一:讓LLM復盤 (Reflection) 以寫程式做unit test來舉例 可以先要求LLM生成程式後 再要求LLM讀程式碼看是否有問題 如此往復循環多次 LLM就可以自己檢驗是否有寫錯程式的地方 增加程式碼的正確性 復盤既可以一個LLM分飾兩角,也可以一個LLM自言自語 招數二:讓LLM使用工具 (Use Tools) 如果讓LLM接上各種現有的系統 也可以讓LLM Agents變得更加良好! 讓LLM可以使用搜尋引擎 讓LLM可以使用程式執行器 都可以讓LLM agent任務做的更好 招數三:使用LLM規劃步驟 (Planning) 讓LLM Agent可以規劃完成某件事情該用哪些模型,有哪些步驟 也是一種讓Agentic Reasoning更好的方向 招數四:LLM專家團隊合作 (Multiagent

AI教父Andrew Ng:三個臭皮匠,勝過諸葛亮?運用ChatGPT Agents打敗GPT4! Read More »

NVIDIA 2024 GTC 五大重點

老黃今年的 GTC Keynote 有五大重點 ▌新產業「Accelerated Generative AI」 針對生成式AI的加速運算服務將是下世代重要產業 󠀠 ▌新晶片「Blackwell」 推出史上最大的GPU,有2080億個電晶體,由兩個晶片拼接而成 󠀠 ▌新服務 「NIM (NVIDIA Inference Microservice)」 NIM是結合了Pre-trained model、軟體環境、針對NVIDIA GPU優化的AI服務包 未來可根據需求買一些NIM AI服務來與自己共同工作了 󠀠 ▌新商業模型 「AI Foundry」 NVIDIA的終極目標是給使用者一站式的AI服務,NVIDIA提供軟到硬一切事情 當需要AI服務->去NVIDIA AI Store買需要的NIM AI服務包 當需要AI晶片->去NVIDIA Cloud買需要的運算、或是部署到自己的NVIDIA GPU上 當需要客製AI->用NEMO Retriever將公司專屬資料存到Vector資料庫中,客製化自己的AI 󠀠 ▌新世界 「ISAAC Robotics & Omniverse」 使用其數位孿生技術,讓機器人可以在虛擬世界不會摔斷腿就可以學會走路、揮手 NVIDIA將會提供Robotic Foundation Model,加速機器人時代來臨 󠀠 Blackwell、NIM、ISAAC Robotics、Omniverse一定是媒體關鍵字 󠀠 我最喜歡的兩個小彩蛋: 1. 老黃最後展示了一堆機器人 (包含小綠小橘),但demo時小綠不受控,尷尬笑慘 2.

NVIDIA 2024 GTC 五大重點 Read More »

前台積副理十年經驗談:最重要的工作是理解、爭取、轉譯

我認為這是2024必看的職涯成長乾貨 推薦給對護國神山工作感興趣的朋友! 󠀠YouTube連結在此:https://reurl.cc/xLAveZ 󠀠 前台積研發副理(職等34)-瓦基: 我當主管時的工作 其實很像說書人 不斷在「理解上級目標、激發團隊動力、共同達成目標」 󠀠 翻成白話文就是 – 接收並與上級爭取自己能認同的目標 (強調要有爭取,只有FYI一定被下屬私下爆噴) – 使團隊認同自己並一起並肩作戰 – 將目標轉譯成團隊成員有動力且願意做的事情 󠀠 這集影片分享到如何在台積文化下帶團隊的part 我真的覺得是無價經驗談 因為職涯中或多或少會遇到帶人的機會 要怎麼滿足上級壓力 又要帶得動團隊完成目標 󠀠 真的是很有挑戰的工作呢 󠀠 其實主管也是員工 而且是夾在上級與團隊中間當夾心餅乾 一定有自己的難處 󠀠 像是之前在讀博時遇到跨實驗室IC合作計畫 剛開始會天真的認為管理就是分配工作 再按照Deadline回收進度即可 但真的不是這麼簡單的 要考慮每個人看重的事、每個人手上其他事的Loading等等 還很常要救火 也難怪科技版上有那麼多工程師和PM的Beef 󠀠 除了職場上帶領團隊的寶貴經驗 瓦基(閱讀前哨站)與慢活夫妻(慢活夫妻 George & Dewi)也聊了很多有趣的話題󠀠 我們已幫忙將其他重點整理在下面 蘿蔔也很認真推薦兩個台積YouTuber的粉專! 󠀠 ▌台積每個單位都很操嗎? 要記得台積有73090人 有各式各樣的部門、主管 其實就是一個小型社會 󠀠 不太能以偏概全 有些部門比較軍事化 有些則比較著重一起成長 󠀠

前台積副理十年經驗談:最重要的工作是理解、爭取、轉譯 Read More »

Google首席科學家Jeff Dean:「Chain of Thought:請LLM寫出過程更準確」

(最新進展:LLM對於含有過程的回答較有自信) Google大神Jeff Dean在RICE University演講時也分享了「Chain of Thought (簡稱CoT)」 演講連結:https://youtu.be/oSCRZkSQ1CE?si=2QKRt4ARw_KVs8Ez&t=532 ▌一句話講 Chain of Thought 1. CoT核心想法:循循善誘LLM寫出過程,可以提高正確率 2. CoT最新進展:LLM對於自己含有過程的回答較有信心 ▌如何使LLM寫出過程、增加準確度 兩種方法: 1. 每一個問題最後都加上 「Let’s think it step by step」 2. 在Prompt裡面提供自己一步一步推理的回答範例,再請LLM照模板回答 附個Prompting參考說明書:https://www.promptingguide.ai/zh/techniques/cot ▌最新進展:回答若含有過程,LLM對自己更有信心 大家有注意過ChatGPT有個鍵可以重新生成回答嗎? 其實,LLM是可以吐出不同回答的! DeepMind一週前的最新研究「Chain-of-Thought Reasoning Without Prompting」指出 當邏輯推理過程出現在其中某個回答時 模型對於這個答案的自信 (Confidence)越高 且通常這個答案是對的 也就是說 面對邏輯推理問題 大家可以看關鍵字詞的位置,若關鍵字詞在一開頭就出現 那很大機率LLM在唬爛,他想都沒想 這時可以重新產生回答 直到看到有推理過程的回答,再採信就好! 附個論文連結:https://arxiv.org/abs/2402.10200 (但我覺得GPT-5來了後,這一切或許就不是個問題了

Google首席科學家Jeff Dean:「Chain of Thought:請LLM寫出過程更準確」 Read More »

Google首席科學家Jeff Dean:算力是加速AI學習曲線的關鍵

Jeff Dean是DeepMind和Google Research的首席科學家 前幾天在RICE University給了一個演講 󠀠 其中很大一部分在分享自研的AI晶片Tensor Processing Unit (TPU) 從規格到背後邏輯都分享了一些 󠀠 其中,之所以TPU已經成為Google重要專案,是因為 「算力」是加速「AI學習曲線」的關鍵 以及 「自研晶片」可大幅降低算力的成本 󠀠󠀠 󠀠󠀠 ▌Google的十年AI晶片大業 (TPU-v1到TPU-v5) 很難想像軟體龍頭Google的TPU專案已經發展了近十年吧 󠀠 從v1到v5,總結一下TPU的亮點: – TPU已從只能「推論」到可以支援「訓練+推論」 – TPU的訓練算力已經提升了10倍 (459TFLOPS) – TPU Pod的算力已經達到 4.1 exaflops (8960個TPU-v5p晶片, exa=10^18) 󠀠 乍聽數字沒什麼感覺 但是世界最強的超級電腦frontier也就提供1.191 exaflops TPU Pod其實已經跟世界最猛的超級電腦算力差不多囉XD 󠀠 而背後持續讓Google推動TPU演進的趨勢是 「More computational power improves models significantly」 翻成白話文就是 「算力是Google開發AI的關鍵資源」 󠀠 想像一下 當一間公司擁有的AI算力越高 他可以大幅降低訓練時間、減少模型試錯成本

Google首席科學家Jeff Dean:算力是加速AI學習曲線的關鍵 Read More »

You cannot copy content of this page

Scroll to Top