ChatGPTs贏過GPT4的關鍵在於Agentic Reasoning!
什麼是Agentic Reasoning?
把LLM視為工作代理人,讓LLMs擁有工作角色、工具、團隊合作、復盤能力
把工作派給LLM Agents,就是所謂的Agentic Reasoning!
舉例來說:
我們可以開兩個ChatGPTs
一個寫程式,一個負責審核程式
這樣就是最簡單的Agentic Reasoning!
更重要的是,ChatGPT Agents互動達成任務,會比直接使用GPT-4更厲害!
講完定義,我們必須看一下實驗結果
在寫程式HumanEval這個任務上
使用多個ChatGPT Agents,會比單獨使用GPT-4完成任務的效果好很多!
上圖橫軸為寫出來的程式其通過率,越接近100%越好
Zero-shot就是使用單一個LLM一次回答可以達到的正確率
可以看到單一個GPT-3.5的準確度僅有48%,遠低於單一個GPT-4的67%
但是當使用多個GPT-3.5 agents後,準確度大幅提升至90%以上
超越單一個GPT-4、比肩多個GPT-4 agents!
Andrew提到有四大方法幫助LLM Agents效果變更好:
- 讓LLM復盤 (Reflection)
- 讓LLM使用工具 (Use Tools)
- 使用LLM規劃步驟 (Planning)
- 讓LLM角色扮演、互相合作 (Multiagent Collaboration)
招數一:讓LLM復盤 (Reflection)
以寫程式做unit test來舉例
可以先要求LLM生成程式後
再要求LLM讀程式碼看是否有問題
如此往復循環多次
LLM就可以自己檢驗是否有寫錯程式的地方
增加程式碼的正確性
復盤既可以一個LLM分飾兩角,也可以一個LLM自言自語
招數二:讓LLM使用工具 (Use Tools)
如果讓LLM接上各種現有的系統
也可以讓LLM Agents變得更加良好!
讓LLM可以使用搜尋引擎
讓LLM可以使用程式執行器
都可以讓LLM agent任務做的更好
招數三:使用LLM規劃步驟 (Planning)
讓LLM Agent可以規劃完成某件事情該用哪些模型,有哪些步驟
也是一種讓Agentic Reasoning更好的方向
招數四:LLM專家團隊合作 (Multiagent Collaboration)
我們也可以使用很多LLM專家
一些LLM擔任CEO
一些LLM擔任軟體工程師
讓他們自由對答
也是有機會做出更好的成果!
演講主題: What’s next for AI agentic workflows?