【新智元導讀】當猩猩學會玩《我的猩猩學世界》,方法居然和英偉達科學家訓練 GPT-4 智能體的世界方法一致?
注意,這位玩家正在熟練地玩著《我的竟和世界》,ta 游刃有余地進行著收集零食和打碎積木的猩猩學操作。
鏡頭一轉,世界我們才發現:玩家的竟和真實身份,竟然是猩猩學一只猩猩!
沒錯,世界這是竟和一項來自「猩猩行動計劃(Ape Initiative)」的非人類生物神經網絡實驗。而實驗的猩猩學主角 Kanzi,是世界一只 42 歲的倭黑猩猩。
經過訓練后,竟和它學會了各種技能,猩猩學挑戰了鄉村、世界沙漠神殿、竟和下界傳送門等環境,一路通關到達終點。
而 AI 專家發現,猩猩訓練師教會它學技能的過程,竟然跟人類教 AI 玩 Minecraft 有諸多類似之處,比如上下文強化學習、RLHF、模仿學習、課程學習等。
Kanzi 是來自 Ape Initiative 的一只倭黑猩猩,它是世界上最聰明的猩猩之一,聽得懂英語,還會使用觸摸屏。
在 Ape Initiative,Kanzi 能接觸到各種電子觸摸屏,這或許為它快速上手《我的世界》打好了基礎。
人們第一次向 Kanzi 展示《我的世界》時,它一坐到屏幕前就發現了綠色的箭頭,然后用手指劃向了這個目標物上。
才不過幾秒鐘,Kanzi 就發現了該怎樣在《我的世界》中移動。隨后,它還學會了收集獎勵。
每收集一個獎勵,它都會得到花生、葡萄、蘋果之類的零食獎勵。
Kanzi 的操作越來越嫻熟。它會分辨和目標箭頭同樣是綠色柱形的障礙物,在收集獎勵時繞開它們。
當然,Kanzi 也會遇到難關。它需要使用 break 工具擊碎大的積木塊,但這個操作,它此前從未見過。
眼看 Kanzi 卡住了,人類在旁邊開始幫忙,指著所需的工具按鈕。然而 Kanzi 看完后仍然沒能領悟。
人類只好親自上手,用工具敲碎了木塊。Kanzi 看完后若有所思,在所有人期待的目光中,它也有樣學樣,點擊按鈕后擊碎了木塊。人們瞬間爆發出歡呼。
現在,Kanzi 的技能樹已經集齊了兩樣:收集零食、打碎積木。
在學習山洞技能的時候,工作人員發現,如果從試圖擊碎的木塊上滑落,Kanzi 就會直接走掉。因此,人們為它特別定制了一個任務 ——
在一個到處都是鉆石墻的山洞中擊碎木塊,來證明它掌握了收藏和擊碎的技能。
在山洞里一切都很順利,然而,Kanzi 卻遇到了一個問題:它在墻角被卡住了。此時,就需要人類伸出援手。
最終,Kanzi 到達了洞穴底部,擊碎了最后一道墻。
人群爆發出歡呼,Kanzi 也高興地和工作人員擊掌。
接下來,有意思的來了:工作人員邀請了一位人類玩家,和 Kanzi 一起玩游戲,當然,他對于 Kanzi 的身份并不知情。
工作人員打算看一看,這位玩家會在多長時間后意識到,和自己一起玩游戲的并不是人類。
開始,這位小哥只是覺得,對方的移動速度慢到不可思議,當 Kanzi 的畫面被展現到眼前,小哥直接被嚇到后仰。
之后再玩《我的世界》,Kanzi 越戰越勇。
每當 Kanzi 收集到一個獎勵,人們就會用歡呼的形式肯定它的行為,如果它失敗了,訓練員也會用鼓掌和歡呼鼓勵它繼續進行游戲。
這時,它已經學會解鎖地下迷宮的地圖:
擊碎面前的障礙物:
找到紫水晶:
當 Kanzi 卡住的時候,它會出去散散心,拿回一根木棍放到自己旁邊。就算不幸失敗,Kanzi 也會點擊按鈕,讓自己重生。
最后一關,是一個充滿分岔路的巨大迷宮。
因為遲遲無法走出迷宮,Kanzi 焦躁起來,開始拿著樹枝尖叫,或者氣得把樹枝折斷。
最終,它讓自己平靜下來繼續闖關,走出了迷宮。立刻,掌聲和歡呼聲把 Kanzi 包圍了。
看來,《我的世界》是被 Kanzi 這只倭黑猩猩玩明白了。
看著一只倭黑猩猩熟練地玩著電子游戲,多少會有點讓人覺得有些荒誕和不可思議。
英偉達高級科學家 Jim Fan 對此評論道 ——
盡管 Kanzi 和它的祖先們一生從未見過《我的世界》,但它很快就適應了電子屏幕上顯示的《我的世界》中的紋理和物理特性。
而這與它們一直以來接觸和生活的自然環境截然不同。這種泛化水平遠遠超出了現今為止最強大的視覺模型。
訓練動物玩《我的世界》的技巧本質上與訓練人工智能的原則是相同的:
每當 Kanzi 在游戲中達到標記的里程碑時,他就會得到一個水果或花生,激勵他繼續遵循游戲中的規則。
Kanzi 并不理解人類的語言,但它能看到訓練人員為他加油打氣,還會偶爾給出回應。來自訓練人員的歡呼給了 Kanzi 一個強烈的信號:它走在正確的道路上。
訓練員為 Kanzi 演示了如何完成任務之后,它就立即掌握了相關操作的含義。演示的效果遠遠超出比單獨使用獎勵的策略。
訓練員和 Kanzi 從非常簡單的環境開始,逐步教導 Kanzi 掌握控制技能。最后,Kanzi 能夠穿越復雜的洞穴、迷宮和下界。
不僅如此,即便是使用了類似的訓練技巧,動物的視覺系統就能在極短的時間內識別和適應新的環境,而 AI 視覺模型則會花費更多的時間和訓練成本,甚至常常難以達到理想效果。
我們再次陷入莫拉維克悖論(Moravec's paradox)的深淵:
人工智能與人類的能力表現相反。在我們認為無需思考或作為本能的低級智能活動中(如感知和運動控制),人工智能表現很糟糕。但在需要推理、抽象的高級智能活動中(如邏輯推理和語言理解),人工智能卻很容易超越人類。
這正好對應了這個實驗呈現的結果:
我們最好的人工智能(GPT-4)在理解語言方面接近人類水平,但在感知、識別方面遠遠落后于動物。
Kanzi 和 LLMs 都可以玩《我的世界》,但 Kanzi 的學習方式和 LLMs 之間存在著不可小覷的差異,我們要注意這一點。
面對 Kanzi 優異的學習能力,網友們開始了惡搞。
有人預見 6 年以后的世界將成為猩球大戰......
或者是猩猩喝可樂,融入人類社會......
甚至馬老板也中槍了,被做成了「猴版」馬斯克。
也有人說,Kanzi 是第一個擁有游戲玩家憤怒的非人類,ta 很滿意。
「如果 Kanzi 有自己的游戲頻道,我會老老實實看的?!?/p>
「在玩游戲上,人類與倭黑猩猩沒有太大區別。我們都受到獎勵的激勵,以執行某些任務并完成目標,唯一的區別是獎勵的實際內容?!?/p>
「在《我的世界》中,Kanzi 開采鉆石的獎勵更即時、更原始(食物),而我們開采鉆石的獎勵則更延遲且與游戲相關??傊?,有點瘋狂?!?/p>
先是 GPT 學會了玩《我的世界》,現在倭黑猩猩也可以玩了,這讓人不禁開始期待能用上 Neuralink 的未來。
在教 AI 玩 Minecraft 上,人類早已積累了許多先進經驗。
早在今年 5 月,Jim Fan 團隊就曾把英偉達的 AI 智能體接入 GPT-4,做出了一個全新的 AI 智能體 Voyager。
Voyager 不僅性能完勝 AutoGPT,而且還可以在游戲中進行全場景的終身學習!它可以自主寫代碼獨霸《我的世界》,完全無需人類插手。
可以說,Voyager 出現后,我們離通用人工智能 AGI,又近了一步。
接入 GPT-4 之后,Voyager 根本不用人類操心,完全就是自學成才。它不僅掌握了挖掘、建房屋、收集、打獵這些基本的生存技能,還學會了自個進行開放式探索。
通過自我驅動,它不斷擴充著自己的物品和裝備,配備不同等級的盔甲,用盾牌格擋傷害,用柵欄圈養動物。
大語言模型的出現,給構建具身智能體帶來了全新的可能性。因為基于 LLM 的智能體可以利用預訓練模型中蘊含的世界知識,生成一致的行動計劃或可執行策略。
而在智能體中引入 GPT-4,就開啟了一種全新的范式(靠代碼執行「訓練」,而非靠梯度下降),讓智能體擺脫了無法終身學習的缺陷。
OpenAI 科學家 Karpathy 也對此盛贊:這是個用于高級技能的「無梯度架構」。在這里,LLM 就相當于是前額葉皮層,通過代碼生成了較低級的 mineflayer API。
為了讓 Voyager 成為有效的終身學習智能體,來自英偉達、加州理工學院等機構的團隊提出了 3 個關鍵組件:
1. 一個迭代提示機制,能結合游戲反饋、執行錯誤和自我驗證來改進程序
2. 一個技能代碼庫,用來存儲和檢索復雜行為
3. 一個自動教程,可以最大化智能體的探索
首先,Voyager 會嘗試使用一個流行的 Minecraft JavaScript API(Mineflayer)來編寫一個實現特定目標的程序。
游戲環境反饋和 JavaScript 執行錯誤(如果有的話)會幫助 GPT-4 改進程序。
左:環境反饋。GPT-4 意識到在制作木棒之前還需要 2 塊木板。
右:執行錯誤。GPT-4 意識到它應該制作一把木斧,而不是一把「相思木」斧,因為 Minecraft 中并沒有「相思木」斧。
通過提供智能體當前的狀態和任務,GPT-4 會告訴程序是否完成了任務。
此外,如果任務失敗了,GPT-4 還會提出批評,建議如何完成任務。
其次,Voyager 通過在向量數據庫中存儲成功的程序,逐步建立一個技能庫。每個程序可以通過其文檔字符串的嵌入來檢索。
復雜的技能是通過組合簡單的技能來合成的,這會使 Voyager 的能力隨著時間的推移迅速增長,并緩解災難性遺忘。
上:添加技能。每個技能都由其描述的嵌入索引,可以在將來的類似情況中檢索。
下:檢索技能。當面對自動課程提出的新任務時,會進行查詢并識別前 5 個相關技能。
第三,自動課程會根據智能體當前的技能水平和世界狀態,提出合適的探索任務。
例如,如果它發現自己在沙漠而非森林中,就學習采集沙子和仙人掌,而不是鐵。課程是由 GPT-4 基于「發現盡可能多樣化的東西」這個目標生成的。
作為第一個由 LLM 驅動、可以終身學習的具身智能體,Voyager 的訓練過程和猩猩訓練過程的相似之處,可以給我們許多啟示。
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。
????????IPO??????????????????? ????1???з??????????????
日期 2023-09-26 23:29
網友評論更多
9985哈吉咩
渣機黨勸退,進去卡死??磥砦也慌?。
2023-09-26 來自湖南 推薦
安弈 :為了套那10塊錢滴積分紅包真是不容易呀 來自河北
m15f1r3 :雙11又到了!又能每天都見到那個快遞小哥哥了?。?! 來自安徽
已注銷 :只為了省那幾塊錢而下載,下單后就卸載~ 來自甘肅
778這二維碼有毒
同志們,可以用微信支付嗎?
2023-09-26 來自湖南 推薦
純真危機 :夜幕降臨,小區傳達室的劉大爺默默注視著墻上的掛鐘,思索良久,又點上一根煙,最終堅定地拉掉了小區電閘。那一晚他為小區業主們挽回了幾千萬元的財產損失。那一天是公元2014年11月11日。 來自河北
帥哥1314521 :大家千萬別下載,里面的東西都要錢 來自安徽
YYH10956303493 :剁手必備,快下吧 來自甘肅
98顧雨晨
請問各位網友天貓與淘寶哪個好,有什么區別,哪個買東西更實惠更便宜
2023-09-26 來自湖南 推薦
傲嬌的占卜師 :我來評個價吧 來自河北
YYH633210267364 :guy that is what you have to get back in time I can you give us some other things I can 來自安徽
YYH10956303493 :為了套那10塊錢滴積分紅包真是不容易呀 來自甘肅
7寂靜的空虛
大家千萬別下載,里面的東西都要錢
2023-09-26 來自湖南 推薦
明天會暴富 :用了3年了 用的我是越來越糟心,之前是沒有客服通道后來是有了,然后買到過幾次假貨,有些賣家態度還特別惡劣 上來就是問候家人的,找客服是處理了 人家也道歉了,可結果也是不了了之,現在客服連投訴都不能投訴了 直接就讓我去申請退貨我不知道為什么一有問題就是退貨 難道就不能解決問題嗎?真的差勁 來自河北
Cyrus wiey :好商家挺好的 來自安徽
鋒芒@畢露 :剁手必備,快下吧 來自甘肅
75749木口丁
渣機黨勸退,進去卡死??磥砦也慌?。
2023-09-26 來自湖南 推薦
寂靜的空虛 :垃圾軟件,里面的東西都要錢 來自河北
匯匯君 :我來評個價吧 來自安徽
m15f1r3 :各位電商大佬快快燒錢啊,讓我們嗨一把吧! 來自甘肅