數(shù)據(jù)稀缺阻礙具身智能進(jìn)步?頂尖科學(xué)家拋出方案:“大模型+機(jī)器視覺(jué)”實(shí)現(xiàn)零樣本操控機(jī)器人
摘要:①李飛飛是世界頂尖的AI專家,現(xiàn)為美國(guó)斯坦福大學(xué)終身教授、斯坦福大學(xué)人工智能實(shí)驗(yàn)室主任,曾任谷歌副總裁和谷歌云首席科學(xué)家; ②李飛飛認(rèn)為,計(jì)算機(jī)視覺(jué)未來(lái)的重點(diǎn)方向就是具身智能; ③隨著人工智能的成熟,人工智能模型的建立正變得越來(lái)越容易,為人工智能創(chuàng)建數(shù)據(jù)集仍然是一個(gè)主要的痛點(diǎn)。
《科創(chuàng)板日?qǐng)?bào)》7月11日訊(編輯 宋子喬)?通過(guò)嵌入大語(yǔ)言模型,機(jī)器人變得更加智能,將視覺(jué)模型也堆上去,機(jī)器人會(huì)有怎樣的提升呢?
AI科學(xué)家李飛飛帶領(lǐng)的團(tuán)隊(duì)日前發(fā)布了具身智能最新成果:大模型接入機(jī)器人,把復(fù)雜指令轉(zhuǎn)化成具體行動(dòng)規(guī)劃,人類(lèi)可以很隨意地用自然語(yǔ)言給機(jī)器人下達(dá)指令。更重要的是,通過(guò)將LLM(大語(yǔ)言模型)+VLM(視覺(jué)語(yǔ)言模型)結(jié)合在一起,機(jī)器人與環(huán)境進(jìn)行交互的能力進(jìn)一步提升,無(wú)需額外數(shù)據(jù)和訓(xùn)練便可完成任務(wù)。
李飛飛團(tuán)隊(duì)將該系統(tǒng)命名為VoxPoser,相比傳統(tǒng)方法需要進(jìn)行額外的預(yù)訓(xùn)練,這個(gè)方法讓機(jī)器人在零樣本的前提下完成了,解決了機(jī)器人訓(xùn)練數(shù)據(jù)稀缺的問(wèn)題。
李飛飛是華裔女科學(xué)家、世界頂尖的AI專家,現(xiàn)為美國(guó)斯坦福大學(xué)終身教授、斯坦福大學(xué)人工智能實(shí)驗(yàn)室主任,曾任谷歌副總裁和谷歌云首席科學(xué)家。前Open AI研究員、曾擔(dān)任特斯拉人工智能和自動(dòng)駕駛視覺(jué)總監(jiān)的Andrej Karpathy便是其得意弟子。
李飛飛研究領(lǐng)域涉及計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、認(rèn)知神經(jīng)科學(xué)等,而近年來(lái)其關(guān)注的重點(diǎn)聚焦在AI智能體,即具身智能。在她看來(lái),計(jì)算機(jī)視覺(jué)未來(lái)的重點(diǎn)方向就是具身智能,她認(rèn)為,具身AI可能會(huì)給我們帶來(lái)一次重大的轉(zhuǎn)變,從識(shí)別圖像等機(jī)器學(xué)習(xí)的簡(jiǎn)單能力,轉(zhuǎn)變到學(xué)習(xí)如何通過(guò)多個(gè)步驟執(zhí)行復(fù)雜的類(lèi)人任務(wù),如制作煎蛋卷。
▌不僅能聽(tīng)懂人話 還不需要額外數(shù)據(jù)和訓(xùn)練
回到VoxPoser,為什么說(shuō)它是具身智能領(lǐng)域的一大突破?當(dāng)然不是因?yàn)槔铒w飛本人的學(xué)術(shù)地位。
VoxPoser解決了機(jī)器人訓(xùn)練的一大難題——數(shù)據(jù)稀缺。
VoxPoser的研究工作中,通過(guò)將LLM(大語(yǔ)言模型)+VLM(視覺(jué)語(yǔ)言模型)結(jié)合在一起,可實(shí)現(xiàn)“人類(lèi)自然語(yǔ)言輸入——代碼生成反饋給機(jī)器人——機(jī)器人收到指令并規(guī)劃路徑——最終完成任務(wù)”。
用自然語(yǔ)言(打開(kāi)上面的抽屜,小心花瓶!)給機(jī)器人下達(dá)指令后機(jī)器人完成
這個(gè)流程的意義在于,機(jī)器人的交互能力大大提高,通過(guò)LLM+VLM擁有了眼睛和理解力,相當(dāng)于擁有了人類(lèi)一樣學(xué)習(xí)能力,即從現(xiàn)實(shí)環(huán)境中收集數(shù)據(jù)實(shí)時(shí)學(xué)習(xí),而不是依賴于提前錄入的數(shù)據(jù)庫(kù)“遇題找答案”。
李飛飛團(tuán)隊(duì)也表示,這些操作均不需要進(jìn)行任何訓(xùn)練或使用基本操作,只要掌握了以上基本流程,就可以完成任何給定任務(wù),實(shí)現(xiàn)了在真實(shí)世界中的零樣本機(jī)器人操縱。
可操作的物體是開(kāi)放的,不用事先劃定范圍,開(kāi)瓶子、按開(kāi)關(guān)、拔充電線都能完成
在數(shù)據(jù)對(duì)機(jī)器學(xué)習(xí)的重要性和數(shù)據(jù)獲得的難度上,李飛飛有著十足的話語(yǔ)權(quán)。她在2006主導(dǎo)構(gòu)建的ImageNet數(shù)據(jù)集是世界首個(gè)用于計(jì)算機(jī)視覺(jué)算法的大規(guī)模人工標(biāo)注照片數(shù)據(jù)集,它包含了超千萬(wàn)張有標(biāo)簽的圖像,可以用來(lái)訓(xùn)練復(fù)雜的機(jī)器學(xué)習(xí)模型,被譽(yù)為改變?nèi)斯ぶ悄軞v史的數(shù)據(jù)集。但這些數(shù)據(jù)的收集、處理工作異常艱巨,來(lái)自全球167個(gè)國(guó)家近5萬(wàn)名工作者以眾包的方式花費(fèi)三年時(shí)間才完成。
如何解決訓(xùn)練數(shù)據(jù)稀缺的難題,將成為具身智能乃至人工智能發(fā)展過(guò)程中的第一大攔路虎。
在2022年的一篇論文中,李飛飛旗幟鮮明地表示,隨著人工智能的成熟,人工智能模型的建立正變得越來(lái)越容易,包括亞馬遜、谷歌和微軟在內(nèi)的公司都提供自動(dòng)機(jī)器學(xué)習(xí)(AutoML)產(chǎn)品,允許用戶在自己的數(shù)據(jù)上建立最先進(jìn)的人工智能模型,而無(wú)需編寫(xiě)任何代碼。但由于規(guī)劃和注釋的成本,為人工智能創(chuàng)建數(shù)據(jù)集仍然是一個(gè)主要的痛點(diǎn),創(chuàng)建適當(dāng)?shù)臄?shù)據(jù)集和數(shù)據(jù)管道以開(kāi)發(fā)和評(píng)估AI模型越來(lái)越成為最大的挑戰(zhàn)。
VoxPoser目前還存在著一定的局限性,它依賴于外部感知模塊,仍需要為嵌入的大模型手動(dòng)輸入提示詞,仍需要通用的動(dòng)力學(xué)模型來(lái)完成更豐富的動(dòng)作等。
不過(guò),VoxPoser已在學(xué)術(shù)界、業(yè)界引起熱議。一位前微軟研究員評(píng)價(jià),這項(xiàng)研究走在了人工智能系統(tǒng)最重要和最復(fù)雜的前沿。另有DeepMind研究員、人形機(jī)器人初創(chuàng)公司Figure創(chuàng)始人等為這項(xiàng)研報(bào)“點(diǎn)贊”。
VoxPoser項(xiàng)目已開(kāi)辟官網(wǎng),相關(guān)論文已上線,代碼即將推出。當(dāng)下李飛飛團(tuán)隊(duì)只是邁出了第一步。這一框架將有何改進(jìn)、未來(lái)會(huì)怎樣應(yīng)用在機(jī)器人產(chǎn)品上,我們拭目以待。