阮翀加盟元戎啟行后首次公開亮相,詳細(xì)闡述了其主導(dǎo)研發(fā)的40B參數(shù)規(guī)模視覺語言動(dòng)作模型。該模型采用模塊化架構(gòu),可清晰劃分為視覺理解、語言交互與動(dòng)作執(zhí)行三大核心組件,顯著提升了自動(dòng)駕駛系統(tǒng)的研發(fā)效率。
阮翀以實(shí)際研發(fā)場景為例,說明該基座模型如何加速技術(shù)迭代:首先,通過端到端訓(xùn)練過程直接暴露模型能力短板,從而快速定位數(shù)據(jù)覆蓋盲區(qū);其次,依托云端構(gòu)建的高保真虛擬駕駛環(huán)境,對采集數(shù)據(jù)的質(zhì)量進(jìn)行系統(tǒng)性評估,大幅模型優(yōu)化周期;第三,支持對AI駕駛行為進(jìn)行毫秒級實(shí)時(shí)監(jiān)測與動(dòng)態(tài)糾偏,實(shí)現(xiàn)策略輸出與物理執(zhí)行的緊密耦合。
在隨后的圓桌交流中,阮翀就物理人工智能的發(fā)展路徑發(fā)表見解,指出構(gòu)建感知、決策、執(zhí)行閉環(huán)是推動(dòng)AI真正融入物理世界的核心前提。談及大語言模型的快速發(fā)展,他表示雖認(rèn)可其重要價(jià)值,但現(xiàn)階段更聚焦于探索AI在具身智能與真實(shí)場景落地中的深層技術(shù)路徑