
VLA 司機(jī)模型【司機(jī)Agent】最后落地一定是一個端云一體化的產(chǎn)品【車端VLA 4B+云端 32B VL基座模型】。車端OrinX Thor 算力有限且需要低時延反應(yīng),車端的VLA模型參量就一定大不到哪里去,因此一定需要用COT 的方式將部分復(fù)雜場景分析放在云端VL模型中,將信息分析下放回車端完成完整的Token輸出后用擴(kuò)散模型轉(zhuǎn)換成軌跡再轉(zhuǎn)換成控制單元。


VLA的VL基座模型為什么要自己去預(yù)訓(xùn)練。如果不是用原生的基座模型。模型蒸餾以后其他LLM模型里面和駕駛場景無關(guān)的知識能力客觀來說會影響模型本體的能力上限。【而車端算力是非常寶貴的,因此做原生駕駛場景的基座模型就是一個非常艱難,但是必須要做的事情】【當(dāng)然如果某一家可能會有更高的車端算力,我覺得嘗試用第三方LLM去做蒸餾后強(qiáng)化學(xué)習(xí)也是可以嘗試一下,畢竟各家搞科研的VLA機(jī)器人都是用開源的LLM】

VLA 相較于 E2E+VLM最大的兩個差異:
1)是沒有雙系統(tǒng)協(xié)同了,所以不需要用VLM去指揮E2E;
2)VLA因?yàn)樗行畔⒍际寝D(zhuǎn)成了Token在進(jìn)LLM【蒸餾后的基座模型,這里簡化描述。部分復(fù)雜指令會上云進(jìn)VL模型】,因此多模態(tài)信息對齊在自動駕駛領(lǐng)域第一次達(dá)成【實(shí)時視覺感知、語義信息、導(dǎo)航信息、駕駛員需求信息等等】。
用VLA可以讓,AD系統(tǒng)真的看懂、看清楚、理解【車機(jī)導(dǎo)航】,注意是理解車機(jī)導(dǎo)航和真實(shí)路口場景的匹配和真實(shí)的軌跡預(yù)期,而并非是理解車機(jī)導(dǎo)航的播發(fā)信息【現(xiàn)在XX米后右轉(zhuǎn)】
VLA構(gòu)架用了3dgs【用很多個小橢球+每個橢球一個高維度顏色來描述三維世界的,所以文字這類信息在他的表示里應(yīng)該算是復(fù)雜紋理,不知道能不能用3dgs的方式高效的表達(dá)且傳導(dǎo)給后面的llm】
現(xiàn)在給出的解法是用了2D Vit 和3D表征同時進(jìn)VLA模型,所以確實(shí)解決了3D場景的表達(dá)理解和文字信息的表達(dá)理解。
這個細(xì)節(jié)反向證明了,目前看VLA這個構(gòu)架圖【真實(shí)性、透明性】就是非常非常高的

相較于原來的端到端模型重復(fù)造輪子的就小多了。E2E 500wclips 升級到800W clips 其實(shí)是重新訓(xùn)練的VLA司機(jī)模型 1.0 和2.0 都是來自于32B 的VL模型蒸餾后強(qiáng)化學(xué)習(xí)做的,本質(zhì)上數(shù)據(jù)利用率會高的多的【大幅度減少了重復(fù)分析數(shù)據(jù)、匹配數(shù)據(jù)造輪子的工作】
能力提升的預(yù)測【客觀來說,模型參量增加表現(xiàn)增強(qiáng)是客觀存在的】。E2E模型1000W clips的模型參量大概率是 小于1B的,而VLA司機(jī)基座模型是【3.2+0.8=4B】。還有一個云端增強(qiáng)的32B的VL模型,大家能理解能力的增強(qiáng)?【復(fù)雜場景、真實(shí)理解、推理、長時序】
VLA提升的并不是E2E模型的流暢性,而是提高的頂層思維能力