據(jù)外媒報道,中國北京大學(Peking University)與清華大學(Tsinghua University)的研究人員發(fā)表了一篇論文,介紹“用于駕駛的生成式預訓練版本1(Generative Pre-training for Driving version 1,GPD-1)”的創(chuàng)新框架,旨在提升自動駕駛系統(tǒng)的能力。該方法對各種駕駛場景進行建模,以簡化場景生成、運動規(guī)劃和交通仿真等任務,從而提升自動駕駛車輛預測和模擬各種駕駛條件的能力。利用分層位置編碼和矢量量化自動編碼器等先進創(chuàng)新技術,GPD-1實現(xiàn)了此次技術集成。

GPD-1(圖片來源:azoai.com)
自動駕駛技術領域的進展
近年來,自動駕駛領域取得了顯著進展,主要歸功于人工智能(AI)和機器學習技術的進步。傳統(tǒng)方法通常孤立地處理駕駛場景的特定方面,例如地圖生成或運動預測。然而,由于駕駛環(huán)境中各種實體間互動的復雜性,將此類組件整合至一個統(tǒng)一的框架中仍面臨著挑戰(zhàn)。不過,通過利用大型數(shù)據(jù)集高效模擬和預測駕駛場景,研發(fā)生成式模型,特別是自回歸變壓器架構,提供了有發(fā)展前景的解決方案。
GPD-1:研發(fā)一個統(tǒng)一的生成式模型
在該篇論文中,研究人員介紹了GPD-1,一款旨在整合自動駕駛場景演變各個方面的模型。該框架采用標記來代表駕駛場景,其中包含自主車輛(ego vehicle)、代理和地圖元素。利用一個自回歸變壓器,該框架能夠按序處理此類標記,捕捉時間依賴性與空間關系,為駕駛場景提供強大的表示。此外,利用場景級注意力機制,可進一步促進幀內(nèi)各標記之間的細微互動。
為了編碼空間和時間信息,研究人員為自主車輛和代理標記研發(fā)了一款分層位置編碼器,融合了二維(2D)位置和朝向信息。對于地圖標記,采用矢量量化自動編碼器(VQ-VAE)將自主車輛為中心的語義地圖壓縮成離散標記,有效降低復雜度,同時保持空間精確度。此種創(chuàng)新設計讓GPD-1能夠在交通仿真、場景生成、閉環(huán)仿真、地圖預測和運動規(guī)劃等任務中進行歸納,無需額外微調(diào)。