亚州A级片,深夜福利日韩,欧洲综合色,狠狠操美女,性免费视频一级片,日韩免费一级裸体视频在线观看,五月丁香综合网站婷婷

當前位置: 首頁 » 資訊 » 芯智駕 » 芯片 » 正文

MIT與英偉達合作研發(fā)AI模型工具 可減少計算資源生成圖像

放大字體  縮小字體 發(fā)布日期:2025-03-28  作者:鑫欏資訊
摘要:快速生成高質(zhì)量圖片的能力對于打造逼真的模擬環(huán)境至關(guān)重要,而且此類環(huán)境可用于訓練自動駕駛汽車避開不可預測的危險,從而提升其在真實道路場景中的安全性。然而,目前生成式人工智能技術(shù)越來越多地被用于生成此...
快速生成高質(zhì)量圖片的能力對于打造逼真的模擬環(huán)境至關(guān)重要,而且此類環(huán)境可用于訓練自動駕駛汽車避開不可預測的危險,從而提升其在真實道路場景中的安全性。然而,目前生成式人工智能技術(shù)越來越多地被用于生成此類圖像,不過此類技術(shù)存在缺陷。例如,一種十分流行的模型類別——擴散模型,就可以生成極其逼真的圖像,但是其對于很多應用而言,速度慢且需要大量的計算資源。另一方面,驅(qū)動ChatGPT等大型語言模型(LLM)的自回歸模型雖然速度更快,但是生成的圖像質(zhì)量較低,而且常常有很多錯誤。

據(jù)外媒報道,在此背景下,美國麻省理工學院(MIT)與英偉達公司(NVIDIA)的研究人員研發(fā)了一種新方法,成功將上述兩種方法的優(yōu)勢結(jié)合起來。此種混合圖像生成工具采用自回歸模型,快速捕捉整體畫面,然后運用小型擴散模型,對圖像進行細節(jié)優(yōu)化。該款工具名為HART(hybrid autoregressive transformer,混合自回歸轉(zhuǎn)換器的縮寫),能夠生成與當前最先進的擴散模型所生成的圖像,質(zhì)量相當甚至更優(yōu)的圖像,同時速度提升了九倍。

 

MIT與英偉達合作研發(fā)AI模型工具 可更快且以更少計算資源生成逼真圖像

 

 

AI工具生成逼真圖像(圖片來源:MIT)

HART生成圖像的過程所消耗的計算資源較典型擴散模型更少,因而使其能夠在商用筆記本電腦或智能手機上本地運行。用戶只需在HART界面輸入自然語言提示,即可生成圖像。HART可能具有廣泛的應用前景,例如幫助研究人員訓練機器人,以完成復雜的真實世界任務;協(xié)助設計師為視頻游戲打造更具吸引力的場景。

兩全其美

Stable Diffusion和DALL-E等流行的擴散模型能夠生成高度細節(jié)化的圖像。此類模型通過迭代過程生成圖像,在此過程中,此類模型會對每個像素預測一定量的隨機噪聲,然后減去噪聲,之后預測過程與“去噪”過程會被重復多次,直至生成一張完全無噪聲的新圖像。

由于擴散模型在每一步均需對圖像中的所有像素執(zhí)行去噪操作,并且該過程可能包括30步或更多步驟,因此整體過程可能會比較緩慢且計算成本高昂。但是,因為該模型有多次機會修正之前出錯的細節(jié),因此生成的圖像質(zhì)量會很高。

自回歸模型在文本預測任務中得到了廣泛應用,并且可通過依次預測圖像塊(每次多個像素)生成圖像。盡管該模型無法回溯以修正錯誤,但是此種順序預測過程比擴散模型速度快得多。

此類模型采用稱作標記(tokens)的表現(xiàn)形式來進行預測。自回歸模型采用自動編碼器將原始圖像像素壓縮為離散標記,并基于此類預測標記重建圖像。盡管此種方法提升了模型的速度,但是壓縮過程中發(fā)生的信息丟失可能會導致模型在生成新圖像時出現(xiàn)錯誤。

借助HART,研究人員研發(fā)了一種混合方法,運用自回歸模型來預測壓縮的離散圖像標記,再運營小型擴散模型來預測殘差標記。其中,殘差標記能夠捕捉離散標記遺漏的細節(jié)信息,補償模型丟失的信息。

由于擴散模型只能預測自回歸模型完成工作后的剩余細節(jié),因此其可在八個步驟內(nèi)完成任務。相比之下,標準擴散模型通常需要30個或者更多步驟來生成完整的圖像。此種額外引入的擴散模型以極低的計算量保留了自回歸模型的速度優(yōu)勢,同時大幅提升其生成復雜圖像細節(jié)的能力。

在研發(fā)HART的過程中,研究人員在高效整合擴散模型以增強自回歸模型方面遇到了挑戰(zhàn)。但是他們發(fā)現(xiàn),在自回歸過程的早期集成擴散模型會導致誤差累積。因此,最終的設計僅在最后一步應用了擴散模型,以預測剩余標記,從而顯著提升了圖像生成的質(zhì)量。

研究人員的方法結(jié)合了含有7億參數(shù)的自回歸轉(zhuǎn)換器模型和含有3700萬參數(shù)的輕量級擴散模型,能夠生成與擁有20億參數(shù)的擴散模型同等質(zhì)量的圖像,但是速度卻快了九倍。此外,其計算量比最先進的模型少約31%。

此外,由于HART采用自回歸模型(與驅(qū)動LLM的模型一樣)來完成大量工作,因此其更易與新型統(tǒng)一視覺-語言生成式模型集成在一起。未來,人們或許能夠與統(tǒng)一視覺-語言生成式模型互動,例如要求其展示組裝一件家具所需的中間步驟。

展望未來,研究人員希望能夠繼續(xù)研究,基于HART架構(gòu)打造視覺-語言模型。由于HART具有可擴展性以及多模態(tài)通用性,因此研究人員還希望將其應用于視頻生成和音頻預測任務。

 
關(guān)于我們:ICC鑫欏資訊成立于2010年,主要服務于炭素、鋰電、電爐鋼3大行業(yè),是中國領先的專業(yè)產(chǎn)業(yè)研究和顧問公司。鑫欏資訊以研究為中心,提供媒體資訊、研究咨詢、數(shù)據(jù)庫和市場營銷等解決方案。
鑫欏鋰電專注于鋰電池原材料、鋰電池及其下游等相關(guān)產(chǎn)業(yè)鏈跟蹤,對市場價格、行情動態(tài)等資訊的搜集與研究,常年跟蹤行業(yè)內(nèi)400多家生產(chǎn)企業(yè),擁有完善的產(chǎn)業(yè)數(shù)據(jù)庫。根據(jù)企業(yè)需求提供定制報告,為企業(yè)提供專業(yè)化服務。
鑫欏鋰電以研究為中心,服務于行業(yè)企業(yè)、金融機構(gòu)(一二級市場私募基金/券商/銀行等)、高校/科研院所、政府等,為客戶提供的獨特洞見、分析和資源,幫助客戶高效決策,以實現(xiàn)高質(zhì)量的業(yè)務增長。

[ 資訊搜索 ]  [ 加入收藏 ]  [ 告訴好友 ]  [ 打印本文 ]  [ 關(guān)閉窗口 ]

 

 
資訊瀏覽
市場報價
 
聯(lián)系我們
| 版權(quán)隱私 | 使用協(xié)議 | 網(wǎng)站服務 | 聯(lián)系方式 | 關(guān)于我們
電話:021-50184981   電子郵箱:service@iccsino.com   地址:上海市浦東新區(qū)商城路506號新梅聯(lián)合廣場B座21樓D  郵編:200122  滬ICP備2022024271號-1