商湯絕影亮相WAIC 2024,多(duō)模态大模型加速智能(néng)汽車(chē)駛入AGI時代

作(zuò)者: 張穎
發布于: 2024-07-06 20:56

作(zuò)為(wèi)加速智能(néng)汽車(chē)駛入AGI時代的戰略合作(zuò)夥伴,商湯絕影展示了可(kě)解釋、可(kě)交互的自動駕駛大模型DriveAGI,同時還發布了行業首個車(chē)載生成式交互界面——随心界面(FlexInterface)、随意操控(AgentFlow)等車(chē)載AI Agent應用(yòng)。此外,商湯絕影自動駕駛小(xiǎo)巴也亮相本屆WAIC,并成為(wèi)大會唯一承擔接駁任務(wù)的L4級别自動駕駛小(xiǎo)巴。

2024世界人工智能(néng)大會暨人工智能(néng)全球治理(lǐ)高級别會議(WAIC 2024)于7月4日-7月7日在上海舉行。商湯絕影攜多(duō)款基于全新(xīn)發布的商湯“日日新(xīn)5.5”原生多(duō)模态大模型打造的智能(néng)駕駛和智能(néng)座艙産品亮相本屆WAIC,引領“以人為(wèi)本”的智能(néng)汽車(chē)交互革新(xīn)。

在7月5日由WAIC 2024戰­略合作(zuò)夥伴商湯科(kē)技(jì )召開的“大愛無疆·向新(xīn)力”人工智能(néng)論壇上,商湯科(kē)技(jì )發布國(guó)内首個所見即所得模型“日日新(xīn)5o”,實時流式多(duō)模态交互體(tǐ)驗對标GPT-4o,展現采用(yòng)混合端雲協同專家架構的商湯“日日新(xīn)5.5”大模型的強大實力。商湯科(kē)技(jì )聯合創始人、首席科(kē)學(xué)家、絕影智能(néng)汽車(chē)事業群總裁王曉剛表示,“原生多(duō)模态大模型是打開AGI大門的鑰匙,商湯絕影正在激發AGI創造力,推動多(duō)模态大模型與智能(néng)汽車(chē)的深度融合,打造一系列全新(xīn)的車(chē)載智能(néng)化産品,加速智能(néng)汽車(chē)向超級智能(néng)體(tǐ)進化,引領一場‘以人為(wèi)本’的智能(néng)汽車(chē)交互的變革。”

王曉剛在“大愛無疆·向新(xīn)力”論壇分(fēn)享商湯絕影最新(xīn)的技(jì )術和産品進展

 

量産全面開花(huā)

作(zuò)為(wèi)加速智能(néng)汽車(chē)駛入AGI時代的戰略合作(zuò)夥伴,商湯絕影不隻是在大模型技(jì )術上領航新(xīn)時代,産品化量産落地也已經全面開花(huā)。

在智能(néng)座艙領域,商湯絕影的大模型産品已經在多(duō)家主流汽車(chē)制造企業的量産車(chē)型中得到廣泛應用(yòng)。例如,商湯的大模型已全面助力小(xiǎo)米SU7的小(xiǎo)愛語音助手車(chē)載語音場景應用(yòng)。

6月25日,翼真 L380正式上市,行業領先的最新(xīn)版本商湯“日日新(xīn)”大模型實現量産上車(chē),基于“商量”大語言模型和“秒(miǎo)畫”文(wén)生圖模型,商湯絕影為(wèi)翼真 L380定制化打造了“AI閑聊”、“美圖壁紙”、“童話繪本”、“AI問診”等AI大模型座艙産品和功能(néng),助力“陸地空客”升維智能(néng)座艙體(tǐ)驗。

在智能(néng)駕駛領域,商湯絕影的量産智駕産品已落地包括廣汽埃安(ān)LX Plus、合衆哪吒S、廣汽昊鉑GT、紅旗等品牌及車(chē)型,高速NOA等功能(néng)也開始落地,同時絕影還在推進更多(duō)車(chē)型交付,已具備了從感知到規控的全棧智駕技(jì )術量産交付能(néng)力。6月初,廣汽和一汽入選國(guó)内首批L3試點項目,商湯絕影為(wèi)他(tā)們提供面向L3的感知算法。不止如此,商湯絕影目前的多(duō)個量産智駕方案在未來均可(kě)升級為(wèi)端到端架構。

更高階的L4自動駕駛領域,商湯絕影自動駕駛小(xiǎo)巴成為(wèi)WAIC 2024唯一承擔接駁任務(wù)的L4級别自動駕駛小(xiǎo)巴,提供多(duō)個地點之間的需求響應式自動駕駛巴士出行體(tǐ)驗。

這背後是商湯絕影硬核的技(jì )術實力和強大的落地運營能(néng)力。目前,絕影L4級别的自動駕駛小(xiǎo)巴的測試與運營總裏程累計已超3,000,000公裏,并在江蘇無錫、陝西西鹹新(xīn)區(qū)等多(duō)地開展自動駕駛接駁服務(wù)。

在上海臨港,絕影L4級自動駕駛小(xiǎo)巴已經面向公衆進行日常運營。商湯絕影與上海臨港新(xīn)片區(qū)公共交通有限公司共同打造的智能(néng)網聯公交場景,采用(yòng)“響應式公交”模式按需響應,已實際投入的醫(yī)療專線(xiàn)和上海海洋大學(xué)專線(xiàn),預約乘坐(zuò)人數累計已超過16,000人次。

 

“以人為(wèi)本”,多(duō)模态大模型引領智能(néng)汽車(chē)交互革新(xīn)

多(duō)模态大模型能(néng)夠将語音、文(wén)字、圖像、手勢、視頻等各種模态進行高效且深度地融合,提供更加豐富且自然的人機交互體(tǐ)驗。

過去許多(duō)模型處理(lǐ)不同模态信息是先把語音等輸入轉化為(wèi)文(wén)字,文(wén)字和圖像結合進行分(fēn)析,輸出反饋也是先生成文(wén)字,根據文(wén)字再生成語音輸出,會有大量信息丢失和很(hěn)高的延遲。

由“日日新(xīn)5.5”體(tǐ)系支持的全新(xīn)商湯多(duō)模态大模型是一種端到端的模型,也就是文(wén)字、語音、視頻等模态一同輸入,模型統一處理(lǐ)後輸出相應模态的信息,相較于過去的方案,多(duō)模态融合的技(jì )術難度是幾何倍數的提升。

技(jì )術上的高難度是商湯行業領先的原生多(duō)模态能(néng)力的直接體(tǐ)現。今年4月發布的“日日新(xīn)5.0”是國(guó)内首個對标GPT-4 Turbo的國(guó)産大模型,“日日新(xīn)5.5”體(tǐ)系更是全面升級,數學(xué)推理(lǐ)、英文(wén)能(néng)力和指令跟随等能(néng)力明顯增強,交互效果和多(duō)項核心指标實現對标GPT-4o。

此前GPT-4o的發布為(wèi)消費者展示了多(duō)模态實時交互的方式,讓更多(duō)人領略多(duō)模态感知和交互的魅力,也開始幫助釋放多(duō)模态大模型的商業落地想象空間。

相較于手機,智能(néng)汽車(chē)才是更适合承載多(duō)模态大模型的落地場景。因為(wèi)智能(néng)汽車(chē)内外的各種攝像頭是常開的,用(yòng)戶可(kě)以實時跟汽車(chē)通過多(duō)模态的方式進行交互。同時,智能(néng)汽車(chē)的保有量不斷增加,能(néng)夠産生豐富的終端用(yòng)戶反饋和數據信息,讓模型不斷叠代成長(cháng)。

這些因素綜合展現了一個令人激動的未來智能(néng)汽車(chē)發展方向:從智能(néng)汽車(chē)正在進化為(wèi)超級智能(néng)體(tǐ),多(duō)模态大模型則是這一進程的核心驅動力。

和OpenAI等公司相比,商湯絕影是智能(néng)汽車(chē)的核心供應商,在智能(néng)駕駛和智能(néng)座艙領域具備豐富的量産經驗,将以多(duō)模态大模型為(wèi)核心加速“以人為(wèi)本”的智能(néng)汽車(chē)交互革新(xīn)。

智能(néng)汽車(chē)的人機交互正在從“以車(chē)為(wèi)中心”向“以人為(wèi)中心”轉型。在這個轉型中,現階段用(yòng)戶仍需用(yòng)文(wén)本或語音給智能(néng)汽車(chē)提供信息和數據以獲取被動式的服務(wù),其他(tā)的信息都丢失了,尚未真正做到主動服務(wù)用(yòng)戶。商湯絕­影正在用(yòng)多(duō)模态大模型打造真·“以人為(wèi)中心”的智能(néng)汽車(chē)交互方式,這種交互覆蓋了座艙、汽車(chē)周邊的環境,讓有關于“人”的信息不會被忽視,甚至它還突破了空間的限制,實現艙内用(yòng)戶與更廣闊的物(wù)理(lǐ)和數字世界的聯接。

商湯絕影在行業率先實現原生多(duō)模态大模型的車(chē)端部署

商湯絕影車(chē)載端側8B多(duō)模态模型性能(néng)行業領先

車(chē)端模型部署能(néng)力是智能(néng)汽車(chē)交互革新(xīn)不可(kě)或缺的技(jì )術保障,商湯絕影能(néng)夠以雲側、端雲結合、端側等全棧方式靈活部署多(duō)模态大模型,讓商湯原生多(duō)模态能(néng)力能(néng)夠快速落地智能(néng)汽車(chē)。

在本屆WAIC上,商湯絕影在行業率先實現原生多(duō)模态大模型的車(chē)端部署,并對外展示了在3個不同算力平台上運行2.1B或8B端側多(duō)模态大模型的适配能(néng)力。相較于動辄就有幾秒(miǎo)鍾延遲的雲上部署方案,商湯絕影車(chē)載端側8B多(duō)模态模型可(kě)以實現首包延遲低至300毫秒(miǎo)以内,推理(lǐ)速度40Tokens/秒(miǎo),為(wèi)“以人為(wèi)本”的智能(néng)汽車(chē)交互革新(xīn)保駕護航。

 

DriveAGI可(kě)解釋、可(kě)交互,多(duō)模态讓端到端智駕安(ān)全可(kě)信賴

2022年底,商湯及其聯合實驗室提出了行業首個感知決策一體(tǐ)化自動駕駛通用(yòng)模型UniAD,并在次年榮獲2023年國(guó)際計算機視覺與模式識别會議(CVPR)最佳論文(wén),今年北京車(chē)展,商湯絕影展示了UniAD的實車(chē)上路成果,持續引領端到端自動駕駛的創新(xīn)潮流。

北京車(chē)展以來,UniAD穩步前行,通過持續的數據采集、真值生産、模型訓練、實車(chē)測試,UniAD系統穩定性大幅增強,體(tǐ)驗連續性和舒适性不斷提升。在本屆WAIC上,商湯絕影展示了隻搭載7個攝像頭的UniAD,在無圖情況下實現城區(qū)複雜道路、鄉村小(xiǎo)路等場景一鏡到底的實車(chē)演示,端到端智駕模型持續叠代進化。

UniAD顯著提升了智駕系統的駕駛能(néng)力,但純粹的端到端自動駕駛模型不是自動駕駛的最終答(dá)案,進一步具備對開放世界的感知、推理(lǐ)、決策及交互能(néng)力,将是智能(néng)汽車(chē)走向超級智能(néng)體(tǐ)的重要标志(zhì)。因此,商湯絕影開創性地研發了首個應用(yòng)于駕駛決策規劃的智駕大模型,即基于多(duō)模态大模型打造的DriveAGI,讓端到端智駕可(kě)解釋、可(kě)交互。

DriveAGI增強了端到端系統的可(kě)解釋性,不僅讓車(chē)輛能(néng)夠更像人一樣理(lǐ)解複雜的現實世界,洞察各類交通參與者的行為(wèi)動機,快速學(xué)習各種交通規則,掌握瞬息萬變的道路信息,還能(néng)向用(yòng)戶解釋駕駛決策的推理(lǐ)過程。

目前,商湯絕影DriveAGI智駕大模型能(néng)在無限寬标識的道路上,安(ān)全順利穿過兩個石墩形成的狹窄通道;它還能(néng)準确辨識并理(lǐ)解包括公交車(chē)道、潮汐車(chē)道及施工車(chē)道等各類交通标識,并自主進行變道或規避,甚至當後方有救護車(chē)接近時,DriveAGI會進行思考推理(lǐ),最終進行及時變道避讓。

多(duō)模态大模型還賦予了DriveAGI強大的可(kě)交互性,用(yòng)戶不僅可(kě)以通過問詢讓DriveAGI解釋自己的決策過程,還能(néng)通過語音或手勢指令來控制自動駕駛行為(wèi)。例如,未來在自動駕駛狀态下,導航指示車(chē)輛需在下個路口調頭以抵達目的地,但駕駛員知曉可(kě)在前方有近路可(kě)以直接轉彎,那麽他(tā)隻需對系統說出“直接左拐”,系統便會根據當前路況來執行這一指令。

UniAD和DriveAGI智駕大模型的驚豔表現依賴于商湯絕影強大的模型能(néng)力,同時也需要大量的高質(zhì)量數據支持學(xué)習和訓練。作(zuò)為(wèi)新(xīn)質(zhì)生産力,以多(duō)模态為(wèi)代表的大模型極大提高了端到端智駕訓練、叠代的生産效率。

以真實的多(duō)模态數據為(wèi)基礎,商湯絕影的世界模型、交通流仿真大模型等一系列雲端大模型源源不斷生産出高質(zhì)量數據,同時通過各個大模型之間相互協同,實現場景生産、交通流仿真、真值生産、系統診斷等能(néng)力,打造出智駕大模型時代的端到端數據閉環,為(wèi)端到端自動駕駛方案的落地與進化提供有力的保障。

 

多(duō)模态融入智能(néng)座艙,讓智能(néng)汽車(chē)成為(wèi)用(yòng)戶的專屬“賈維斯”

今天的智能(néng)汽車(chē)配備了豐富且強大的硬件,能(néng)夠為(wèi)用(yòng)戶打造一個獨立的交互環境,它是AGI落地的最佳場景。面向智能(néng)座艙,商湯絕影充分(fēn)釋放多(duō)模态大模型強大感知和交互能(néng)力,激發更多(duō)想象空間。

依靠行業領先的多(duō)模态能(néng)力,商湯絕影正在打造多(duō)模态大模型引擎産品——座艙大腦(CockpitBrain),構建一系列AI大模型座艙産品矩陣,讓鋼鐵俠的人工智能(néng)幫手賈維斯走進智能(néng)汽車(chē),成為(wèi)每一個用(yòng)戶的AI出行夥伴。

在本屆 WAIC上,商湯絕影正式發布行業首個生成式交互界面産品“随心界面”(FlexInterface)以及“随意操控”(AgentFlow)等多(duō)個車(chē)載 AI Agent,旨在通過AI技(jì )術,徹底改變用(yòng)戶與車(chē)載系統的交互方式。

依托于 AI 大模型的即時生成和修改交互界面的能(néng)力,FlexInterface在大模型解析用(yòng)戶需求的基礎上,結合設計系統的框架和範式,實現高度動态和個性化的界面生成。無論是天氣、時間、節日、紀念日,還是周圍環境變化,FlexInterface 都能(néng)自動變換界面風格,提供最佳用(yòng)戶體(tǐ)驗。

AgentFlow通過大模型的推理(lǐ)能(néng)力,模拟人類點擊操作(zuò),實現對APP和網站的直接操作(zuò)。用(yòng)戶隻需使用(yòng)自然語言,就能(néng)讓AI自主選擇多(duō)個工具完成複雜任務(wù),無需主機廠進行額外的研發适配。這種能(néng)力不僅提升了操作(zuò)的便捷性,還極大地擴展了車(chē)載系統的功能(néng)範圍。例如,用(yòng)戶能(néng)讓AgentFlow自動搜索并預約适合看球的酒吧,提供從搜索到預訂的一站式服務(wù)。

在商湯絕影的現場演示中,用(yòng)戶通過FlexInterface生成了一個“歐洲杯”風格的主題,大模型自動生成具備歐洲杯元素的中控屏幕桌面和圖标;同時,用(yòng)戶還能(néng)通過AgentFlow随時播放歐洲杯或足球相關的音樂,展示了這些創新(xīn)産品在實際應用(yòng)中的強大能(néng)力和靈活性。

FlexInterface通過大模型生成的“歐洲杯”主題的車(chē)載界面

除此之外,本屆WAIC上,商湯絕影在傳統智能(néng)汽車(chē)“哨兵模式”的基礎上打造了“多(duō)模态哨兵”, 能(néng)夠全面理(lǐ)解并應對開放世界中可(kě)能(néng)對車(chē)輛造成損害的各種潛在随機危險行為(wèi),諸如劃車(chē)、噴塗車(chē)身、拍打砸車(chē)、拉拽門把手、撬門以及踹車(chē)等,确保車(chē)輛安(ān)全無死角。

在多(duō)模态大模型的助力下,商湯絕影将讓智能(néng)汽車(chē)成為(wèi)用(yòng)戶的專屬賈維斯,讓智能(néng)汽車(chē)向着超級智能(néng)體(tǐ)的形态又邁進了一步。

商湯絕影的大模型産品正在融入智能(néng)汽車(chē)和智慧出行的方方面面,開辟全新(xīn)的出行範式,加速智能(néng)汽車(chē)駛入AGI時代。

 

推薦文(wén)章