2024成都車展期間,有一場針對理想汽車智駕研發(fā)團(tuán)隊的圓桌訪問,受訪者為理想汽車智能駕駛研發(fā)副總裁郎咸朋和理想汽車智能駕駛高級算法專家詹錕。2個小時時間里,與會記 者和受訪者貢獻(xiàn)了一場坦率、專業(yè)的對話,不僅討論了理想汽車對智能駕駛的核心認(rèn)知,也討論了智能駕駛和人工智能的前景。
本文根據(jù)訪談記錄做的整理,為便于讀者理解,重新做了段落梳理,刪減了小部分冗余內(nèi)容。全文較長,且有許多專有名詞和新概念,但對于關(guān)心智駕的讀者來說,這是一篇有價值的訪談。從中不僅可以看到智駕領(lǐng)域正在展開的激動人心的探索,也可以看到理想汽車這家公司的價值觀和方法論。
理想汽車智能駕駛研發(fā)副總裁 郎咸朋 理想汽車智能駕駛高級算法專家 詹錕
端到端之爭:1和2的區(qū)別到底是啥?
Q1:One Model端到端是如何實現(xiàn)的?相比其他的分段式端到端的區(qū)別?
詹錕:我們是傳感器的輸入做編碼,然后交給統(tǒng)一的Transformer Decoder網(wǎng)絡(luò)做輸出。它的輸出分為幾個維度,一個是感知信息的輸出,感知信息可以用來做顯示,跟駕駛員做交互。另一個是輔助監(jiān)督,讓這個模型收斂得更快。
另一個更重要的就是直接輸出的軌跡,我們這個軌跡交給了一個控制模塊,控制模塊會做安全校驗,最后轉(zhuǎn)成油門開度、方向盤轉(zhuǎn)角,最后輸出出來。整個模型架構(gòu)其實非常簡單,不是特別復(fù)雜的架構(gòu),而是一個非常簡潔清晰的架構(gòu)。我們更多是通過數(shù)據(jù),通過配比,通過訓(xùn)練策略調(diào)整One Model端到端的效果。
郎咸朋:相比其他的分段式、分模塊最大的優(yōu)點是模型在進(jìn)行推理的時候所有的信息是一手信息。如果是分段式的,上游是個感知,下游是個規(guī)劃,最終車開的好不好還是要看規(guī)劃,規(guī)劃來的信息不是一手的,感知如果出了問題,規(guī)劃拿到的信息可能就是有瑕疵的,或者有錯誤的。模型就算訓(xùn)練的再好,輸入不好,規(guī)劃還是會存在問題,這是最大的區(qū)別。
One Model有沒有它的問題呢?有,它的訓(xùn)練難度非常大。來的是原生數(shù)據(jù),出來的是些軌跡線,這樣一聽就感覺不太好訓(xùn)練。第二就是數(shù)據(jù)。理想有非常好的訓(xùn)練數(shù)據(jù),我們有非常多的視頻訓(xùn)練片段,我們有22億公里訓(xùn)練數(shù)據(jù),今年年底將達(dá)到30億公里,但是30億公里不會都用來訓(xùn)練。因為我們會挑選那些老司機(jī)的數(shù)據(jù),就是開的好的,什么叫開的好?我們有幾個維度,比如他平時的駕駛習(xí)慣,是不是總是急加速、急減速,包括總是開出AEB來,這種數(shù)據(jù)肯定我們就不要了。我們給每個司機(jī)都打了分,現(xiàn)在理想90萬車主,大概有3%的司機(jī),可以被我們評價成老司機(jī)。也就是說22億公里里邊我們能拿來訓(xùn)練的是優(yōu)中選優(yōu)的一些數(shù)據(jù),但其他的企業(yè)我不知道他們有沒有這些數(shù)據(jù)可以選,甚至有沒有這些數(shù)據(jù),這種情況下要訓(xùn)練的話,分段式或者模塊化是更好的選擇。
詹錕:分段式和One Model的區(qū)別我再補(bǔ)充一個比較形象的例子。因為分段式重點是中間要傳出一個信息給下游規(guī)劃這個模型,它傳出的信息一定是有損的,因為我要對中間信息做一個設(shè)計。比如說這個車的3D位置,它的朝向、它的偏向轉(zhuǎn)角在哪里,我要給它一個結(jié)構(gòu)化信息的描述,但是這樣的描述一定是有損的,因為這是加了人類先驗信息的。比如它是一個渣土車,渣土車在掉渣和沒掉渣對于駕駛來說會有明顯的不同。但是在分段式里面很有可能把這些信息丟掉了,只有完全One Model,才能把這種隱晦的信息徹底理解,才讓車駕駛的更像老司機(jī)。分段式的是Two Model,會導(dǎo)致中間的信號是有損的,這個有損信號和無損信號比,規(guī)劃不能給出很好的決策。
Q2:One Model模型怎么優(yōu)化?只能靠優(yōu)質(zhì)數(shù)據(jù)嗎?系統(tǒng)本身是否會有調(diào)整?
詹錕:我們現(xiàn)在用數(shù)據(jù)大幅訓(xùn)練模型。微博上有人總結(jié)我們?nèi)齻€版號的含義。第一個版號是數(shù)據(jù),1表示100 萬量級的clips;2表示200萬的clips。第二個版本號是模型結(jié)構(gòu)。所以優(yōu)化不只是依靠數(shù)據(jù),模型結(jié)構(gòu)也很重要,里面有各種細(xì)分類型,比如Cross Attention、Self Attention,我們在這方面會做各種各樣的設(shè)計和實驗,所以第二個版號有各種變化。訓(xùn)練策略也會發(fā)生變化,模型訓(xùn)練一遍就結(jié)束,還是訓(xùn)練一遍以后把重點那點挑出來,再重新訓(xùn)練一遍?還是先訓(xùn)練一部分,再做精選數(shù)據(jù)的訓(xùn)練。這些都是在大模型訓(xùn)練過程中,我們逐漸積累的經(jīng)驗,肯定不是僅用數(shù)據(jù)來迭代。
端到端、VLM和世界模型的關(guān)系?
Q3:大家頻繁的把世界模型引入到自動駕駛,但大家的理解都不一樣,想了解理想對這個模型定義是什么?以及和系統(tǒng)1、系統(tǒng) 2 是怎么去配合?世界模型的上限像人類認(rèn)知世界,難度很高,那在自動駕駛領(lǐng)域怎么去定義?
詹錕:大家對世界模型的說法、理解和概念都有很大的差異,就和端到端一樣。世界模型最早來自諾貝爾圖靈獎獲得者楊立昆,他提出這個模型意思是,在這個模型中能夠想象未來會發(fā)生什么,即我對物理世界有個虛擬的抽象,根據(jù)現(xiàn)象可以知道未來會做什么事情。
對我們來說,是想把世界模型用在自動駕駛中,我們的世界模型主要是用來做一個完整的驗證系統(tǒng)。這就是對未來的抽象,我們把所有路上遇到的場景和未來可能會發(fā)生的交互,甚至各種危險情況,都模擬在了一個模型里。
這個模型會對我當(dāng)前所有的行為做出下一刻的預(yù)判,這樣的預(yù)判可以幫助我們驗證這個模型是不是對的。所以我們想把模型用在我們整個自動駕駛校驗系統(tǒng)上,這也是我們做這個世界模型的初衷。對于我們來說,我們想把世界模型在云端驗證系統(tǒng)上用的更高效,系統(tǒng)1、系統(tǒng)2其實是在做驗證、做校驗。系統(tǒng)1和系統(tǒng) 2 是一個超級大的模型,它的校驗是最重要的一個環(huán)節(jié)。衡量標(biāo)準(zhǔn)就是,看你校驗是不是準(zhǔn),是不是快。
郎咸朋:世界模型對系統(tǒng)1和系統(tǒng) 2 來說,最大作用是提供一個訓(xùn)練和測試的場地。原來是這個場地放在真實的世界里面,我們把世界弄到模型。在世界模型里,我們的測試、錯題、真題,都在這個世界模型中進(jìn)行訓(xùn)練。
Q4:端到端+VLM兩個系統(tǒng)怎么配合?未來的發(fā)展是什么樣的?
詹錕:VLM在車上類似于GPT,各個系統(tǒng)模塊都會找它問問題,車機(jī)會問它,有個高架橋是不是要在橋下走?如果不是的話VLM可以跟車機(jī)進(jìn)行交互,輸出軌跡進(jìn)行切換。端到端問它當(dāng)前在這個路口走到了左轉(zhuǎn)人行道上,能不能沿左轉(zhuǎn)走,還是違背路徑,沿著其他方向走,這種復(fù)雜路況VLM都需要做判斷。各個模塊會問VLM,同時VLM也會自己判斷情況,比如遇到比較復(fù)雜的路況,如施工坑洼等,VLM會主動給端到端系統(tǒng)發(fā)信號,端到端收到減速信號,或者是一個注意安全的信號,會把文字信息會變成一個embedding,就是把它變成一個特征向量編碼,放到端到端模型里,最后端到端模型對應(yīng)采取減速策略或者避讓策略,輸出軌跡。
同時還有一些情況,比如我們告訴端到端這個地方是公交車道不能走,那端到端在輸出軌跡的時候就不會向公交車道這個方向去。通過各種語言文本信號的配合,讓端到端能聽懂VLM的相關(guān)建議值。
VLM 相當(dāng)于教練一樣,旁邊有個這樣的司機(jī)告訴你,這里要注意車輛減速,車輛預(yù)判駕駛,但具體怎么踩剎車,這個會讓端到端去判斷,但是VLM會給出相關(guān)的建議,甚至踩剎車程度的建議也會給。
Q5:現(xiàn)在端到端在不同城市的表現(xiàn)不一樣,會針對不同城市來做不同模型嗎?還是說會在一個模型上不斷地去調(diào)優(yōu)?
詹錕:首先,模型在不同城市有不同表現(xiàn),這并不代表我們要對不同城市下發(fā)不同模型,讓模型獲得不一樣的錯題。而是說在世界模型的評測體系下,能夠精準(zhǔn)地知道這個模型在不同城市是什么表現(xiàn),便于我們對其做有針對性的分析。
比如在過去的Case里,杭州和廣州偏弱,那么對應(yīng)補(bǔ)足杭州、廣州的一些特定場景,加入訓(xùn)練數(shù)據(jù)中,放到模型中,讓模型有全面的提升,所以模型迭代的過程并不是盲目的。如果我們不知道產(chǎn)品在不同城市的表現(xiàn),我們就會盲目地尋找全國各地的數(shù)據(jù),最后實車體驗時用戶發(fā)現(xiàn)杭州還是不行。這樣的結(jié)果就是迭代效率非常低,訓(xùn)練數(shù)據(jù)量增加并沒有效果,這就是大家都在說的大模型需要高質(zhì)量數(shù)據(jù)。有精準(zhǔn)的評測才能提高質(zhì)量,而不是盲目增加數(shù)據(jù)量。
不同城市不同模型的效果其實是我們非常好的一個特點,能知道很細(xì)節(jié)的評測維度,不同模型我們有很多維度。在不同城市,還能知道它更細(xì)分的情況,讓我們更有針對性。比如是不是因為廣州的高架橋特別復(fù)雜,是不是杭州的可變車道特別復(fù)雜才導(dǎo)致端到端的表現(xiàn)不如其他城市,我們是通過這種方式迭代我們的智能駕駛。最終,我們肯定最后會把一個在全國都非常均衡的智能駕駛推送給用戶。
Q6:大家都在探索自動駕駛,目前沒有一個共識方案。所以理想端到端+VLM進(jìn)入市場的同時,還會不會有其他探索?關(guān)于智能駕駛的短期目標(biāo),或者最終目標(biāo)是怎么樣?
詹錕:第一個事實是,大家都在研發(fā)階段、嘗試階段,我們之所以敢把目前的版本推送給用戶,是因為我們覺得可以類比CNN(卷積神經(jīng)網(wǎng)絡(luò))時期,當(dāng)時因為一個競賽,CNN的性能優(yōu)化了10%左右,性能和安全體驗得到了大幅提升。
第二個事實是,在這個過程當(dāng)中,不同數(shù)據(jù)、不同的模型結(jié)構(gòu)、不同的訓(xùn)練方法,對模型的迭代都有幫助。這其實是各家都在做的一個關(guān)鍵,解決數(shù)據(jù)和訓(xùn)練算力的基礎(chǔ)問題之后,我相信我們,包括特斯拉都能成功煉丹。但是煉丹第一步就是得有原材料,當(dāng)原材料得到解決,煉丹的比例調(diào)整好,這個丹的作用才大。
類似于以前煉火藥,按照一硝二磺三木炭的比例來,火藥的威力就大,如果1:1:1做出來的就是“呲花”,這就是各家在迭代過程當(dāng)中的一些技術(shù)訣竅。我們和用戶共同成長,所以我們也需要知道每一套模型實際的表現(xiàn)如何,我們內(nèi)部有自己的測試,如果表現(xiàn)不好就會內(nèi)部消化,這種模型就不讓去用戶使用,但是每當(dāng)模型有迭代、有提升的時候,我們都會拿給用戶去進(jìn)行測試、驗證,這是我們研發(fā)過程當(dāng)中的一些迭代。
關(guān)于下一代方案,不知道大家有沒有看上周智元的發(fā)布會,智元展示了G1到G5的具身智能過程。其實我們內(nèi)部也有自動駕駛整個研發(fā)過程的階段,我認(rèn)為在現(xiàn)階段,無論是對于理想汽車來說,還是對于特斯拉來說,其實都是在向雙系統(tǒng)方向發(fā)展。
所以端到端肯定是一個非常好的階段,我們認(rèn)為已經(jīng)達(dá)到了L3。我們想進(jìn)一步向L4發(fā)展,其實就是需要端到端+VLM雙系統(tǒng),我們認(rèn)為這是面向L4的一個終局方案。那再往后,L4不是終局的話,我們還有L5,像智元發(fā)布的G5一樣,我們肯定還會有一體化的、超大規(guī)模的統(tǒng)一模型,像GPT-4o模型。未來,肯定要把兩個模型合在一起,實現(xiàn)手腦完全結(jié)合的大模型方案,這是我們之后要嘗試,要探索的東西。
端到端以后,怎么解決安全問題?
Q7:目前所有的車企能夠量產(chǎn)車型都是L2級輔助駕駛,理想汽車端到端+VLM怎么保證保證智駕的安全?
郎咸朋:從流程上來講,內(nèi)部主要研發(fā)流程分為產(chǎn)品交付研發(fā)流程以及智能AI的研發(fā)流程,兩個流程相互配合。
端到端+VLM這套技術(shù)系統(tǒng)在一個月的測試過程中,雖然開啟城市NOA功能始終是通過撥兩次方向盤桿,實現(xiàn)從A點到B點的智能駕駛,但是模型迭代的能力卻在不斷提升。在模型迭代的時候,整個功能跟原來完全一樣,所以這個功能之前做的測試仍然有效。對于這個能力的表現(xiàn),我們用生成和重建的方式做模型的泛化測試和檢驗,比實車在全中國駕駛測試好得多。這是我們在 AI 時代到來之后,對于產(chǎn)品研發(fā)的深度思考,從而帶來的研發(fā)變化。
安全另外一層含義就是:怎么能在產(chǎn)品交付之前,做更多更有效的測試。如果用實車做測試,一方面是成本,另一方面是是測試效果可能達(dá)不到交付有監(jiān)督自動駕駛的程度,特別是當(dāng)模型迭代比較迅速的時候。
我們現(xiàn)在用Diffusion Transformer技術(shù),再加上3DGS技術(shù),能夠把曾經(jīng)遇到過錯題以及遇到過的場景,舉一反三地形成模擬題,實現(xiàn)不斷地測試模型能力,不斷地優(yōu)化各個城市表現(xiàn)。
我們在每一個維度上都有非常嚴(yán)格的打分,比如安全、法律法規(guī)等維度。如果不安全、不合規(guī),模型就不能交付給用戶?,F(xiàn)在在千人團(tuán)內(nèi)測階段,還沒有到量產(chǎn)階段,所以在安全、合規(guī)方面的要求會更加嚴(yán)格,確保我們的產(chǎn)品是一個安全可靠的產(chǎn)品。
詹錕:我從技術(shù)角度來說,我們有安全兜底模塊,甚至有些東西我們會保證它有絕對的下限。以前寫了很多規(guī)則應(yīng)對不同的場景,但是現(xiàn)在只需要寫下限的規(guī)則,上限全靠端的端 、VLM去捕捉,甚至有些防御性駕駛,VLM都可以提前告訴系統(tǒng),比如丁字路口、坑洼小路等,這些都在一定程度上提升了系統(tǒng)安全性。無論是數(shù)據(jù)還是算法,都是在把安全性往上提升。并不是大家說的那樣,用端到端了安全就差了,這是針對設(shè)計不完善的一種想法。
另外,AEB/AES 其實是在最極端的情況下,最兜底的一種保證絕對安全的方式。這就是用算法、冗余一起來解決安全問題。
Q8:現(xiàn)在從生成到輸出,對于傳感器包括數(shù)據(jù)需要有一些質(zhì)量監(jiān)測,這個過程中如果出現(xiàn)惡意攻擊,甚至說出現(xiàn)各種故障,這種情況理想汽車怎么解決這數(shù)據(jù)安全的問題?
詹錕:面對數(shù)據(jù)被污染或者傳感器遭受惡意攻擊,以及對神經(jīng)網(wǎng)絡(luò)進(jìn)行對抗性破壞,我們已經(jīng)將這種情況涵蓋到整個網(wǎng)絡(luò)訓(xùn)練過程中。
模型訓(xùn)練并不是針對單一的傳感器,比如一個傳感器損壞,我們能夠通過BEV解決。即使在雨天某個傳感器臟污的很厲害,我們依然能穩(wěn)健駕駛,同時能給用戶對應(yīng)提醒,會告訴你找個安全的地方停車,不會讓系統(tǒng)直接失效。
因為有Radar、Lidar等多個傳感器,各個傳感器在不同環(huán)境下能冗余互補(bǔ),單一的攻擊很難起效,這就是為什么很難有單一的攻擊策略能讓智駕系統(tǒng)失效,因為在技術(shù)上做了很多防護(hù)。
算法、算力和數(shù)據(jù)的關(guān)系?
Q9:目前,理想AD Max由兩顆OrinX來支撐現(xiàn)在測試的能力開發(fā),端到端方案對車端算力的要求是什么樣的?未來隨著Thor上車端到端會不會變得更加強(qiáng)大?算法、算力和數(shù)據(jù)究竟是個什么樣的關(guān)系?
詹錕:各家在使用算法的時候,都會跟自己的硬件做匹配,無論是用地平線方案,還是Orin方案。雙OrinX可以完美適配我們的雙系統(tǒng)方案,如果要給出一個固定的上限,不是很好直接預(yù)測或配置。但是我們可以知道,隨著算力增加,整個能力是一個非常線性的增加,包括特斯拉也證明了12.5版本比12.3提升了五倍,這也完美符合這種大模型的Scaling Law。
對我們來說,到Thor階段我們肯定會有一個更大規(guī)模數(shù)據(jù)量訓(xùn)練的端到端大模型,效果會進(jìn)一步提升。我們可以看到它的趨勢,我們會基于芯片對它進(jìn)行相關(guān)算法的定制化調(diào)整;同時模型規(guī)模越來越大,最后產(chǎn)出的端到端效果會越來越好。
另外,其實也可以看到特斯拉現(xiàn)在正在宣傳2026年要做一個AI5的芯片,大概有3,000到4,000TOPS的水平,這個階段是他在做Robotaxi的一個想法。我們也在持續(xù)關(guān)注高算力的車端芯片的性能。
郎咸朋:我補(bǔ)充一點,Thor芯片上車后,因為它的算力比現(xiàn)在OrinX又大了很多,那么我們會在Thor上更多地發(fā)展我們系統(tǒng)化VLM的模型能力。端到端模型我們認(rèn)為是比較吃算力的,但是它使用算力的上限比VLM少很多,而且它有一定的上限,要1,000萬clips,訓(xùn)練這樣一個模型所需要的參數(shù)量非常大。所以在向L4發(fā)展過程中,整個系統(tǒng)需要讓它具備更好地應(yīng)對未知場景的能力,而未知場景能力的提升,需要提升的是系統(tǒng)2,就是VLM的模型能力,所以我們現(xiàn)在22 億公里的產(chǎn)出量,將來可能再去擴(kuò)大。
Q10:端到端方案對算力要求的下限最低到多少?
郎咸朋:我們認(rèn)為沒有下限。
Q11:仿真訓(xùn)練和車主自己駕駛的比例分別是多少?
詹錕:我們的評分體系是非常嚴(yán)格,不是所有的車主數(shù)據(jù)都會拿過來訓(xùn)練,我們會有非常嚴(yán)格的分?jǐn)?shù),分?jǐn)?shù)會卡在3%-5%的水平,隨著后面數(shù)據(jù)采集的越多多,對質(zhì)量的要求并不會降低,這是我們訓(xùn)練的體系。22億的數(shù)據(jù)里面只有高質(zhì)量的數(shù)據(jù)有價值的數(shù)據(jù)會拿出來用。仿真我們會把無論是自動駕駛還是人開的不好的場景我們會拿進(jìn)來用,這個比例隨著用戶使用程度越來越高,我們會越來越收緊。相當(dāng)于大的仿真考試題庫一樣,我們會持續(xù)驗證是不是每個版本都可以了,是一個積累的過程,并不是說我單獨選擇一個值。目前我們有一千萬公里的仿真測試集,這是實車測試不可能在短期內(nèi)實現(xiàn)的。
郎咸朋:我們每個模型的發(fā)版至少進(jìn)行了一千萬公里的測試,不僅節(jié)省做路試的時間,效果也有顯著的提升。而且錯題集一定是有代表性的場景,比如有安全類問題、效率類問題等。今天我們在發(fā)布會上重點講了系統(tǒng)1和系統(tǒng)2模型,后面我們會給大家介紹更多訓(xùn)練模型相關(guān)的信息。
現(xiàn)在我們做到了每兩到三天迭代一次模型,這其中最關(guān)鍵的技術(shù)就是 AI 評價體系,也就是測試系統(tǒng)。測試系統(tǒng)需要很多人、很多車進(jìn)行路試,消耗大量的人力和物力。但是我們覺得這依然不夠,第一模型迭代速度過慢,第二場景受到限制,我們不可能將同樣的場景開過兩次,也不可能在夏天去模擬冬天的場景,所以我們做了AI評價體系,上千萬公里的錯題集對應(yīng)的是上百萬個case。
在錯題集之外我們還有模擬題,將以前的錯題在不同的場景下生成用來評測是否依然能夠開的比較好,而且要達(dá)到我們80分的及格線。此外我們在云端有非常強(qiáng)大的模型,收集到有問題的用戶數(shù)據(jù)之后,模型能夠幫助我們進(jìn)行分類并且直接放入錯題庫,這樣的效率是非常高的。如果我們想要去訓(xùn)練模型,迭代模型,這樣非常厲害的評價系統(tǒng)是必須的,就像考試要有人批卷子,有人告訴你哪里對哪里錯。
Q12:路試的和仿真訓(xùn)練的比例是多少?
郎咸朋:現(xiàn)在路試的數(shù)據(jù)還沒有用完,是22億公里。我們到了100億公里量級時候,可能路試的數(shù)據(jù)就不那么多了,那個時候我們在下一階段會用很多的仿真數(shù)據(jù)。而且大家也可以看到生成模擬器的生成場景不仔細(xì)看的話是無法辨別是真實的還是模擬的。我們做出“有監(jiān)督的自動駕駛”以后,這套模型迭代會比現(xiàn)在快很多,能夠直接生成訓(xùn)練數(shù)據(jù),這樣我們在訓(xùn)練下一階段的L4自動駕駛的時候,我們肯定會用到仿真數(shù)據(jù)。
Q13:理想給這么多用戶評分,未來還會有很多的用戶,即使不是理想的車主,都會想在理想的智駕領(lǐng)域得到老司機(jī)的認(rèn)證。這些數(shù)據(jù)會不會在以后開源,作為一個公開的東西進(jìn)行評測?
郎咸朋:我們把這些建議先記下來,我們目前沒想過這些問題,因為數(shù)據(jù)都是用于我們內(nèi)部的研發(fā),如果以后有需要我們再做。
Q14:用戶駕駛行為好,理想汽車打了很高的評分,如果是高分用戶希望通過理想能夠把這個信息傳播給更多的消費者呢?
郎咸朋:我們會考慮。但是我們也考慮到了一些競爭因素,因為這個相當(dāng)于高質(zhì)量數(shù)據(jù)篩選的規(guī)則。是我們的核心機(jī)密,如果一旦公開數(shù)據(jù)其他人可能也會學(xué)會。
對未來的認(rèn)知與業(yè)務(wù)和組織的迭代邏輯
Q15:您認(rèn)為理想在中國智能駕駛的體系中排在什么樣的位置?
郎咸朋:我們一定希望達(dá)到第一的位置。但是我們深刻理解做人工智能,除了要建立各種平臺體系外,最關(guān)鍵的競爭就是算力和數(shù)據(jù)。特斯拉從不避諱講自己的技術(shù),就是因為他相信其他人無法超越他的算力和數(shù)據(jù)。我們也是一樣的,人才的互相流動是非常正常的,模型和算法對于大家而言都不是秘密,最終大家比拼的是有沒有算力和數(shù)據(jù)去訓(xùn)練算法,更直接一些就是資金,也就是能不能有足夠的銷量去獲取更多的利潤去養(yǎng)自動駕駛的算力和數(shù)據(jù)。很多人說理想卷銷量,實際上銷量背后是我們對于自動駕駛深刻的思考。
Q16:理想汽車怎么衡量技術(shù)發(fā)展和銷售規(guī)模平衡問題?
郎咸朋:理想L系列外觀比較相似,外界也說是在套娃,但是這讓我們有個最大的優(yōu)勢。傳感器布局和傳感器型號完全一致,所以理想L系列的數(shù)據(jù)可以完全復(fù)用,這個是我們比其他企業(yè)想的更長遠(yuǎn)的,所以說大家覺得我們套娃了,實際上對自動駕駛的研發(fā)非常有好處。
我認(rèn)為技術(shù)發(fā)展和銷售規(guī)模平衡并不矛盾,最近兩個月我們的AD Max車型銷量每個月保持10%以上的提升,30萬元以上車型AD Max銷量占比達(dá)到70%,部分車型部分地域AD Max占比達(dá)到90%以上,這就是我們最近這幾個月技術(shù)發(fā)展帶來的變化。如果技術(shù)沒有影響銷售的話,可能是技術(shù)落地沒有做好,沒有真正解決用戶需求。之前行業(yè)普遍做輕圖和有圖方案的時候,其實也在做一些功能,但是一定沒有端到端的使用效果好。我覺得還是因為到了端到端這個時代,大家對這個產(chǎn)品的效果有了更好的體驗之后,用戶就會買單。
Q17:智能駕駛的技術(shù)升級是否能帶來銷量提升?
郎咸朋:銷售有幾個非常重要的漏斗。第一個是品牌,只有用戶認(rèn)可品牌后才會比較智駕、電池、續(xù)航等。如果說一開始品牌就不在老百姓的選擇范圍內(nèi),那可能做什么都跟銷量沒有關(guān)系。
Q18:按照我們的理解,理想智駕從一開始的落后,到進(jìn)展和體驗的靠前,有些做法非常關(guān)鍵,比如從RD轉(zhuǎn)PD和快速試錯,在轉(zhuǎn)PD過程的驗證工作,如何兼顧速度和質(zhì)量?對于有詬病的驗證不充分就上市的說辭,我們?nèi)绾螒?yīng)對這種質(zhì)疑?
郎咸朋:后進(jìn)生逆襲到第一梯隊很正常。第一點是我們的組織效率確實非常高效,我們是向華為學(xué)習(xí)的組織架構(gòu),比如我們內(nèi)部有IPD流程等。這是我們學(xué)習(xí)一些先進(jìn)經(jīng)驗,然后結(jié)合理想汽車自己的企業(yè)特點進(jìn)行內(nèi)化處理的結(jié)果。
在驗證測試方面,我們通過技術(shù)提升做到更好的測試和發(fā)布效果,同時也減少了時間和人力。而且,測試效果比原來人力測試更好,這是人工智能技術(shù)帶來的結(jié)果。我們用重建、生成技術(shù)取代了人工的測試,重建技術(shù)很快就能夠重建幾百公里的場景,包括各種天氣路況下的場景,這些場景通過人類駕駛未必能夠獲取。
詹錕:目前在整個智駕團(tuán)隊,我們的PD、RD和交付這三者同步進(jìn)行,我們是交付一代、研發(fā)一代、預(yù)研一代,這是我們?yōu)槭裁茨芤恢本o跟目前智駕最新技術(shù)方案的原因,我們有比較好的階梯式研發(fā)流程。
我們在做無圖NOA研發(fā)的時候,其實端到端已經(jīng)開始預(yù)研。并不是等無圖NOA做完,再慢慢的切換到端到端架構(gòu)研發(fā)中,其實我們前面就有儲備,所以這是我們?yōu)槭裁磿俣缺容^快的原因。如果大家覺得犧牲了效率,其實是因為沒有找到提效的方法,我們逐漸已經(jīng)找到了通過自動化測試、世界模型高效驗證模型的方法,所以我們才能兼顧速度和質(zhì)量。
Q19:現(xiàn)階段理想智駕研發(fā)架構(gòu)中分為算法研發(fā)和量產(chǎn)研發(fā),分別對應(yīng)著不同的小組,小組對應(yīng)的是端到端不同模塊。隨著未來算法的迭代和成本的優(yōu)化,未來的組織架構(gòu)是否會進(jìn)行調(diào)整?朝哪些方向來做調(diào)整?這個過程中有遇到哪些難題?
郎咸朋:在整體戰(zhàn)略規(guī)劃和業(yè)務(wù)戰(zhàn)略里,我們對于業(yè)務(wù)組織有清晰的布局。組織根據(jù)業(yè)務(wù)變化,業(yè)務(wù)的目標(biāo)和迭代則根據(jù)戰(zhàn)略調(diào)整,這就是我們的BLM流程(業(yè)務(wù)領(lǐng)導(dǎo)力模型),我們原來叫LSA流程(理想汽車戰(zhàn)略分析法)。大家可能對外感知到的是產(chǎn)品、組織的迭代,但實際上背后影射的是我們戰(zhàn)略和業(yè)務(wù)的迭代和變化。
我們的組織變化要追溯到去年或者更早。我們把智能駕駛作為公司戰(zhàn)略之后,業(yè)務(wù)和組織開始發(fā)生迭代和變化。在去年秋季的雁棲湖戰(zhàn)略會,我們首次明確提出PD和RD都非常重要,但是其實在那之前PD、RD已經(jīng)有了,只是在戰(zhàn)略會上,進(jìn)一步明確了將智能駕駛和RD都作為公司級戰(zhàn)略展開,所以業(yè)務(wù)發(fā)生了變化。接下來組織會不會發(fā)生變化,要看跟業(yè)務(wù)是否有關(guān)聯(lián)。
Q20:現(xiàn)在行業(yè)中有共識,智能駕駛會分為能用,好用和愛用三個階段,目前理想汽車的智駕做到了哪個階段,我們?nèi)绱蟾判枰嚅L時間可以做到“愛用”階段,哪一年可以達(dá)到這個目標(biāo)?
郎咸朋:能用、好用和愛用這其實是由用戶決定的。我們的千人團(tuán)車主以及購買AD Max的車主比例顯著提升,我認(rèn)為這就已經(jīng)進(jìn)入到了“能用”階段。我認(rèn)為端到端內(nèi)測推送之后就是一個“好用”的狀態(tài)。我自己上下班的智能駕駛比例達(dá)到95%以上,好用和愛用是培養(yǎng)大眾對于智能駕駛理念認(rèn)同的過程。我們現(xiàn)在的千人團(tuán)、萬人團(tuán)包括一些發(fā)燒友車主,他們依然處于早期大眾的階段。當(dāng)步入晚期大眾,也就是50%的消費者在沒有智能駕駛的時候會不習(xí)慣甚至不會開了,等進(jìn)入到這個階段就是真正的“愛用”階段,或者說是必須要用。
理想汽車的研發(fā)迭代速度是非常快,我們最早今年年底,最晚明年上半年就會將這套“有監(jiān)督的自動駕駛”量產(chǎn)交付,那個時候一定會讓大家非常愛用這個產(chǎn)品。
Q21:理想是怎么看待車企做Robotaxi?
郎咸朋:我認(rèn)為Robotaxi是一個產(chǎn)品或商業(yè)的形式,并不是技術(shù)。在技術(shù)發(fā)展到一定程度之后,它可能會催生很多的商業(yè)形態(tài)。Robotaxi,Robobus等。
第二,消費者的需求是不是已經(jīng)到了大家更愿意用Robotaxi的階段,或者用自己車來做Robotaxi。
當(dāng)然還有一些相關(guān)的國家法規(guī),國家法規(guī)激勵新能源車,才能讓我們走到現(xiàn)在,所以者和國家法規(guī)對這些產(chǎn)品形態(tài)的支持。
Q22:您覺得智能駕駛未來的商業(yè)前景怎樣?
郎咸朋:我認(rèn)為對于智能車,智能駕駛和自動駕駛是不可分割的一部分。如果收費,就會涉及到不繳費的智能車體驗會不好。我們的智能駕駛功能是免費的,當(dāng)技術(shù)和能力到了一定程度之后會催生出一些新的商業(yè)場景和模式。
大家現(xiàn)在會有很多的暢想,如果實現(xiàn)自動駕駛會有各種各樣的場景、產(chǎn)品,現(xiàn)在端到端+VLM是一個分水嶺,之前無論是有圖還是無圖,都是用非人工智能的方式來做智駕,我們做詳細(xì)產(chǎn)品的需求、規(guī)劃、拆解以及驗證,而對于端到端,與其說我來測試它不如說我來體驗它,體驗一下它今天學(xué)到了什么樣的能力。
舉個例子,今天發(fā)布會上的視頻中有,一輛車突然向左方避讓了一下,但實際上前方是沒有車的,而是后面來了一輛自行車,他會讓自行車先過然后再回來,這樣規(guī)則幾乎是不可能有產(chǎn)品經(jīng)理設(shè)計出來的,但是我們的模型可以實現(xiàn)。所以大家要用不同的思路和眼光來審視接下來人工智能時代的自動駕駛,他一定會超越所有人的預(yù)期,我們提到一個月內(nèi)迭代12代,會有些人覺得我們測試不充分,但是兩個月,三個月,甚至一年之后就不會再這樣想了,因為自動駕駛會大規(guī)模落地。
Q23:剛才提到的自行車場景是否類似于自動駕駛?
郎咸朋:有這種感覺,但還是最初的階段,到了1000萬clips的時候肯定能夠涌現(xiàn)出來很多東西。
來源:第一電動網(wǎng)
作者: 第一電動編輯部
本文地址:http://autopag.com/news/qiye/249023
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請聯(lián)系admin#d1ev.com(#替換成@)刪除。