1. 首頁
  2. 大牛說
  3. 愷望數(shù)據(jù),做數(shù)據(jù)標注領域的Uber

愷望數(shù)據(jù),做數(shù)據(jù)標注領域的Uber

這是我第一次專訪女性CEO,一位年輕的85后。

自動駕駛圈,甚至范圍更廣的科技領域,女性工程師都算得上是稀有“物種”,更別說一家科技企業(yè)的“掌舵人”CEO了。

還沒見面,我便已從于旭在微信聊天里頻繁使用感嘆號,感受到了她的熱情與活力。這也讓我更加期待這次面對面的交流。

圖片

△于旭及愷望數(shù)據(jù)創(chuàng)始團隊(左二為于旭)

1

從運營汽車到運營人

交流的地點在北京海淀區(qū)的威盛大廈,馬路對面不到500米就是東升大廈。曾經(jīng),那里是Momenta的辦公室,2016年,于旭離開Uber,來到Momenta負責大數(shù)據(jù)收集。

“一開始是做海量眾包數(shù)據(jù)采集。那個時候大家有算法,但沒有數(shù)據(jù),旭東(曹旭東,Momenta CEO)就讓我來負責。后來我們就負責整個標注,然后是數(shù)據(jù)的全鏈條,包括數(shù)據(jù)飛輪的搭建。” 于旭回憶道。

這對于當時的她是一次全新的嘗試。

在此之前,剛從法國留學歸來的于旭進入了Uber,成為第四號員工,見證了Uber在國內從0到1的階段,自己也在其中完成了Uber運營體系與數(shù)據(jù)平臺的搭建。

“我們當時要解決的問題就是供需之間的匹配,車輛為什么能兩分鐘內接單是有一套算法的,但在之前你需要找到足夠多的司機去匹配需求。到Momenta之后,我發(fā)現(xiàn)做的事和Uber的工作在底層邏輯上是相通的。”說到這兒,于旭有些興奮,“只不過我原來運作的是車,在Momenta則是運作人?!?/span>

隨后,Momenta的數(shù)據(jù)量快速增長,成樂當時TOP級的存在。但于旭覺得還不夠,應該把業(yè)務繼續(xù)做大,服務于行業(yè),于是便成立了Momenta的數(shù)據(jù)子公司。但由于背靠自動駕駛公司,業(yè)務的擴展產(chǎn)生了局限性,最終便沒有再過多投入精力。

2020年,于旭離開Momenta,加入字節(jié)跳動。

“我當時還是那個想法——做數(shù)據(jù)領域的Uber,所以需要一個很大的平臺,但又想是非自動駕駛領域,那就只有字節(jié)了?!?于旭說道。

雖然短暫地離開了自動駕駛圈,但于旭依然能感受到風向的變化。

誰也沒想到,在2018年左右遇冷的自動駕駛,隨著汽車智能化的發(fā)展,又找到了新的方向。

從2021年下半年開始,不斷有人找于旭幫忙引薦自動駕駛數(shù)據(jù)公司,這讓她強烈地感覺到,自動駕駛對數(shù)據(jù)側的需求在快速膨脹,猶如Uber網(wǎng)約車剛剛起量時一般。

“這樣一種強烈的興奮感,就跟當時我即將加入Uber時一樣,我感覺,新時代很快就要來了。”

2

讓人興奮,才是好生意

因為是運營出身,于旭最初對AI技術的感知并不強烈。“但當看到技術算法上的變革后,我意識到AI時代,運營跟技術的結合一定會產(chǎn)生很多的化學反應?!?/span>

這也是讓于旭興奮的另一個點。

曾經(jīng)在Uber,是APP和運營的結合,之后是SaaS平臺和運營的結合,本質上是一個模式。數(shù)據(jù)標注領域同樣延續(xù)了這樣的模式,這是于旭擅長的。

同時,于旭也看到了行業(yè)的痛點。最典型的,就是數(shù)據(jù)標注服務團隊缺少自動駕駛技術背景,很難真正理解算法背后的數(shù)據(jù)需求。即便拿到上百頁的標注規(guī)則,往往也是一知半解地標注。交付后,又會因為有錯誤需要返工。一來一回,拉長了數(shù)據(jù)的處理周期,增加了企業(yè)的成本。

另外,算法并非一成不變,這讓需求規(guī)則也在不停變化,隨之而來的是標注規(guī)則的相應改變。當規(guī)則變化遇上數(shù)據(jù)處理需求波峰時,小型的數(shù)據(jù)服務團隊在篩選及溝通環(huán)節(jié)更是無法應對。

圖片

“所以之前很多數(shù)據(jù)標注服務,你會覺得做得不夠系統(tǒng),技術和運營兩者沒有形成絕對的合力,完全是一種傳統(tǒng)的打法,人不夠就加人,通過量蓋掉事,但加到什么時候是個頭?另外,還會有很大波動,一旦需求下降,企業(yè)就會空轉。所以如果是這樣的模式,即便是一個好生意,我也沒有那種興奮的勁兒在?!?/span>

在看到現(xiàn)有模式解決不了需求變化的痛點后,于旭認為數(shù)據(jù)標注的空間還有很大,“甚至可以用一個很新的互聯(lián)網(wǎng)跨界形式來把這個問題解決掉,這是讓我興奮的。”

顯然,對于于旭,“讓人興奮”是她投入新領域的重要驅動力。

抓住了痛點和興奮點,于旭很快把注意力放在了自動駕駛的數(shù)據(jù)標注領域,2022年2月,愷望數(shù)據(jù)成立。

3

建立數(shù)據(jù)生產(chǎn)工廠

“成立愷望后,你們的策略是什么?”

面對我的提問,于旭開始侃侃而談從“作坊”到“工廠”的發(fā)展規(guī)劃。

“你不得不佩服這七八年間,幾百家大大小小的數(shù)據(jù)標注團隊為行業(yè)貢獻了很多東西,但隨著后續(xù)規(guī)?;a(chǎn)的需求提升,我們需要像工廠一般的系統(tǒng)化建設和設計。”

于旭說的工廠包括Saas平臺的支撐和運營拆解的能力。

前者很好理解,是數(shù)據(jù)標注的工具和管理平臺;對于后者,于旭用了一個很有意思的比喻。

“數(shù)據(jù)標注行業(yè)以前也有流水線生產(chǎn),但拆分步驟時就像普通剝橘子,需要先剝橘子皮,再剝橘子瓣,最后把橘子核挑出來,這叫串行的拆解。但我們現(xiàn)在做的是并行,就是專門有剝橘子皮的人,同時也有剝橘子瓣和挑核的人在同一時間進行工序,這樣速度就能翻倍?!?/span>

目前,自動化標注雖然能基本完成90%以上的標注工作,但隨著數(shù)據(jù)量的攀升,剩余不到10%的標注工作仍可能需要由幾百人的標注員團隊來完成。因此,這樣的拆解就很關鍵,通過高并發(fā)率不僅能提升效率,還能大幅度降低門檻提升人員培訓效率,使得產(chǎn)出的數(shù)據(jù)能保持高度一致性。

“這聽起來似乎并不困難,本質依然是流水線生產(chǎn)。”

面對我的疑問,于旭舉了個例子。

“我們曾經(jīng)有個客戶,寫了200多頁的需求文檔,對于普通標注人員,既沒有這么高的能力,也沒有心情去看這么多頁的文檔。我們在兩周內消化了這200頁的內容,并將文檔濃縮成5頁精華,大大減少了數(shù)據(jù)標注執(zhí)行層的理解負擔。這里就需要專業(yè)人員的knowhow去做結構化拆解,并且需要平臺有能力支持高并發(fā)工作流程,才能把需求拆成10份甚至100份?!?/span>

據(jù)于旭介紹,目前愷望數(shù)據(jù)重新搭建的技術平臺底層就考慮了高并發(fā)的事,“我們使用了一些低代碼(傳統(tǒng)的軟件開發(fā)通常需要熟練的編程技能和花費大量的時間來編寫代碼,但是低代碼平臺可以通過提供預先構建的模塊和組件,以及使用視覺化界面來設計用戶界面和業(yè)務邏輯來簡化這個過程)、模塊化的概念,我們只把核心的東西做了,中間你需要怎樣的適配改造,例如在流程上加入更多的管理動作,都能從底層平臺上給你提供一個類低代碼的工具,讓你快速完成目標。”

除此之外,最近風很大的大模型,愷望也在密切關注并應用到工作環(huán)節(jié)中。

此前,一個零基礎的標注員,需要經(jīng)歷約為三周的“爬坡期”,背誦相關標注規(guī)則。而愷望將ChatGPT和規(guī)則庫進行結合,引進到標注作業(yè)平臺后,標注員在進行標注時,就能通過對話形式詢問GPT助手,不必背誦大量的規(guī)則,人才培育的“爬坡期”大幅減短。

這同時也解放了項目經(jīng)理,他們不必同時管理資源、項目、培訓等環(huán)節(jié),其管理范圍也會擴大?!半S著AI行業(yè)這一輪產(chǎn)業(yè)升級,人才梯度會迅速分開,而數(shù)據(jù)標注領域也將會進入精細化分工階段?!庇谛癖硎尽?/span>

圖片

對于這個工廠,核心是什么顯而易見,效率、效率、還是效率。

“我們現(xiàn)在很多客戶都是按天去交付數(shù)據(jù),這不就和當時Uber的那種實時訂單是一樣的嗎?”說到這,于旭臉上又露出了興奮的表情。

4

種一顆橘子樹

在對外的宣傳上,愷望數(shù)據(jù)是一家為車企與自動駕駛公司提供一站式數(shù)據(jù)解決方案的公司。

“更簡單一些說,我們的核心是數(shù)據(jù)生產(chǎn)的自動化。當然會是漸進式的,從人往機器去過渡,逐漸變成一個自動化過程的公司?!?于旭說道。

在她看來,作為數(shù)據(jù)服務第三方,更多的是去解決數(shù)據(jù)孤島的問題,尤其作為自動駕駛這個行業(yè),如果能把數(shù)據(jù)孤島問題解決,大家在數(shù)據(jù)利用率會是另一個維度的提升?!八园盐覀冏约喝ジa(chǎn)業(yè)融合,價值是很大的?!?/span>

這不禁讓人聯(lián)想到那家僅用5年時間,就實現(xiàn)超73億美金估值的美國數(shù)據(jù)標注企業(yè)Scale AI。

2016年起步時,Scale AI就是為了解決自動駕駛賽道數(shù)據(jù)孤島的問題,讓Argo AI遇到的問題Nuro不會再出現(xiàn)。商務模式上,Scale AI是讓算法或技術的同事直接做商務與客戶對接,這樣就能迅速理解對方的需求并且能快速提出改進方案,讓數(shù)據(jù)標注的流程能得到更好的結果。

與之配合的還有其 SaaS平臺,同樣是比較懂自動駕駛或者算法的人進行設計管理,在于旭看來,這就是運營和技術結合得比較好示例。

“所以當年80%的北美自動駕駛公司都用了Scale AI的服務,隨著之后AI的發(fā)展,作為智能化原料的數(shù)據(jù),重要性自然得到提升,Scale AI自然就在牌桌上占住了核心位置,然后把一個一個細分賽道逐漸打通。從自動駕駛到Google,再到軍方訂單,然后再到GPT這個方向?!?/span>

自身戰(zhàn)略的前瞻性,在于旭看來是Scale AI成為獨角獸的關鍵之一。

“同樣的企業(yè)還有特斯拉。它的數(shù)據(jù)自動化是靠影子模式解決的,這需求足夠多的車輛數(shù)量。影子模式是特斯拉很早之前就有的想法,那時就預測了自己的車會過百萬臺級別,這個級別是不可能用大量的人工做標注的,所以一開始特斯拉就有了自動標注這個認知,并基于此去搭建整套系統(tǒng)?!?/span>

因此,加深對行業(yè)的認知,在工具設計、機制建設上提前到位是愷望的一項重要功課。

“大家都賣橘子,你的那堆橘子更大更好,我覺得不可怕??膳碌氖悄惴N了一棵可以不斷長出又大又好的橘子的樹,這是更可怕的。這樣你根本就跑不過他,我覺得這會是行業(yè)的絕對壁壘。”

來源:第一電動網(wǎng)

作者:智車星球

本文地址:http://autopag.com/kol/202278

返回第一電動網(wǎng)首頁 >

收藏
13
  • 分享到:
發(fā)表評論
新聞推薦
大牛作者

智車星球

服務智能汽車創(chuàng)業(yè)者,提供媒體報道、品牌公關、會議活動、投融資對接等其他定制服務。

  • 178
    文章
  • 7987
    獲贊
閱讀更多文章
熱文榜
日排行
周排行
第一電動網(wǎng)官方微信

反饋和建議 在線回復

您的詢價信息
已經(jīng)成功提交我們稍后會聯(lián)系您進行報價!

第一電動網(wǎng)
Hello world!
-->