這是我第一次專訪女性CEO,一位年輕的85后。
自動駕駛圈,甚至范圍更廣的科技領域,女性工程師都算得上是稀有“物種”,更別說一家科技企業的“掌舵人”CEO了。
還沒見面,我便已從于旭在微信聊天里頻繁使用感嘆號,感受到了她的熱情與活力。這也讓我更加期待這次面對面的交流。
△于旭及愷望數據創始團隊(左二為于旭)
1
—
從運營汽車到運營人
交流的地點在北京海淀區的威盛大廈,馬路對面不到500米就是東升大廈。曾經,那里是Momenta的辦公室,2016年,于旭離開Uber,來到Momenta負責大數據收集。
“一開始是做海量眾包數據采集。那個時候大家有算法,但沒有數據,旭東(曹旭東,Momenta CEO)就讓我來負責。后來我們就負責整個標注,然后是數據的全鏈條,包括數據飛輪的搭建?!?于旭回憶道。
這對于當時的她是一次全新的嘗試。
在此之前,剛從法國留學歸來的于旭進入了Uber,成為第四號員工,見證了Uber在國內從0到1的階段,自己也在其中完成了Uber運營體系與數據平臺的搭建。
“我們當時要解決的問題就是供需之間的匹配,車輛為什么能兩分鐘內接單是有一套算法的,但在之前你需要找到足夠多的司機去匹配需求。到Momenta之后,我發現做的事和Uber的工作在底層邏輯上是相通的。”說到這兒,于旭有些興奮,“只不過我原來運作的是車,在Momenta則是運作人?!?/span>
隨后,Momenta的數據量快速增長,成樂當時TOP級的存在。但于旭覺得還不夠,應該把業務繼續做大,服務于行業,于是便成立了Momenta的數據子公司。但由于背靠自動駕駛公司,業務的擴展產生了局限性,最終便沒有再過多投入精力。
2020年,于旭離開Momenta,加入字節跳動。
“我當時還是那個想法——做數據領域的Uber,所以需要一個很大的平臺,但又想是非自動駕駛領域,那就只有字節了?!?于旭說道。
雖然短暫地離開了自動駕駛圈,但于旭依然能感受到風向的變化。
誰也沒想到,在2018年左右遇冷的自動駕駛,隨著汽車智能化的發展,又找到了新的方向。
從2021年下半年開始,不斷有人找于旭幫忙引薦自動駕駛數據公司,這讓她強烈地感覺到,自動駕駛對數據側的需求在快速膨脹,猶如Uber網約車剛剛起量時一般。
“這樣一種強烈的興奮感,就跟當時我即將加入Uber時一樣,我感覺,新時代很快就要來了。”
2
—
讓人興奮,才是好生意
因為是運營出身,于旭最初對AI技術的感知并不強烈。“但當看到技術算法上的變革后,我意識到AI時代,運營跟技術的結合一定會產生很多的化學反應。”
這也是讓于旭興奮的另一個點。
曾經在Uber,是APP和運營的結合,之后是SaaS平臺和運營的結合,本質上是一個模式。數據標注領域同樣延續了這樣的模式,這是于旭擅長的。
同時,于旭也看到了行業的痛點。最典型的,就是數據標注服務團隊缺少自動駕駛技術背景,很難真正理解算法背后的數據需求。即便拿到上百頁的標注規則,往往也是一知半解地標注。交付后,又會因為有錯誤需要返工。一來一回,拉長了數據的處理周期,增加了企業的成本。
另外,算法并非一成不變,這讓需求規則也在不停變化,隨之而來的是標注規則的相應改變。當規則變化遇上數據處理需求波峰時,小型的數據服務團隊在篩選及溝通環節更是無法應對。
“所以之前很多數據標注服務,你會覺得做得不夠系統,技術和運營兩者沒有形成絕對的合力,完全是一種傳統的打法,人不夠就加人,通過量蓋掉事,但加到什么時候是個頭?另外,還會有很大波動,一旦需求下降,企業就會空轉。所以如果是這樣的模式,即便是一個好生意,我也沒有那種興奮的勁兒在?!?/span>
在看到現有模式解決不了需求變化的痛點后,于旭認為數據標注的空間還有很大,“甚至可以用一個很新的互聯網跨界形式來把這個問題解決掉,這是讓我興奮的。”
顯然,對于于旭,“讓人興奮”是她投入新領域的重要驅動力。
抓住了痛點和興奮點,于旭很快把注意力放在了自動駕駛的數據標注領域,2022年2月,愷望數據成立。
3
—
建立數據生產工廠
“成立愷望后,你們的策略是什么?”
面對我的提問,于旭開始侃侃而談從“作坊”到“工廠”的發展規劃。
“你不得不佩服這七八年間,幾百家大大小小的數據標注團隊為行業貢獻了很多東西,但隨著后續規?;a的需求提升,我們需要像工廠一般的系統化建設和設計。”
于旭說的工廠包括Saas平臺的支撐和運營拆解的能力。
前者很好理解,是數據標注的工具和管理平臺;對于后者,于旭用了一個很有意思的比喻。
“數據標注行業以前也有流水線生產,但拆分步驟時就像普通剝橘子,需要先剝橘子皮,再剝橘子瓣,最后把橘子核挑出來,這叫串行的拆解。但我們現在做的是并行,就是專門有剝橘子皮的人,同時也有剝橘子瓣和挑核的人在同一時間進行工序,這樣速度就能翻倍?!?/span>
目前,自動化標注雖然能基本完成90%以上的標注工作,但隨著數據量的攀升,剩余不到10%的標注工作仍可能需要由幾百人的標注員團隊來完成。因此,這樣的拆解就很關鍵,通過高并發率不僅能提升效率,還能大幅度降低門檻提升人員培訓效率,使得產出的數據能保持高度一致性。
“這聽起來似乎并不困難,本質依然是流水線生產。”
面對我的疑問,于旭舉了個例子。
“我們曾經有個客戶,寫了200多頁的需求文檔,對于普通標注人員,既沒有這么高的能力,也沒有心情去看這么多頁的文檔。我們在兩周內消化了這200頁的內容,并將文檔濃縮成5頁精華,大大減少了數據標注執行層的理解負擔。這里就需要專業人員的knowhow去做結構化拆解,并且需要平臺有能力支持高并發工作流程,才能把需求拆成10份甚至100份?!?/span>
據于旭介紹,目前愷望數據重新搭建的技術平臺底層就考慮了高并發的事,“我們使用了一些低代碼(傳統的軟件開發通常需要熟練的編程技能和花費大量的時間來編寫代碼,但是低代碼平臺可以通過提供預先構建的模塊和組件,以及使用視覺化界面來設計用戶界面和業務邏輯來簡化這個過程)、模塊化的概念,我們只把核心的東西做了,中間你需要怎樣的適配改造,例如在流程上加入更多的管理動作,都能從底層平臺上給你提供一個類低代碼的工具,讓你快速完成目標。”
除此之外,最近風很大的大模型,愷望也在密切關注并應用到工作環節中。
此前,一個零基礎的標注員,需要經歷約為三周的“爬坡期”,背誦相關標注規則。而愷望將ChatGPT和規則庫進行結合,引進到標注作業平臺后,標注員在進行標注時,就能通過對話形式詢問GPT助手,不必背誦大量的規則,人才培育的“爬坡期”大幅減短。
這同時也解放了項目經理,他們不必同時管理資源、項目、培訓等環節,其管理范圍也會擴大。“隨著AI行業這一輪產業升級,人才梯度會迅速分開,而數據標注領域也將會進入精細化分工階段?!庇谛癖硎?。
對于這個工廠,核心是什么顯而易見,效率、效率、還是效率。
“我們現在很多客戶都是按天去交付數據,這不就和當時Uber的那種實時訂單是一樣的嗎?”說到這,于旭臉上又露出了興奮的表情。
4
—
種一顆橘子樹
在對外的宣傳上,愷望數據是一家為車企與自動駕駛公司提供一站式數據解決方案的公司。
“更簡單一些說,我們的核心是數據生產的自動化。當然會是漸進式的,從人往機器去過渡,逐漸變成一個自動化過程的公司。” 于旭說道。
在她看來,作為數據服務第三方,更多的是去解決數據孤島的問題,尤其作為自動駕駛這個行業,如果能把數據孤島問題解決,大家在數據利用率會是另一個維度的提升?!八园盐覀冏约喝ジa業融合,價值是很大的?!?/span>
這不禁讓人聯想到那家僅用5年時間,就實現超73億美金估值的美國數據標注企業Scale AI。
2016年起步時,Scale AI就是為了解決自動駕駛賽道數據孤島的問題,讓Argo AI遇到的問題Nuro不會再出現。商務模式上,Scale AI是讓算法或技術的同事直接做商務與客戶對接,這樣就能迅速理解對方的需求并且能快速提出改進方案,讓數據標注的流程能得到更好的結果。
與之配合的還有其 SaaS平臺,同樣是比較懂自動駕駛或者算法的人進行設計管理,在于旭看來,這就是運營和技術結合得比較好示例。
“所以當年80%的北美自動駕駛公司都用了Scale AI的服務,隨著之后AI的發展,作為智能化原料的數據,重要性自然得到提升,Scale AI自然就在牌桌上占住了核心位置,然后把一個一個細分賽道逐漸打通。從自動駕駛到Google,再到軍方訂單,然后再到GPT這個方向?!?/span>
自身戰略的前瞻性,在于旭看來是Scale AI成為獨角獸的關鍵之一。
“同樣的企業還有特斯拉。它的數據自動化是靠影子模式解決的,這需求足夠多的車輛數量。影子模式是特斯拉很早之前就有的想法,那時就預測了自己的車會過百萬臺級別,這個級別是不可能用大量的人工做標注的,所以一開始特斯拉就有了自動標注這個認知,并基于此去搭建整套系統?!?/span>
因此,加深對行業的認知,在工具設計、機制建設上提前到位是愷望的一項重要功課。
“大家都賣橘子,你的那堆橘子更大更好,我覺得不可怕。可怕的是你種了一棵可以不斷長出又大又好的橘子的樹,這是更可怕的。這樣你根本就跑不過他,我覺得這會是行業的絕對壁壘?!?/span>
來源:第一電動網
作者:智車星球
本文地址:http://www.155ck.com/kol/202278
文中圖片源自互聯網,如有侵權請聯系admin#d1ev.com(#替換成@)刪除。