大模型還在“亂戰(zhàn)”,數(shù)據(jù)商先賺一波 | 創(chuàng)新者Innovator_天天快看點
2023-06-14 09:58:02 |來源:全天候科技公眾號
算法、算力、數(shù)據(jù),是AI技術(shù)發(fā)展的三大要素。
其中算力、數(shù)據(jù)提供商們,被看作為AI時代中的“賣水人”。
在算力賽道上,生產(chǎn)了A100、H100GPU的英偉達,一度擠入了與亞馬遜、蘋果、微軟等同列的萬億美金市值梯隊。
(資料圖片)
而數(shù)據(jù)服務(wù)商們也成為了“既得利益者”。即便國內(nèi)大模python型還處在“亂戰(zhàn)”之中,資本已經(jīng)給予了數(shù)據(jù)服務(wù)商們足夠的“熱情”。
成立于2005年的海天瑞聲,是國內(nèi)最早從事AI訓(xùn)練數(shù)據(jù)的研發(fā)設(shè)計、生產(chǎn)及銷售業(yè)務(wù)的企業(yè)之一。今年以來,海天瑞聲的市值從年初最低的17.5億左右,漲到了截至6月12日收盤的66.4億元,漲幅超過了270%。半年之中,其市值最高時一度飆升超過了110億元。
在一級市場上,據(jù)36氪報道,今年以來B輪及以前的十余家數(shù)據(jù)標注平臺,集體迎來了接近100%增幅的高估值。
對于海天瑞聲做的是一門什么樣生意的問題,海天瑞聲CEO王曉東做了這樣一個比喻:
“現(xiàn)在叫數(shù)據(jù)時代新基建,我們公司是賣水泥的,提供的是高質(zhì)量水泥。無論你蓋什么樓,砌墻、打樓板、打地基,你都得需要水泥?!?/p>
作為一種剛需,AI大模型時代的到來,對整個數(shù)據(jù)行業(yè)而言,意味著更多的機會,更大的市場,從業(yè)者們均不愿意錯過。
在近期,海天瑞聲進行了一場企業(yè)品牌煥新,英文名稱從“SpeechOcean”改成“DataOcean AI”,中文名“海天瑞聲”不變。
王曉東表示:“此次品牌升級不僅是一個簡單的改名,還代表著海天瑞php聲將在數(shù)據(jù)科技和人工智能領(lǐng)域的進一步發(fā)展和探索?!?/p>
但另一方面,行業(yè)也迎來了全新挑戰(zhàn)。
在技術(shù)上,基于人類反饋的強化學習(RLHF)成為了一項可能讓機器像人一樣思考的重要技術(shù)。其原理是將人類的反饋納入訓(xùn)練過程,為機器提供了一種自然的、人性化的互動學習過程。眾所周知,RLHF 也是ChatGPT 成功的秘密武器。
而傳統(tǒng)的數(shù)據(jù)標注停留在更加基礎(chǔ)的階段,難以滿足AI大模型的需求。
海天瑞聲CTO黃宇凱也用了一個比喻形容傳統(tǒng)數(shù)據(jù)標注與RLHF的區(qū)別:“以前教起來簡單,這個學生是小學生或者幼兒園,現(xiàn)在學生成長為初中生、高中生了,教他會更難一些?!?/p>
這不僅意味著數(shù)據(jù)企業(yè)需要對RLHF相關(guān)技術(shù)進行更多的投入,還意味著對數(shù)據(jù)訓(xùn)練師的專業(yè)要求也在提高。
不能忽略的是,入局大模型之爭的互聯(lián)網(wǎng)企業(yè)、科技公司出于對自身核心數(shù)據(jù)的重視,也在加快布局數(shù)據(jù)標注團隊。以百度為例,其擁有行業(yè)內(nèi)最大的自建標注團隊,在山東濟南、山西臨汾、重慶奉節(jié)等10個地區(qū)有自建標注基地。
相關(guān)數(shù)據(jù)標注頁面 圖片來源:曼孚科技
這也讓第三方數(shù)據(jù)服務(wù)商的處境更加尷尬。
行業(yè)的洗牌已經(jīng)來臨,沒有資源積累、技術(shù)壁壘、人才儲備的數(shù)據(jù)企業(yè),將很難在這一輪洗牌中留下。而對于數(shù)據(jù)行業(yè)的頭部企業(yè)來說,“越洗越大”的機會也在來臨。
對于數(shù)據(jù)行業(yè)的發(fā)展、AI大模型時代給數(shù)據(jù)行業(yè)帶來的挑戰(zhàn)和機會、企業(yè)如何保持核心競爭力等話題,全天候科技與黃宇凱進行了一次對話。
以下為全天候科技與海天瑞聲CTO黃宇凱對話內(nèi)容,經(jīng)全天候科技整理:
1
數(shù)據(jù)是門怎樣的生意
全天候科技:從業(yè)這么多年中,你感受到AI行業(yè)或者是下游科技企業(yè),對數(shù)據(jù)的需求有哪些變化?順應(yīng)需求,你們在做哪些業(yè)務(wù)調(diào)整和拓展?
黃宇凱:變化挺大的,2005年左右還是以語音數(shù)據(jù)為主,我們當時做語音合成,后來做語音識別相關(guān)的數(shù)據(jù)服務(wù)。也會做一些NLP,比如說與搜索相編程客棧關(guān)的數(shù)據(jù)服務(wù),在2010年左右,搜索還是很熱的。然后是圖像圖片,有一陣子圖像識別很火,我們就去做圖像識別的數(shù)據(jù)。
我們永遠是跟著AI下游的客戶的技術(shù)發(fā)展做各種突破,他們的數(shù)據(jù)需求我們都可以去提供服務(wù)。
2012年前后,深度學習突飛猛進。數(shù)據(jù)集的需求不斷變化,從一開始的找貓找狗,識別率比較低,到后來學深度學習發(fā)展起來,立馬提升了一個大臺階,原因是背后的范式發(fā)生了變化。深度神經(jīng)網(wǎng)絡(luò)復(fù)雜度越來越高以后,它的數(shù)據(jù)需求量就有了一個飛速增長的過程。
我們可以說半被動地去接受,響應(yīng)技術(shù)的變化。以前可能幾十小時,后來幾百小時,以前可能一兩百人,后來要上千人,大規(guī)模的這種數(shù)據(jù)集業(yè)務(wù),對我們來說都是很好的業(yè)務(wù)機會。
到這兩年,AI大模型起來了,我們看到(客戶)對數(shù)據(jù)的需求有新的變化,對我們來說也有大量的新機會。我們要有一定的敏感度,要挖掘到大模型對數(shù)據(jù)的要求和傳統(tǒng)深度學習對數(shù)據(jù)要求有什么相同的地方,我們怎么去學習掌握它一樣的地方,利用好我們原來的一些優(yōu)勢。
全天候科技:數(shù)據(jù)量的需求上去了,就需要企業(yè)在數(shù)據(jù)量上多去布局,多去搜集,現(xiàn)在還是誰擁有的數(shù)據(jù)最多,誰就有更多優(yōu)勢的階段嗎?
黃宇凱:這里有一個關(guān)鍵的點——數(shù)據(jù)量上去以后,設(shè)計其實很重要。
比如山東人說普通話,你要做這樣一個語音識別的數(shù)據(jù)集,讓1000個山東人來說普通話,你怎么選這1000個人?讓這1000個人說什么樣的話?這里面是有很高的技術(shù)壁壘的。又比如某些語言里平翹舌音不分,我們要提供數(shù)據(jù)集,就要在平翹舌音的覆蓋面上盡量多放一些這種句子。
這些都需要語言學家去理解語言或者方言的特點,要去設(shè)計數(shù)據(jù)集的結(jié)構(gòu)。
再舉一個圖像方面的例子,比如找貓找狗,不是說有1000張、10000張貓的圖片,就是一個很好的數(shù)據(jù)集。要去判斷貓的種品種、顏色,又比如貓的姿態(tài)、體態(tài),在什么光線下拍的照片,在這張圖片里的占比、位置,要做出這么一張數(shù)據(jù)集,最好包含了多樣性,才是一個比較好的數(shù)據(jù)集,這背后是有一套的設(shè)計方案和邏輯的 。
我們的團隊有很多的經(jīng)驗,大概知道客戶要做什么,對數(shù)據(jù)集的要求是什么,能設(shè)計出一個好的數(shù)據(jù)集。把數(shù)據(jù)集給到客戶后,他的算法團隊拿這個數(shù)據(jù)去訓(xùn)練,讓他的訓(xùn)練效果很好,這樣客戶才愿意第二次、第三次來找我們。
全天候科技:如何設(shè)計數(shù)據(jù)集的結(jié)構(gòu)呢?怎樣的數(shù)據(jù)集才能算是好的數(shù)據(jù)集呢?
黃宇凱:數(shù)據(jù)集方案我們需要和客戶溝通不止一輪,客戶的算法團隊從算法、訓(xùn)練模型的角度,我們從數(shù)據(jù)采集和數(shù)據(jù)標注處理的角度,兩者放在一起,才能變成一個更好的模型。
這個過程我們要來回碰,雙方的技術(shù)人員要去討論方案。第一版方案做出來,我們還要去推導(dǎo)、精細調(diào)優(yōu)它,一版一版做。微軟、亞馬遜,國內(nèi)的BAT都是我們的頭部大客戶,我們和這些頭部大客戶的算法團隊一起成長。
像一些自動駕駛領(lǐng)域的客戶,有些客戶對于什么樣的數(shù)據(jù)集能夠幫助他的算法做得更好,他一開始也不明確,因為行業(yè)內(nèi)沒有標準。我們做的時候可以告訴他應(yīng)該如何調(diào)整,有的地方標注精度99%就夠了,有的就需要99.9%,有些類型以靜態(tài)物為主,標的時候可以粗一些,有些類型就需要標的細一些……這些方案都是需要和客戶之間來回磨合,客戶慢慢就知道了。
他在成長,其實我們也在成長,所以我們和很多大客戶有很強的綁定關(guān)系。這個行業(yè)很多大客戶一般和一php家數(shù)據(jù)公司合作以后,他不會輕易更換。因為數(shù)據(jù)很關(guān)鍵,對核心數(shù)據(jù)供應(yīng)商的頻繁調(diào)整,對他其實是一個消耗。
而對我們來說,這些knowhow也可以服務(wù)一些其他的客戶。
2
做技術(shù)投入,太早太晚都不行
全天候科技:數(shù)據(jù)行業(yè)是否也是一個有先發(fā)優(yōu)勢的行業(yè),比如早期積累的數(shù)據(jù)集越多,服務(wù)了越多的客戶,做了足夠多的方案,你們的邊際成本也會下降?
黃宇凱:邊際成本肯定是有的。
最簡單的一個例子,節(jié)省了磨合時間。我們的項目管理團隊、供應(yīng)商,以及我們自建的標注基地、標注員之間,是有一個已經(jīng)磨合好的信任關(guān)系的。初期磨合可能難一些,順了以后形成了穩(wěn)定團隊,項目的輸出能力就是很強的,數(shù)據(jù)質(zhì)量也是有保證的,這是一個邊際效應(yīng)。
我們還有一類邊際效應(yīng)是我們的數(shù)據(jù)集產(chǎn)品,我們的業(yè)務(wù)形態(tài)里,接近一半是通過數(shù)據(jù)集的形式去賣的。
比如A客戶找我們一起來去打造一個算法,我們做出了一個很好的數(shù)據(jù)集,對他算法提升很不錯。這里有一個商業(yè)邏輯,數(shù)據(jù)的擁有權(quán)是屬于客戶還是屬于我們,這是可以協(xié)商的事情。
知識產(chǎn)權(quán)完全歸他,我們的項目團隊也能繼續(xù)服務(wù)其他客戶。很多客戶他不需要知識產(chǎn)權(quán),而我們擁有知識產(chǎn)權(quán),我們就可以對它做復(fù)賣。
我們管這些叫成品庫,如果B客戶也想做相關(guān)的業(yè)務(wù),我就可以直接把庫賣給他。他拿到這個庫以后,可以用更短的時間迅速的做出一個好的產(chǎn)品。
我們目前在語音方面有近1000多個成品庫,并且整個庫的質(zhì)量是很高的?;旧系诙螐?fù)賣的時候,就除了銷售成本沒有其他成本,幾乎是100%毛利。
全天候科技:但現(xiàn)在大模型起來了,它對數(shù)據(jù)的需求也在發(fā)生變化,比如它用到的RLHF和傳統(tǒng)的數(shù)據(jù)標注就不一樣,你們原來的優(yōu)勢還會在嗎?
黃宇凱:RLHF就是我們經(jīng)常說的強化學習,它和傳統(tǒng)的數(shù)據(jù)標注形式上不一樣,但本質(zhì)是一樣的。
舉個例子,讓AI寫一個摘要,以前做NLP的標注你給個文章寫出來就行了。所謂摘要,就是給長段的文本用三四句話歸納一下。標注場景其實相對簡單,比較直接。
而大模型時代里,同樣去訓(xùn)練大模型學會寫摘要的能力,就要用RLHF這種方式,數(shù)據(jù)標注員做標注就不是那么簡單了。不僅要準確,還要考慮到各方面的代表性,甚至語氣、長度、篇幅,要求會很高。
但本質(zhì)都是一樣的,還是把人的知識通過那幾條、幾十條或者幾百條的數(shù)據(jù),教會這個模型。只是以前教起來簡單,這個學生是小學生或者幼兒園,現(xiàn)在學生成長為初中生、高中生了,教他會更難一些。以前可能普通老師就行,現(xiàn)在就得是碩士、博士畢業(yè)的老師才能做這個工作。
全天候科技:這是不是也對數(shù)據(jù)標注員的專業(yè)素養(yǎng)提出一個更高的要求?
黃宇凱:是的,比方說985、211畢業(yè)的學生,我不是開玩笑,是真的能招到這樣的一些人才來做數(shù)據(jù)學習?;蛘哒f有一些技術(shù)點的人才,我們最近比較關(guān)注人才的工程化能力,特別是大模型訓(xùn)練的工程化能力這一塊。
以前我們這塊是不需要做太多的積累和投入的,所以這塊人員比較少,現(xiàn)在到大模型時代,我們需要有這樣的人,我們也會去定向招聘這樣的人才。
全天候科技:海天瑞聲對于大模型的關(guān)注可能更早,你們有在提前布局跟大模型相關(guān)的業(yè)務(wù)嗎?
黃宇凱:我們關(guān)注比較早,GPT2的時候我們就開始關(guān)注。今年大模型起來了,我們判斷后再去做的投入,我們還是相對謹慎的。因為技術(shù)投入有一定的風險,要去判斷、預(yù)測未來技術(shù)方向到底在哪,因為技術(shù)方向有可能會變。
去年大家都不知道今年大模型會火成這個樣子,國內(nèi)現(xiàn)在學術(shù)界也開始關(guān)注這些事情。在這些基礎(chǔ)上,我們從上到下也會去投入做學習理解。另一面也是看客戶,我們有非常高水平的客戶群,他們會有很多的反饋給到我們。
Q:現(xiàn)在會不會晚了?今年需求肯定急速增長,如果沒有提前布局,會抓不住這些機會嗎?
黃宇凱:我覺得早、晚都是有可能的,就像中國在大模型上,肯定已經(jīng)晚了。只是晚多久的判斷,有些人說幾個月,悲觀的人認為晚兩年。國外也是,Google它也晚了。
對我們數(shù)據(jù)公司來說,現(xiàn)在我們會做一些投入,就像幾年前我們做自動駕駛,要去判斷什么時候切入自動駕駛。
一開始我們做自動駕駛也是有一些零散的項目找過來,我們自己會去研究一些技術(shù)和論文,看看自動駕駛到底在一個怎樣的水平,然后做一些有限的投入。隨著商業(yè)的節(jié)奏,我們的技術(shù)節(jié)奏也起來了。
如果你永遠擔心晚了,永遠是早投,你會面臨浪費的問題,這個度它也沒有什么標準答案。
至少我們現(xiàn)在和中國行業(yè)里做大模型的節(jié)奏差不多。我們做了一些投入研究,一些原來我們不擅長的再補補課,原來擅長的再加深一下。在業(yè)務(wù)側(cè),像RLHF有些項目在持續(xù)推進,這也不是說一兩周、一兩個月的事情,已經(jīng)比較長時間了。
3
大模型時代的數(shù)據(jù)行業(yè)洗牌
全天候科技:今年以來,AI大模型的熱度超過了所有行業(yè),許多投資人也在試圖找數(shù)據(jù)標注企業(yè)進行投資。對于AI的“數(shù)據(jù)商”們來說,這是一個怎樣的階段?
黃宇凱:數(shù)據(jù)行業(yè)是一個非常好的賽道,(AI)技術(shù)越往后發(fā)展,它越是以數(shù)據(jù)為載體來做傳播,所以數(shù)據(jù)會越來越重要。
大模型發(fā)展起來以后,AI也開始平民化,以前AI也是無處不在,目前AI感覺更厲害,觸角伸到各行各業(yè),它背后或多或少都有數(shù)據(jù)的需求。對我們數(shù)據(jù)行業(yè)來說,這個市場就會非常大,就看你能不能抓住這個機會。
做好技術(shù)投入、資源管理、knowhow積累,把自己壁壘越建越高,那就行了。如果你不好好做這些事情,你可能就失去這個機會了。
全天候科技:很多互聯(lián)網(wǎng)、科技公司在做AI大模型的時候,也在搭建自己的數(shù)據(jù)團隊,也在搶奪人才,他們的加入,對數(shù)據(jù)行業(yè)會有怎樣的影響?
黃宇凱:我覺得這個行業(yè)會是一個長期共存的狀態(tài),有三類企業(yè)會一直存在。一類就是算法公司自建團隊,一類是像我們這樣的專業(yè)數(shù)據(jù)服務(wù)提供商,第三類是我們的上游供應(yīng)商,會給我們提供人力外包。
這個行業(yè)這么多年來,不管你是機器學習階段、深度學習時代,還是大模型時代,都有共存的關(guān)系。
客戶不自建團隊了,全部找我們這家公司,我覺得也不可能。因為他們內(nèi)部有一些最高級別的數(shù)據(jù)安全要求,或者內(nèi)部有其他數(shù)據(jù),大公司總是會保留一定的自建團隊。
但我也不覺得他們會把我們的份額都拿走,因為確實存在一些競爭的問題,導(dǎo)致客戶互相之間是隔離的,特別是很重要的數(shù)據(jù),互相之間肯定會屏蔽。對于這些壁壘,海天有這么多的資源,全球的采集能力,說實話也不是隨便一家公司能有的。
Q:作為一個中立的數(shù)據(jù)服務(wù)商,你們可以給大廠提供哪些方面的數(shù)據(jù)補充?如果只是第三方,是否意味著你們只能做一些邊緣業(yè)務(wù)?
黃宇凱:我覺得他們需要什么我們都可以做。很多人認為大廠做什么都行,因為大廠有所謂的生態(tài)。國內(nèi)大廠經(jīng)常是什么都想做,但最終還是會有很多業(yè)務(wù)劃分出來,形成一個生態(tài)上下游關(guān)系,這是正常的技術(shù)發(fā)展的趨勢。
我不覺得我們是邊緣業(yè)務(wù),他們有數(shù)據(jù),但要用起來那才叫有用。而從那么多數(shù)據(jù)里面,把有用的挑選出來,這個過程相當于把數(shù)據(jù)做蒸餾,這個才是核心技術(shù)。
這部分技術(shù)就是我們的knowhow。就像銀行的某個數(shù)據(jù),這是他有的,但是我知道怎么把這類數(shù)據(jù)用最高效的方式、最節(jié)約成本,最快的速度變成他的算法。
Q:AI大模型它對數(shù)據(jù)的需求變化,會讓數(shù)據(jù)提供商行業(yè)有一個洗牌嗎?什么樣的企業(yè)更能夠適應(yīng)這個時代,而什么樣的企業(yè)可能被這個時代拋下了?
黃宇凱:更關(guān)注技術(shù)、對商業(yè)敏感的企業(yè),更關(guān)注資源、有資源積累的企業(yè),更關(guān)注安全合規(guī)的企業(yè),在這三類上關(guān)注度比較高的企業(yè)更容易活下來。
技術(shù)的投入是需要代價的,但如果有些企業(yè)在技術(shù)投資上長期處于謹慎狀態(tài),投入比較少,長期來說它的護城河就不夠,那就慢慢會有風險。像我們這種頭部企業(yè),我們一直非常注重技術(shù)的投入、資源的培養(yǎng),以及合規(guī)這三塊,也有持續(xù)的投入,在洗牌的過程中也會越洗越大。
相對來說,市場占比小的企業(yè)更可能被洗掉。特別是剛才提到的第三類,提供人力外包的這些公司,說實話他們可能真的要想清楚他們的壁壘在哪,不然他們有可能會被替換掉。
關(guān)鍵詞:
標簽閱讀
-
大模型還在“亂戰(zhàn)”,數(shù)據(jù)商先賺一波 | 創(chuàng)新者Innovator_天天快看點
2023-06-14 -
天岳先進(688234)6月13日主力資金凈賣出669.06萬元|世界熱點評
2023-06-14 -
@山東高考生,13日起模擬志愿填報! 天天日報
2023-06-14 -
欠薪維權(quán)新渠道!濟南市“泉城安薪碼”正式上線 熱推薦
2023-06-14 -
廣州200億母基金來了 環(huán)球速訊
2023-06-14 -
全球最資訊丨深圳中行落地“金融支持前海30條”首筆境外企業(yè)...
2023-06-14 -
6月14日證券之星早間消息匯總:央行公布5月社融數(shù)據(jù) 全球熱推薦
2023-06-14 -
早上起床后,身體如果沒有這4個表現(xiàn),恭喜!你的身體還不錯
2023-06-14 -
時訊:每日金選|鴻博股份擬向激勵對象11人授予限制性股票650...
2023-06-14 -
全球觀熱點:燕云十六聲測試已結(jié)束,無規(guī)則、真沉浸的游戲?qū)?..
2023-06-14 -
血壓、血糖、血脂、尿酸標準對照表,忌口清單全都有!
2023-06-14 -
“早入伏涼嗖嗖,晚入伏曬死牛”,今年三伏天很特殊,是早是晚?
2023-06-14 -
時代電氣公司攻克了水下機器人電力推進技術(shù)、水下遠程高壓直...
2023-06-14 -
世界焦點!華創(chuàng)證券公眾號提示鴻博股份退市?回應(yīng):編輯錯誤
2023-06-14 -
增減持上汽集團(600104)擬10億元-20億
2023-06-14 -
精進電動 您詢問是9月慕尼黑的IAAMobility展會嗎?如果是,...
2023-06-14 -
別人把我微信拉黑了怎么才能破解(別人把我微信拉黑了怎么才...
2023-06-14 -
世界訊息:5月金融數(shù)據(jù)放緩:信貸結(jié)構(gòu)持續(xù)改善,居民消費恢復(fù)...
2023-06-14 -
環(huán)球熱消息:寧波*大的白癜風醫(yī)院是那家-面對孩子的白癜風應(yīng)...
2023-06-14 -
今日關(guān)注:泰國榴蓮“坐”火車來成渝地區(qū)!網(wǎng)友:能帶它上高...
2023-06-14