以AI賦能AI,澳鵬不斷提升數(shù)據(jù)服務效率
大模型與生成式AI無疑已經(jīng)成為實實在在的效率和增長引擎,而DeepSeek的問世則證明了算力和算法對于大模型普及的制約正在迅速降低,規(guī)?;母哔|(zhì)量標注數(shù)據(jù)特別是行業(yè)垂直領域(垂類)數(shù)據(jù),正在成為大模型普及的下一個戰(zhàn)場。2025年2月底澳鵬發(fā)布的年報顯示:2024年公司中國業(yè)務營收突破4.2億,年增長達到71%,其中的大模型/AIGC業(yè)務增長了526%,幾乎所有AI龍頭,特別是大模型AI企業(yè)都成為了澳鵬的客戶。
澳鵬Appen全球高級副總裁、大中華及北亞區(qū)總經(jīng)理田小鵬博士表示,與全球大模型更側(cè)重通用性和多語言多語種模型泛化的模式不同,中國大模型更側(cè)重"通用+垂直領域",這意味著中國大模型在未來行業(yè)應用場景、特定垂直領域創(chuàng)新方面獨樹一幟,也更在"局部領域"更容易實現(xiàn) AI 垂類實踐的突破,對特定行業(yè)和社會生產(chǎn)力的大幅快速提升。
澳鵬Appen公司的2024年全年報顯示,經(jīng)調(diào)整后的公司年增長16%、2024年下半年大模型收入占28%。在澳鵬中國,大模型及大模型相關業(yè)務已經(jīng)占據(jù)了營收的40%。澳鵬自2023年中旬推出大模型相關產(chǎn)品和服務,僅僅一年多的時間發(fā)展成為了第一大業(yè)務,用"爆發(fā)"形容并不為過。2024年,澳鵬中國全年實現(xiàn)了4.2億人民幣營收,其中大模型及大模型相關業(yè)務營收達到1億人民幣。
自2023年率先在AI數(shù)據(jù)服務行業(yè)中推出大模型智能開發(fā)平臺以來,幾乎所有的互聯(lián)網(wǎng)、科技、AI和大模型頭部客戶都找到了澳鵬,與澳鵬團隊捆綁式緊密合作,共同應對大模型的數(shù)據(jù)洪流。例如,基于澳鵬大模型平臺多模態(tài)數(shù)據(jù)處理能力,澳鵬為某AI科技廠商提供圖像文本描述數(shù)據(jù)服務工作,提供高質(zhì)量圖文對超過50億對,充分滿足了圖文大模型的數(shù)據(jù)需求。正是"笨鳥先飛",提前"押注"投資技術和研發(fā),讓澳鵬在行業(yè)洗牌中脫穎而出,躍升為行業(yè)龍頭。
雖然公司在2024年取得了跨越式發(fā)展,但澳鵬Appen全球高級副總裁、大中華及北亞區(qū)總經(jīng)理田小鵬博士認為,以DeepSeek等大模型為代表的大模型紅利才剛剛開始,AI數(shù)據(jù)服務行業(yè)將進入10-20年的景氣周期,澳鵬中國將在技術、交付、安全和渠道等方向持續(xù)布局,其中的戰(zhàn)略重點是技術和交付。而澳鵬作為AI數(shù)據(jù)服務行業(yè)的龍頭,其面向未來十年超級周期的布局,也將影響整個行業(yè)的發(fā)展方向。
技術和研發(fā)是澳鵬中國持續(xù)性戰(zhàn)略投資的重要方向。田小鵬博士表示,技術是絕對生產(chǎn)力,未來5年,澳鵬中國將向研發(fā)再投入2-3億元人民幣,以確保公司在大模型超級周期中的持續(xù)競爭力,公司也將持續(xù)轉(zhuǎn)型為算法輔助型、深化垂直領域的數(shù)據(jù)服務能力,同時通過人機協(xié)同模式提升數(shù)據(jù)標注的專業(yè)性和準確性。
澳鵬中國研發(fā)負責人、產(chǎn)品和工程副總裁錢程介紹,公司目前80%以上的研發(fā)人員都參與了大模型相關的研發(fā)任務,主要研發(fā)方向包括面向大模型的數(shù)據(jù)服務平臺、面向大模型的數(shù)據(jù)標注工具以及大模型相算法的研發(fā)和應用等。2025年,澳鵬中國將投入研發(fā)資源打造智能化成品數(shù)據(jù)集生產(chǎn)管理平臺,通過自動化的數(shù)據(jù)標注、清洗挖掘和質(zhì)量評估快速構建大規(guī)模高質(zhì)量成品數(shù)據(jù)集,為大模型的模型訓練提供高質(zhì)量數(shù)據(jù)養(yǎng)料。
此外,隨著大模型應用向垂直領域的不斷深入,澳鵬中國將結合自身在大模型和各垂直領域數(shù)據(jù)服務中積累的豐富經(jīng)驗,研發(fā)高精尖垂類數(shù)據(jù)標注平臺,澳鵬中國計劃在2025年上半年推出專業(yè)的大模型醫(yī)療數(shù)據(jù)標注平臺和具身智能數(shù)據(jù)標注平臺,進一步賦能垂直領域客戶構建高質(zhì)量模型訓練數(shù)據(jù)。
當前正處于超級周期的啟動階段,大模型發(fā)展迅猛且競爭激烈。許多AI數(shù)據(jù)標注項目具有實驗性質(zhì),澳鵬需要迅速調(diào)整相關的平臺和資源以適應不同的數(shù)據(jù)需求。錢程指出,大模型的發(fā)展,尤其在后訓練階段非常迅速,客戶不斷嘗試新方法以優(yōu)化效果。澳鵬團隊與客戶緊密合作,支持模型訓練的數(shù)據(jù)需求,助力模型能力的不斷提升。
對于嘗試性實驗項目,澳鵬需要迅速構建數(shù)據(jù)處理工具和工作流程,采集和標注數(shù)據(jù),并進行結果訓練和驗證。這需要一個靈活的平臺工作流、自定義標注模板和敏捷的項目管理。澳鵬的大模型智能開發(fā)平臺通過自定義模板引擎,能夠在幾分鐘內(nèi)快速配置數(shù)據(jù)標注模板,而定制化小型工具的開發(fā)則可在幾天到一周內(nèi)完成。
錢程指出,客戶需求快速迭代,創(chuàng)意層出不窮,澳鵬的產(chǎn)品研發(fā)團隊為深度參與在這一快速發(fā)展的賽道而感到興奮。一方面,他們積極跟進國內(nèi)外大模型訓練的技術變化;另一方面,與客戶實時交流前沿發(fā)展趨勢,共同探討數(shù)據(jù)服務的構建方法。
"以AI賦能AI"是澳鵬產(chǎn)品研發(fā)團隊不斷提升數(shù)據(jù)服務效率的宗旨,為了提升團隊的生產(chǎn)力和效率,澳鵬在數(shù)據(jù)處理和生產(chǎn)管理中廣泛應用大模型,替代傳統(tǒng)算法。這不僅大幅提高了技術和工程團隊的代碼編寫效率,還幫助數(shù)據(jù)交付部門提升了數(shù)據(jù)服務和項目管理的智能化水平。
在大模型時代,盡管之前有不少科技企業(yè)都有自己的數(shù)據(jù)標注工具或平臺,但隨著大模型和生成式AI需求的激增,企業(yè)越來越依賴澳鵬這樣的外部專業(yè)數(shù)據(jù)平臺和服務商,既能滿足不斷變化的工具和平臺開發(fā)需求,又能結合垂直領域?qū)I(yè)標注人員的RHLF強化學習,一體化滿足大模型和生成式AI的持續(xù)迭代要求。
面向垂直領域的交付能力也是澳鵬的戰(zhàn)略投資方向。繼通用知識后,專業(yè)知識是大模型下一步的重點發(fā)展領域。澳鵬在已有垂直領域能力的基礎上, 2024年開辟了金融、法律、音樂、多語種、文學、TTS、數(shù)學、醫(yī)療、代碼等九個大模型垂直領域團隊,專門負責開發(fā)和培養(yǎng)這些垂直領域的復合型人才,以及承擔相應的數(shù)據(jù)服務項目。
自2023年下半年起,澳鵬組建了400+金融背景全職團隊,其中擁有金融、經(jīng)濟或財會學本科及以上學歷占比99%,70%持有基金或證券從業(yè)資格,支持風險管控、數(shù)據(jù)分析等金融應用開發(fā),并具備完善的數(shù)據(jù)安全合規(guī)體系。
2024年,澳鵬在代碼大模型領域取得顯著增長,擁有120+全職技術人員覆蓋主流編程語言,提供代碼生成、調(diào)試等服務,業(yè)務擴展至能力評估、運維、測試等場景,團隊規(guī)模翻倍,并持續(xù)積累高質(zhì)量代碼數(shù)據(jù)集,確保代碼模型在多種編程場景和任務類型上的泛化能力。
此外,澳鵬在大模型各垂類領域都擁有豐富的專業(yè)人才資源:在法律領域,擁有專業(yè)的法律人才,涵蓋法律檢索、庭審、風控體系建設等核心能力;多語言領域,團隊覆蓋200+語種,具備豐富的多語言項目交付經(jīng)驗;音樂領域,擁有500+兼職音樂專業(yè)人員支持編曲、標注、制譜等任務;TTS領域,擁有數(shù)十個國家TTS采集經(jīng)驗,錄音棚覆蓋全國主要城市;文學領域,團隊成員均具備深刻的文學理解與鑒賞能力,支持跨領域多模態(tài)融合與創(chuàng)新、情感交互與智能推薦系統(tǒng)等領域大模型的發(fā)展……澳鵬憑借強大的專業(yè)團隊和豐富經(jīng)驗,持續(xù)為大模型提供高質(zhì)量數(shù)據(jù)支持。