海天瑞聲(688787)6月21日晚間公告,擬定增募資不超7.9億元,用于投資AI大模型訓(xùn)練數(shù)據(jù)集建設(shè)項(xiàng)目、數(shù)據(jù)生產(chǎn)垂直大模型研發(fā)項(xiàng)目。
【資料圖】
公告顯示,海天瑞聲主要從事AI訓(xùn)練數(shù)據(jù)的研發(fā)設(shè)計、生產(chǎn)及銷售業(yè)務(wù)。公司通過設(shè)計數(shù)據(jù)集結(jié)構(gòu)、組織數(shù)據(jù)采集、對取得的原料數(shù)據(jù)進(jìn)行加工,最終形成可供AI算法模型訓(xùn)練使用的專業(yè)數(shù)據(jù)集,用軟件形式向客戶交付。
本次募集資金兩項(xiàng)投資項(xiàng)目,將全部圍繞海天瑞聲主營業(yè)務(wù)展開。
其中,AI大模型訓(xùn)練數(shù)據(jù)集建設(shè)項(xiàng)目是通過建設(shè)應(yīng)用于通用和特定垂直領(lǐng)域的AI大模型訓(xùn)練數(shù)據(jù)集,提升行業(yè)內(nèi)面向大模型訓(xùn)練數(shù)據(jù)集的類別和質(zhì)量。
公開資料顯示,雖然中國數(shù)據(jù)資源豐富,但由于數(shù)據(jù)挖掘不足,以及大量數(shù)據(jù)無法在市場上自由流通等原因,優(yōu)質(zhì)中文數(shù)據(jù)集仍然稀缺。
以ChatGPT為例,其模型訓(xùn)練數(shù)據(jù)中,中文數(shù)據(jù)來源不足千分之一。目前,國內(nèi)頭部科技企業(yè)主要基于公開數(shù)據(jù)集以及自身特有的數(shù)據(jù)進(jìn)行大模型訓(xùn)練,但由于中文優(yōu)質(zhì)數(shù)據(jù)質(zhì)量以及數(shù)據(jù)資源的制約,國內(nèi)大模型的能力與以ChatGPT為代表的國際大模型相比仍存在一定差距。
而在本項(xiàng)目建成后,將提供可供大模型訓(xùn)練和評測的不少于10個品類的專業(yè)數(shù)據(jù)集,顯著提升行業(yè)內(nèi)面向大模型訓(xùn)練數(shù)據(jù)集的類別和質(zhì)量,協(xié)助實(shí)現(xiàn)公共數(shù)據(jù)、社會數(shù)據(jù)等各類高價值數(shù)據(jù)資源匯聚,實(shí)現(xiàn)基于大模型通用能力和垂直領(lǐng)域數(shù)據(jù)的訓(xùn)練學(xué)習(xí)。
海天瑞聲表示,將基于過往的數(shù)據(jù)服務(wù)經(jīng)驗(yàn),結(jié)合行業(yè)前沿需求,積極拓展大模型訓(xùn)練數(shù)據(jù)服務(wù)領(lǐng)域,力爭將大模型訓(xùn)練數(shù)據(jù)等創(chuàng)新業(yè)務(wù)打造成為具有潛在高增長價值的新型業(yè)務(wù)板塊。
此外,截至2022年底,海天瑞聲累計服務(wù)客戶數(shù)量已達(dá)到810家,包括阿里巴巴、騰訊、百度、科大訊飛、??低?、字節(jié)跳動、微軟、亞馬遜、三星、中國科學(xué)院、清華大學(xué)等全球主流企業(yè)、教育科研機(jī)構(gòu)以及政企機(jī)構(gòu)。
海天瑞聲的存量客戶與新業(yè)務(wù)的客戶重合程度較高,且存量客戶群中的部分頭部企業(yè)已輸出或計劃輸出其大模型產(chǎn)品與服務(wù),為公司該項(xiàng)新業(yè)務(wù)拓展提供了客戶資源基礎(chǔ)。
根據(jù)德勤數(shù)據(jù),2022年中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場規(guī)模為45億元,2027年規(guī)模將達(dá)到130-160億元,年復(fù)合增長率為23.6%-28.9%。
數(shù)據(jù)生產(chǎn)垂直大模型研發(fā)項(xiàng)目建設(shè)目標(biāo)則是通過大模型基礎(chǔ)研究,研發(fā)海天瑞聲數(shù)據(jù)生產(chǎn)垂直大模型,并以海天瑞聲數(shù)據(jù)生產(chǎn)垂直大模型為核心,升級海天瑞聲一體化技術(shù)支撐平臺。
公告稱,數(shù)據(jù)集生產(chǎn)能力和一體化技術(shù)支撐平臺是海天瑞聲核心技術(shù)的重要體現(xiàn)。目前 ChatGPT等模型執(zhí)行通用生成任務(wù)的效果證明了大模型可具備數(shù)據(jù)生成能力。
本項(xiàng)目的建設(shè)將基于海天瑞聲在深度學(xué)習(xí)階段數(shù)據(jù)集生產(chǎn)所積累的know-how,自主研發(fā)數(shù)據(jù)生產(chǎn)垂直大模型,構(gòu)建大模型數(shù)據(jù)處理技術(shù)通用化解決方案能力,實(shí)現(xiàn)完整、可持續(xù)迭代的大模型數(shù)據(jù)技術(shù)框架和數(shù)據(jù)策略,進(jìn)一步提高公司在人工智能基礎(chǔ)數(shù)據(jù)服務(wù)領(lǐng)域的智能化水平。
海天瑞聲表示,本次募集資金投資項(xiàng)目是公司在現(xiàn)有主營業(yè)務(wù)基礎(chǔ)上,結(jié)合市場需求和未來發(fā)展趨勢,加大對公司核心主業(yè)重點(diǎn)產(chǎn)品及重要研究方向投資力度的體現(xiàn),符合國家大力支持人工智能發(fā)展的產(chǎn)業(yè)政策以及公司整體戰(zhàn)略發(fā)展方向。
(文章來源:證券時報·e公司)
關(guān)鍵詞: