國產(chǎn)大模型困境有解了?開放算料聯(lián)盟成立 圍繞高質(zhì)量中文數(shù)據(jù)開展合作
摘要:①參與公司包括騰訊云、中國聯(lián)通廣東分公司、中國電信集團(tuán)有限公司云網(wǎng)運(yùn)營部、華大基因、海天瑞聲、云天勵(lì)飛、奧比中光、優(yōu)必選等; ②該聯(lián)盟特別提到要解決多模態(tài)數(shù)據(jù)荒、中文數(shù)據(jù)荒、中國文化、中國價(jià)值觀數(shù)據(jù)荒等問題; ③未來想要不被強(qiáng)勢(shì)文化壓縮生存空間,中國必須沉淀優(yōu)質(zhì)的中文語料庫。
《科創(chuàng)板日?qǐng)?bào)》7月26日訊(編輯 宋子喬)?面對(duì)中文語料數(shù)據(jù)不足的困境,國內(nèi)多方主體決定抱團(tuán)聚力。
7月25日,深圳數(shù)交所聯(lián)合近50家單位成立“開放算料聯(lián)盟”?。參與公司不僅有聯(lián)通、電信兩大運(yùn)營商以及騰訊云,還有多家A股公司,包括云天勵(lì)飛、奧比中光、優(yōu)必選、華大基因、海天瑞聲等。
其中,海天瑞聲是數(shù)據(jù)資源服務(wù)商,云天勵(lì)飛是視覺智能芯片研發(fā)商,華大基因是基因測(cè)序龍頭之一。奧比中光、優(yōu)必選為機(jī)器人產(chǎn)業(yè)相關(guān)公司,前者深耕機(jī)器視覺,后者是機(jī)器人制造商。
聯(lián)合發(fā)起單位華傲數(shù)據(jù)董事長賈西貝認(rèn)為,目前芯片行業(yè)已經(jīng)被證實(shí)了要走“三分協(xié)作”的模式,即分段創(chuàng)新、分域競(jìng)爭(zhēng)、分工協(xié)作,未來AI領(lǐng)域也將走向這樣的模式。
據(jù)介紹,該聯(lián)盟將圍繞高質(zhì)量中文訓(xùn)練數(shù)據(jù)和多模態(tài)訓(xùn)練數(shù)據(jù),協(xié)調(diào)數(shù)據(jù)要素、數(shù)據(jù)治理、訓(xùn)練數(shù)據(jù)、數(shù)據(jù)標(biāo)注、合成數(shù)據(jù)等相關(guān)標(biāo)準(zhǔn)制定,協(xié)助數(shù)據(jù)交易所增加大模型相關(guān)的新品類和新專區(qū)。
各成員將共同貢獻(xiàn)、整理、倡導(dǎo)貢獻(xiàn)自然語言、圖像視頻、語音音樂、程序代碼、生物信息、合成數(shù)據(jù)等多模態(tài)訓(xùn)練數(shù)據(jù),為解決人工智能和數(shù)字經(jīng)濟(jì)的數(shù)據(jù)荒問題,特別是解決多模態(tài)數(shù)據(jù)荒、中文數(shù)據(jù)荒、中國文化、中國價(jià)值觀數(shù)據(jù)荒等問題提供強(qiáng)有力支撐。
▌數(shù)據(jù)是AI勝負(fù)手 豐富中文數(shù)據(jù)庫迫在眉睫
大模型、算力、數(shù)據(jù)是生成式人工智能發(fā)展的三大支柱。數(shù)據(jù)是關(guān)鍵生產(chǎn)要素和生產(chǎn)資料,也可以說是AI的算料。
馬斯克在現(xiàn)身xAI團(tuán)隊(duì)首秀時(shí)就提及其重要性,在他看來,隨著產(chǎn)品更好地理解問題,所需的算力將減少幾個(gè)數(shù)量級(jí),而“數(shù)據(jù)荒”更難解決,“在某個(gè)時(shí)候,AI訓(xùn)練會(huì)耗盡人類數(shù)據(jù),最終人工智能將不得不自己生成數(shù)據(jù)。”
雖然現(xiàn)在未到人類數(shù)據(jù)用無可用的時(shí)刻,但數(shù)據(jù)資源高昂的費(fèi)用往往讓人工智能企業(yè)望而止步。消息稱,由于Reddit、推特等公司的數(shù)據(jù)采集要價(jià)太高,微軟、OpenAI和Cohere等公司,已使用合成數(shù)據(jù)來訓(xùn)練AI模型。
對(duì)于國內(nèi)企業(yè)而言,更是存在有錢也買不到、買不合適的情況。原因無他,中文語料庫中的內(nèi)容依然匱乏。此前中國工程院院士高文在演講中提到,全球通用的50億大模型數(shù)據(jù)訓(xùn)練集里,中文語料的占比僅為1.3%。
正因?yàn)槿绱耍鉀Q數(shù)據(jù)瓶頸問題被提上日程的同時(shí),豐富高質(zhì)量中文訓(xùn)練數(shù)據(jù)迫在眉睫。
天風(fēng)證券分析師繆欣君認(rèn)為,AI三要素(算法、算力、數(shù)據(jù))中數(shù)據(jù)是直接影響AI大模型在垂直行業(yè)落地效果的關(guān)鍵。垂類數(shù)據(jù)通常由政府和行業(yè)機(jī)構(gòu)掌握,相比于模型和算力,數(shù)據(jù)稀缺性明顯。
東吳證券分析師王紫敬也表示,數(shù)據(jù)是AI的勝負(fù)手。該分析師還點(diǎn)出了數(shù)據(jù)更深層次的含義——語言包含價(jià)值取向,未來想要不被強(qiáng)勢(shì)文化壓縮生存空間,中國必須發(fā)展自己的大模型。展望未來,算法和算力都可以通過挖掘優(yōu)質(zhì)人才、引進(jìn)優(yōu)秀工程實(shí)踐,或者直接購買海外優(yōu)質(zhì)資產(chǎn)追趕,而培養(yǎng)中文環(huán)境的優(yōu)質(zhì)數(shù)據(jù)集、語料庫卻必須長期自我積累沉淀。
從投資角度看,公共和垂直行業(yè)數(shù)據(jù)敏感性高,需要具備央國企背景的廠商參與。該機(jī)構(gòu)看好以下三個(gè)環(huán)節(jié):
1)數(shù)據(jù)運(yùn)營:預(yù)計(jì)醫(yī)保數(shù)據(jù)將有望成為公共數(shù)據(jù)放開的第一站,相關(guān)公司包括久遠(yuǎn)銀海、山大地緯、中科江南等。
2)數(shù)據(jù)基礎(chǔ)設(shè)施:有望成為最先放量兌現(xiàn)的環(huán)節(jié)。相關(guān)公司包括深桑達(dá)A、易華錄、云賽智聯(lián)、中國電信等。
3)數(shù)據(jù)安全:看好具備央國企背景和數(shù)據(jù)安全業(yè)務(wù)積累的相關(guān)廠商。相關(guān)公司包括啟明星辰、奇安信、安恒信息、電科網(wǎng)安等。