隨著大模型和人工智能技術(shù)快速演進(jìn),人工智能產(chǎn)業(yè)范式從“以模型為中心”轉(zhuǎn)向“以數(shù)據(jù)為中心”,高質(zhì)量數(shù)據(jù)集成為人工智能能力提升和“人工智能+”場(chǎng)景落地的關(guān)鍵支撐。
早期,業(yè)界普遍認(rèn)為“數(shù)據(jù)越多越好”,數(shù)據(jù)集的概念主要圍繞數(shù)據(jù)的“大規(guī)模”特征,認(rèn)為通過(guò)海量數(shù)據(jù)就可以訓(xùn)練出更好的模型。隨著應(yīng)用實(shí)踐的深入,大規(guī)模低質(zhì)量的數(shù)據(jù)集局限性逐步顯現(xiàn),“高質(zhì)量”數(shù)據(jù)集成為影響大模型“智商”的核心因素,數(shù)據(jù)清洗、標(biāo)注等工作受到重視。伴隨著人工智能在工業(yè)制造、醫(yī)療健康、教育教學(xué)等領(lǐng)域的應(yīng)用落地,通用高質(zhì)量數(shù)據(jù)集難以滿足細(xì)分場(chǎng)景訓(xùn)練需求,高應(yīng)用價(jià)值、高知識(shí)密度和高技術(shù)含量的行業(yè)高質(zhì)量數(shù)據(jù)集供給日趨關(guān)鍵。今年5月,國(guó)家數(shù)據(jù)局印發(fā)《數(shù)字中國(guó)建設(shè)2025年行動(dòng)方案》,明確提出“加強(qiáng)交通、醫(yī)療、金融、制造、農(nóng)業(yè)等重點(diǎn)領(lǐng)域數(shù)據(jù)標(biāo)注,建設(shè)行業(yè)高質(zhì)量數(shù)據(jù)集”,為相關(guān)工作指明了方向。
但在實(shí)際工作中,我們?nèi)悦媾R著諸多挑戰(zhàn),制約了行業(yè)高質(zhì)量數(shù)據(jù)集的高效建設(shè)與應(yīng)用。
一是
數(shù)據(jù)采集標(biāo)準(zhǔn)與轉(zhuǎn)化機(jī)制有待進(jìn)一步完善。各級(jí)公共數(shù)據(jù)平臺(tái)歸集整合能力不斷加強(qiáng),企業(yè)數(shù)字化轉(zhuǎn)型持續(xù)加速,但受數(shù)據(jù)標(biāo)準(zhǔn)不一、采集誤差等影響,數(shù)據(jù)存在分布偏差、顆粒度不一、采集缺失等狀況,導(dǎo)致大量數(shù)據(jù)沉淀且難以直接使用。同時(shí),為更好支持?jǐn)?shù)據(jù)資源向可供人工智能大模型使用的高質(zhì)量數(shù)據(jù)集轉(zhuǎn)化,還需進(jìn)一步完善面向應(yīng)用端的數(shù)據(jù)治理、標(biāo)注、評(píng)估和開(kāi)發(fā)利用機(jī)制。
二是數(shù)據(jù)治理技術(shù)融合創(chuàng)新有待提升。行業(yè)高質(zhì)量數(shù)據(jù)集是數(shù)據(jù)資源和專業(yè)知識(shí)的融合產(chǎn)物,現(xiàn)階段行業(yè)專識(shí)數(shù)據(jù)集主要依賴人工標(biāo)注,亟需智能化、自動(dòng)化標(biāo)注工具以及精準(zhǔn)的數(shù)據(jù)合成技術(shù)支持,以提升數(shù)據(jù)集生產(chǎn)效率,滿足專業(yè)場(chǎng)景對(duì)數(shù)據(jù)集“規(guī)模”“質(zhì)量”“附加知識(shí)”的多重需求。
三是高質(zhì)量數(shù)據(jù)集專項(xiàng)支持政策有待完善。高知識(shí)密度、高應(yīng)用價(jià)值的數(shù)據(jù)集開(kāi)發(fā)周期長(zhǎng)、成本高、復(fù)用率低,數(shù)據(jù)價(jià)值轉(zhuǎn)化路徑不清,市場(chǎng)回報(bào)機(jī)制不明,缺乏專門(mén)針對(duì)行業(yè)專識(shí)數(shù)據(jù)集的投資或補(bǔ)貼政策。同時(shí),高質(zhì)量數(shù)據(jù)集價(jià)值實(shí)現(xiàn)面臨流通慢、責(zé)任界定不清等問(wèn)題,影響供需雙方的積極性和規(guī)?;灰祝枰M(jìn)一步構(gòu)建涵蓋高質(zhì)量數(shù)據(jù)集建設(shè)、流通交易、創(chuàng)新應(yīng)用、運(yùn)營(yíng)收益的政策體系。
為應(yīng)對(duì)上述挑戰(zhàn),需要多方協(xié)同發(fā)力,推動(dòng)形成涵蓋資源匯聚、流通、應(yīng)用以及技術(shù)創(chuàng)新、制度建設(shè)的高質(zhì)量數(shù)據(jù)集建設(shè)體系,有力支撐人工智能應(yīng)用創(chuàng)新發(fā)展。
一是暢通高質(zhì)量數(shù)據(jù)集流通交易渠道。將高質(zhì)量公共數(shù)據(jù)集納入公共數(shù)據(jù)管理,實(shí)現(xiàn)集中管理、高效調(diào)用、智能應(yīng)用,提升在政府部門(mén)間的整體利用效能。進(jìn)一步完善供給渠道,打造高質(zhì)量數(shù)據(jù)集流通交易體系,一方面依托公共數(shù)據(jù)開(kāi)放平臺(tái),打造高質(zhì)量數(shù)據(jù)集開(kāi)放專題,持續(xù)保障面向企業(yè)和社會(huì)公眾的高質(zhì)量數(shù)據(jù)集普惠供給;另一方面鼓勵(lì)公共數(shù)據(jù)專區(qū)運(yùn)營(yíng)單位,結(jié)合本領(lǐng)域市場(chǎng)需求,定向開(kāi)展高質(zhì)量數(shù)據(jù)集融合建設(shè),提升高質(zhì)量數(shù)據(jù)集市場(chǎng)化供給能力。同時(shí),支持相關(guān)開(kāi)源平臺(tái)等規(guī)范化、規(guī)?;\(yùn)營(yíng),探索高質(zhì)量數(shù)據(jù)集開(kāi)源機(jī)制。支持?jǐn)?shù)據(jù)交易機(jī)構(gòu)加快構(gòu)建人工智能行業(yè)高質(zhì)量數(shù)據(jù)集供需對(duì)接能力,進(jìn)一步整合外部資源力量,引入數(shù)據(jù)集清洗、標(biāo)注、合成、質(zhì)檢等領(lǐng)域生態(tài)合作伙伴,形成高質(zhì)量數(shù)據(jù)集開(kāi)發(fā)治理、供需對(duì)接、評(píng)估定價(jià)等服務(wù)能力。
二是加大高質(zhì)量數(shù)據(jù)集相關(guān)技術(shù)攻關(guān)力度。聚焦關(guān)鍵環(huán)節(jié)突破,加大科技研發(fā)投入,鼓勵(lì)相關(guān)市場(chǎng)主體打造智能化、自動(dòng)化的行業(yè)高質(zhì)量數(shù)據(jù)集標(biāo)注工具,強(qiáng)化人機(jī)協(xié)同能力,提升標(biāo)注效率與精準(zhǔn)度。組織攻關(guān)多源異構(gòu)數(shù)據(jù)融合技術(shù),建立統(tǒng)一跨行業(yè)數(shù)據(jù)格式標(biāo)準(zhǔn),破解“數(shù)據(jù)孤島”難題。推動(dòng)數(shù)據(jù)合成等技術(shù)迭代,探索模擬稀缺高質(zhì)量數(shù)據(jù)集的有效路徑,通過(guò)技術(shù)創(chuàng)新夯實(shí)數(shù)據(jù)集建設(shè)根基。
三是健全數(shù)據(jù)集建設(shè)保障制度。發(fā)揮數(shù)據(jù)標(biāo)準(zhǔn)化技術(shù)委員會(huì)作用,推動(dòng)高質(zhì)量數(shù)據(jù)集格式、質(zhì)量、流通有關(guān)標(biāo)準(zhǔn)建設(shè)。探索原創(chuàng)數(shù)據(jù)集確權(quán)、價(jià)值評(píng)估、流通交易、收益分配等機(jī)制建設(shè),培育可持續(xù)供給生態(tài)。鼓勵(lì)各類社會(huì)主體共建數(shù)據(jù)要素創(chuàng)新安全可信環(huán)境,充分利用“數(shù)據(jù)要素×”競(jìng)賽活動(dòng)等渠道,加強(qiáng)對(duì)高質(zhì)量數(shù)據(jù)集評(píng)估測(cè)試和應(yīng)用落地的全面支撐。
文 | 北京市人民政府副秘書(shū)長(zhǎng) 北京市政務(wù)服務(wù)和數(shù)據(jù)管理局黨組書(shū)記、局長(zhǎng) 沈彬華
版權(quán)與免責(zé)聲明:
凡本站注明“來(lái)源:智能制造網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-智能制造網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本站授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來(lái)源:智能制造網(wǎng)”。違反上述聲明者,本站將追究其相關(guān)法律責(zé)任。
本站轉(zhuǎn)載并注明自其它來(lái)源(非智能制造網(wǎng))的作品,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn)或和對(duì)其真實(shí)性負(fù)責(zé),不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如其他媒體、平臺(tái)或個(gè)人從本站轉(zhuǎn)載時(shí),必須保留本站注明的作品第一來(lái)源,并自負(fù)版權(quán)等法律責(zé)任。如擅自篡改為“稿件來(lái)源:智能制造網(wǎng)”,本站將依法追究責(zé)任。
鑒于本站稿件來(lái)源廣泛、數(shù)量較多,如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)與本站聯(lián)系并提供相關(guān)證明材料:聯(lián)系電話:0571-89719789;郵箱:1271141964@qq.com。