高質(zhì)量數(shù)據(jù)集,簡而言之,就是那些具有高價值、高密度且標(biāo)準(zhǔn)化的數(shù)據(jù)。在人工智能領(lǐng)域,它扮演著至關(guān)重要的角色。北京公開征集行業(yè)高質(zhì)量數(shù)據(jù)集需求和建設(shè)成果的通知;國務(wù)院國資委發(fā)布了首批包含10余個行業(yè)30項(xiàng)的央企人工智能高質(zhì)量數(shù)據(jù)集建設(shè)成果。隨著大模型技術(shù)的迅猛發(fā)展,數(shù)據(jù)集作為人工智能核心三要素之一,在算法趨同、算力普惠的競爭環(huán)境中正在構(gòu)建難以復(fù)制的差異化壁壘。
高質(zhì)量數(shù)據(jù)是AI應(yīng)用可靠性的保障
數(shù)據(jù)集的質(zhì)量直接影響著人工智能的“智商”。
政策層面的舉措充分體現(xiàn)了高質(zhì)量數(shù)據(jù)的重要性。國家數(shù)據(jù)局等17部門已聯(lián)合印發(fā)《數(shù)據(jù)要素×三年行動計(jì)劃(2024—2026年)》,鼓勵科研機(jī)構(gòu)和龍頭企業(yè)共同打造行業(yè)共性數(shù)據(jù)資源庫。
而在第八屆數(shù)字中國建設(shè)峰會上,國務(wù)院國資委更是發(fā)布了首批涵蓋多個行業(yè)的高質(zhì)量數(shù)據(jù)集,為人工智能產(chǎn)業(yè)注入了新的活力。這不僅展示了央企在人工智能領(lǐng)域的積極探索和實(shí)踐,更體現(xiàn)了高質(zhì)量數(shù)據(jù)集對于推動行業(yè)發(fā)展的關(guān)鍵作用。這些高質(zhì)量數(shù)據(jù)集為AI模型在相關(guān)行業(yè)的應(yīng)用提供了堅(jiān)實(shí)的基礎(chǔ),使得AI模型能夠更準(zhǔn)確地理解和處理復(fù)雜的業(yè)務(wù)場景,從而保障了AI應(yīng)用在實(shí)際生產(chǎn)中的可靠性。
高質(zhì)量數(shù)據(jù)集建設(shè)正處于探索階段
《全國數(shù)據(jù)資源調(diào)查報(bào)告(2024年)》預(yù)測,2025年全國數(shù)據(jù)生產(chǎn)總量將突破50ZB。當(dāng)前,高質(zhì)量數(shù)據(jù)集主要面臨目標(biāo)定位模糊化、實(shí)施路徑碎片化與技術(shù)底座薄弱三重挑戰(zhàn)。
許多企業(yè)和機(jī)構(gòu)在建設(shè)高質(zhì)量數(shù)據(jù)集時,缺乏明確的目標(biāo)和定位。這導(dǎo)致在數(shù)據(jù)采集過程中出現(xiàn)盲目性,收集了大量無關(guān)或低質(zhì)量數(shù)據(jù)。
高質(zhì)量數(shù)據(jù)集建設(shè)涉及多個環(huán)節(jié),包括數(shù)據(jù)采集、清洗、標(biāo)注等。目前,這些環(huán)節(jié)之間缺乏有效的協(xié)同和整合,導(dǎo)致實(shí)施路徑碎片化。
高質(zhì)量數(shù)據(jù)集建設(shè)需要先進(jìn)的技術(shù)支持,如數(shù)據(jù)存儲、處理和分析技術(shù)等。然而,一些企業(yè)和機(jī)構(gòu)的技術(shù)底座相對薄弱,無法滿足大規(guī)模、高復(fù)雜度數(shù)據(jù)處理的需求。
系統(tǒng)推進(jìn)高質(zhì)量數(shù)據(jù)集建設(shè)
國家數(shù)據(jù)局副局長夏冰強(qiáng)調(diào),數(shù)據(jù)集的質(zhì)量和效率提升對于人工智能賦能實(shí)體經(jīng)濟(jì)的推動作用不容忽視。因此,需要從多個維度系統(tǒng)推進(jìn)高質(zhì)量數(shù)據(jù)集建設(shè)工作。
首先,產(chǎn)業(yè)合作是推進(jìn)高質(zhì)量數(shù)據(jù)集建設(shè)的重要途徑。不同企業(yè)和機(jī)構(gòu)在數(shù)據(jù)資源、技術(shù)能力和專業(yè)知識等方面存在差異。通過合作,他們可以共享數(shù)據(jù)資源,整合各方優(yōu)勢,共同打造高質(zhì)量數(shù)據(jù)集。
其次,數(shù)據(jù)標(biāo)注是高質(zhì)量數(shù)據(jù)集建設(shè)的關(guān)鍵環(huán)節(jié)。數(shù)據(jù)標(biāo)注的質(zhì)量直接影響到AI模型的學(xué)習(xí)效果。建立專業(yè)的數(shù)據(jù)標(biāo)注基地,能夠提供標(biāo)準(zhǔn)化、規(guī)范化的數(shù)據(jù)標(biāo)注服務(wù)。
最后,建設(shè)數(shù)據(jù)平臺是整合數(shù)據(jù)資源、提高數(shù)據(jù)管理效率的重要手段。數(shù)據(jù)平臺可以將各個部門和系統(tǒng)中的數(shù)據(jù)進(jìn)行整合和集中存儲,采用先進(jìn)的存儲技術(shù)和安全機(jī)制,保證數(shù)據(jù)的安全性和可靠性。