官方動態

最新的行業資訊、新聞公告,快速了解

資訊信息

Information
行業資訊

專家解讀 | 推動高質量數據集建設,加快實施“人工智能+”行動

時間:2025-03-05文章編輯:防爆云


文 | 中國信息通信研究院副院長 魏亮

習近平總書記指出,數據是數字經濟時代的基礎性資源、重要生產力和關鍵生產要素。近年來大模型技術不斷取得突破,其中大規模高質量訓練數據的投入,起到了關鍵作用,也進一步將“以數據為中心的人工智能”推向一個新階段。近期發布的 Deep Seek 系列模型訓練中大量高質量推理數據集的使用更加凸顯了高質量數據的重要性,而大模型要與垂直領域深度融合同樣需要高質量數據集的支撐。國家數據局圍繞高質量數據集建設相關工作開展了一系列工作部署。2025年2月19日,高質量數據集建設工作啟動會在北京組織召開,國家發展改革委、教育部、科技部、工業和信息化部等27個部門參會。下一步,高質量數據集建設工作將積極推進落實“人工智能+”行動,加快推動形成一批標志性成果,賦能行業高質量發展。

01

準確認識高質量數據集建設取得的進展和面臨的挑戰

高質量數據集構建是一項復雜而關鍵的任務,需要了解模型應用場景和需求,進而開發、構建和維護數據資源,提供持續有效的高質量數據集。當前,在頂層設計層面,國家數據局等17部門聯合印發《“數據要素×”三年行動計劃(2024—2026年)》,強化場景需求牽引,帶動數據要素高質量供給、合規高效流通,高質量數據集建設取得積極進展。在地方層面,湖北、江蘇、浙江等多省市明確了建設高質量數據集的數量、時間及激勵機制;湖北省數據局發布首批10個高質量數據集,推動構建高質量“數據集市”;蘇州市發布首批30個工業制造、交通運輸、金融服務等高質量數據集。在行業層面,智源研究院發布全球最大的多行業中英雙語數據集IndustryCorpus 1.0,包含3.4TB開源行業預訓練數據,覆蓋18類行業;中國信通院推出我國首個面向行業的人工智能數據集質量評估體系,為數據質量提供客觀、公立的評價能力和方法體系;北京國際大數據交易所累計發布約300個高質量數據集,形成10余個應用領域數據資源地圖。與此同時,還應看到目前高質量數據集建設還存在不少挑戰。

一是政府和業界不清楚行業高質量發展需要什么樣的數據。一方面,行業大模型數據具有需求多樣性的特點。不同行業部門對模型場景數據的需求各不相同,涉及分析、決策和生成不同的任務需求,這種多樣性要求在人工智能高質量數據集建設中,必須深刻理解業務場景。另一方面,行業大模型數據具有需求復雜性的特點。大模型涉及預訓練、微調、反饋強化學習等不同階段,不同階段都涉及到數據訓練構建和優化策略,需要多個數據源、多種數據類型融合對齊,這增加了數據處理和管理的復雜度。

二是行業企業不知道高質量數據集如何構建。構建大模型數據集主要包含數據采集、數據清洗、數據標注、質量評估等核心環節。各環節需要根據大模型數據集具有的規模大、多樣性足、行業垂直屬性強等特點進行針對性的技術研發和適配。但是,行業企業對于數據的理解程度不同,面向大模型的數據治理方法和經驗不足,傳統的數據處理工具和技術無法滿足大模型需求,需要引入先進的數據處理技術和工具提高數據處理效率和準確性。

三是業界不了解行業數據集質量如何評價。不同行業、不同數據源的數據完整性和準確性可能參差不齊,嚴重影響大模型的訓練效果和預測準確性,造成訓練資源浪費。此外,訓練數據獲取往往需要耗費大量時間和經濟成本,包括數據收集、清洗、標注等環節。在行業大模型的實際建設中,對于構建和采買的數據沒有統一的衡量標準,造成無法有效獲取高質量數據集資源。

02

分類推動高質量數據集供給體系建設

數據之于大模型就像石油之于汽車,汽車無法直接使用原油,原油只有經過一系列復雜的過程煉化成汽油后,才能給汽車使用。同樣,海量原始數據需要經過“煉化”形成高質量數據集,才能真正有效地用于大模型訓練。行業大模型訓練所需數據集,既要覆蓋行業通識,也要蘊含專門知識。其中,通識數據是通用大模型能力提升的基礎,行業通識數據是行業大模型訓練的基底,行業專業數據是企業推動行業大模型的應用、部署私域模型能力的底座。為此要根據急用先行、分類推進、合理使用的原則,推進高質量數據集建設。

一是加快通識類高質量數據集建設。通識類高質量數據集是指由政府機構、科研機構、開源社區或大型互聯網企業等公開數據構建的數據集,具有廣泛性和通用性,覆蓋多個領域,如自然語言處理、計算機視覺、語音識別等,能夠為企業提供豐富的訓練資源和基準測試環境,有助于行業大模型快速驗證算法、提升模型的基礎能力。此外,公共數據集還有助于促進跨行業、跨領域的數據共享和知識融合,推動行業大模型的持續進步和快速發展。

二是加快行業通用類高質量數據集建設。行業通用類高質數據集,是指針對某一特定行業或領域知識的具有事實性數據集,具有高度的專業性和針對性。這類數據集通常包含某一特定行業特有的知識、術語、場景和業務流程等信息,對于訓練出適用于行業應用的大模型至關重要,能夠覆蓋行業領域專業知識,提高模型在行業通識領域的泛化能力。

三是加快行業專用類高質量數據集建設。行業專用數據集,是指根據行業企業自身業務場景和需求收集的數據集。這類數據集通常包含行業企業內部業務流程、用戶行為、產品信息等關鍵信息,具有針對性和定制化的特點,能夠為行業企業提供高度個性化的訓練數據資源,構建專屬大模型。通過行業企業場景化數據集的訓練,可以定制化地優化大模型算法和參數設置,深度挖掘內部數據價值,實現模型的定制化優化與業務高度適配,使其更好地服務于業務需求和發展戰略,帶來更加精準和有效的業務洞察和決策支持。

03

加快提升高質量數據集構建能力

推動高質量數據建設,是一項系統工程,核心是提升行業數據集管理與運營效率、提升數據集質量和數量、充分挖掘數據資源價值、保障模型數據安全可信,需要系統性地加強能力建設。

一是完善行業數據集管理體系。編制行業數據資源目錄,細化數據集的分類與分級,明確結構化、半結構化及非結構化等多種數據類型,按照數據清洗處理程度(手動、半自動至全自動),開展數據集資源管理。構建高效協同的組織架構,確保從數據采集到模型應用的每一步都能夠得到有效管理和支持,建立數據治理與模型開發的協同架構。圍繞數據技術、平臺、應用及安全,制定詳盡標準,涵蓋數據生產、服務、質量評估及數據集管理。培養跨學科、跨專業的數據工程團隊,強化數據科學與模型訓練能力,為大模型的成功部署與持續優化奠定堅實基礎。

二是提升行業數據集開發維護能力。著力提升數據采集匯聚、數據預處理、數據標注等關鍵環節,以及指令微調、反饋對齊關鍵階段的技術工具能力。數據采集匯聚需具備高效的數據抓取、清洗與整合能力,確保數據的全面性和多樣性;數據預處理階段涵蓋數據清洗、去噪、歸一化等技術,以提升數據質量;數據標注環節要求深入理解數據特性,掌握高效的自動化和智能化標注技術。行業大模型數據集主要應用于指令微調階段和反饋對齊階段,通過有標注的指令數據對模型進行精細化調整,增強其任務執行能力,利用用戶反饋優化模型提升實際應用效果。此外,還需要制定詳細的數據技術處理要求和方案,以保證不同階段的數據分布一致性。

三是增強行業數據集質量控制。在質量管理方面,從流程管理、質量評估和組織規范三方面對大模型數據集生產到管理的各環節進行能力規范和等級評定,從源頭上確保數據集高質量生產和管理。在質量評估方面,針對行業大模型對數據質量進行更多維度的要求,提升數據集在模型應用上的實用效果。設計具體規則和方法,采用自動化標注和人工抽樣的方式對數據集自身質量進行前置檢測,采用模型驗證和消融實驗的方式對數據集在大模型的應用效果進行后置檢測,通過模型效果反饋進行數據集質量優化。

做實、做深、做細高質量數據集建設工作,就要深入貫徹落實黨中央、國務院決策部署,做好系統謀劃、加強統籌協調、做好部門協調。此次高質量數據集建設工作啟動會,為推動相關工作發出了動員令、吹響了集結號。相信通過國家數據局協同行業主管部門的政策牽引和政、產、學、研、用多方協同,我國高質量數據集建設步伐將越來越快,也必將為人工智能賦能實體經濟注入強勁動力。

來源:國家數據局

久久精品视频夜晚,免费国产黄线在线播放,久久亚洲一区二区三区四区,欧美日韩亚洲乱国产综合AⅤ
亚洲国产精品日韩专区a∨ 中文字幕在线有码午夜 | 在线亚洲欧美日韩精品专区 | 日本十八禁免费看污网站 | 一本精品中文字幕在线 | 欧美日韩精品一区二区三区不卡 | 亚洲成色在线观看网站 |