數(shù)字中文建設(shè)在行動(dòng)
為落實(shí)《教育強(qiáng)國(guó)建設(shè)規(guī)劃綱要(2024—2035年)》,教育部、國(guó)家語(yǔ)委、中央網(wǎng)信辦近日共同印發(fā)《關(guān)于加強(qiáng)數(shù)字中文建設(shè) 推進(jìn)語(yǔ)言文字信息化發(fā)展的意見(jiàn)》(以下簡(jiǎn)稱(chēng)《意見(jiàn)》),部署應(yīng)用關(guān)鍵新技術(shù),構(gòu)建資源數(shù)據(jù)新體系,實(shí)施賦能全局新行動(dòng),全力服務(wù)教育強(qiáng)國(guó)、科技強(qiáng)國(guó)和文化強(qiáng)國(guó)建設(shè)。
3月31日,教育部召開(kāi)新聞發(fā)布會(huì),介紹推進(jìn)語(yǔ)言文字信息化發(fā)展情況。
明確兩步發(fā)展階段
《意見(jiàn)》提出,加強(qiáng)數(shù)字中文建設(shè)的理念、政策、行動(dòng)和項(xiàng)目,將數(shù)字中文建設(shè)作為服務(wù)數(shù)字中國(guó)建設(shè)的重要任務(wù)和全面推進(jìn)語(yǔ)言文字信息化發(fā)展的突出重點(diǎn),全方位釋放語(yǔ)言文字在經(jīng)濟(jì)社會(huì)發(fā)展中的數(shù)據(jù)要素價(jià)值,著力推進(jìn)中文數(shù)字化與數(shù)據(jù)中文化,著力推進(jìn)創(chuàng)新應(yīng)用與規(guī)范安全,著力推進(jìn)新型中文服務(wù)體系構(gòu)建與語(yǔ)言文字治理體系完善。
《意見(jiàn)》明確兩步發(fā)展階段:第一步到2027年,是以數(shù)字中文建設(shè)為重點(diǎn)的強(qiáng)基示范階段,形成語(yǔ)言文字信息化推進(jìn)機(jī)制,推動(dòng)語(yǔ)言文字信息化規(guī)范標(biāo)準(zhǔn)、前沿語(yǔ)言技術(shù)、優(yōu)質(zhì)語(yǔ)言資源、新型語(yǔ)言服務(wù)等基礎(chǔ)支撐能力顯著增強(qiáng);第二步面向2035年,是全面推進(jìn)語(yǔ)言文字信息化發(fā)展的深化賦能階段,推動(dòng)承載中華文化的中文在全球數(shù)字空間、網(wǎng)絡(luò)空間以及生成式人工智能等關(guān)鍵場(chǎng)景中的使用占比和價(jià)值引領(lǐng)作用顯著提高,實(shí)現(xiàn)我國(guó)語(yǔ)言文字信息化整體水平位居世界前列。
教育部語(yǔ)言文字信息管理司司長(zhǎng)劉培俊介紹,重點(diǎn)加強(qiáng)數(shù)字中文建設(shè)主要有以下考慮:一是中文使命任務(wù)重大——今后一個(gè)時(shí)期,中文服務(wù)數(shù)字中國(guó)建設(shè),加大國(guó)家通用語(yǔ)言文字推廣力度,深化中華優(yōu)秀語(yǔ)言文化傳承,增進(jìn)語(yǔ)言文明國(guó)際交流互鑒等多項(xiàng)重大任務(wù),更加需要中文數(shù)字化賦能。二是中文文化內(nèi)涵豐富——中文承載著中華民族數(shù)千年的文明智慧,是中國(guó)貢獻(xiàn)給世界的重要公共文化產(chǎn)品,更加需要中文數(shù)字化傳播。三是中文使用范圍廣泛——中文是世界上使用人數(shù)最多的語(yǔ)言,是聯(lián)合國(guó)六種工作語(yǔ)言之一,190多個(gè)國(guó)家和地區(qū)開(kāi)展中文教學(xué),85個(gè)國(guó)家將中文納入國(guó)家的教育體系,更加需要中文數(shù)字化學(xué)習(xí)。四是中文數(shù)據(jù)價(jià)值突出——大規(guī)模、高質(zhì)量的中文數(shù)據(jù)有利于推動(dòng)中國(guó)特色大語(yǔ)言模型創(chuàng)新發(fā)展,更加需要中文數(shù)字化支撐。
從“信息載體”向“生產(chǎn)要素”轉(zhuǎn)型
當(dāng)前,大語(yǔ)言模型技術(shù)對(duì)大規(guī)模高質(zhì)量語(yǔ)料提出前所未有的需求,賦予了數(shù)據(jù)中文化新的歷史內(nèi)涵和使命任務(wù)。北京大學(xué)王選計(jì)算機(jī)研究所所長(zhǎng)湯幟認(rèn)為,加強(qiáng)數(shù)字中文建設(shè)將從三個(gè)維度推動(dòng)中文信息處理技術(shù)發(fā)展進(jìn)入新階段。
一是從重要資源轉(zhuǎn)化為數(shù)據(jù)要素價(jià)值。語(yǔ)言文字將從“靜態(tài)符號(hào)”向“動(dòng)態(tài)數(shù)字資產(chǎn)”、從“信息載體”向“生產(chǎn)要素”轉(zhuǎn)型,要重點(diǎn)推動(dòng)語(yǔ)料庫(kù)、數(shù)據(jù)標(biāo)注與評(píng)價(jià)等標(biāo)準(zhǔn)的研制,支持文本生成與理解、語(yǔ)言翻譯、情感分析等。
二是從廣泛存在聚焦到關(guān)鍵領(lǐng)域應(yīng)用。語(yǔ)言文字“日學(xué)而不察、日用而不覺(jué)”,廣泛存在于社會(huì)生產(chǎn)各個(gè)方面。新形勢(shì)下,語(yǔ)言文字將實(shí)現(xiàn)從符號(hào)存儲(chǔ)到智能建模的質(zhì)變,要聚焦關(guān)鍵垂直領(lǐng)域建設(shè)語(yǔ)料基礎(chǔ)設(shè)施,構(gòu)建支持大模型訓(xùn)練的高質(zhì)量中文數(shù)據(jù)集。
三是從基礎(chǔ)支撐提高到賦能全局發(fā)展。語(yǔ)言文字信息處理技術(shù)創(chuàng)新應(yīng)用正經(jīng)歷從“GB2312字符集”到“萬(wàn)億參數(shù)大語(yǔ)言模型”的范式變革。語(yǔ)言文字將實(shí)現(xiàn)與信息技術(shù)的深度融合,要形成“技術(shù)突破—場(chǎng)景落地—生態(tài)繁榮”的良性循環(huán),打造數(shù)字化引領(lǐng)品牌,有力服務(wù)教育發(fā)展、助力科技創(chuàng)新、賦能文化傳承、推動(dòng)產(chǎn)業(yè)升級(jí)、促進(jìn)社會(huì)進(jìn)步。
建設(shè)高質(zhì)量的語(yǔ)言文化語(yǔ)料資源
語(yǔ)料庫(kù)是加強(qiáng)數(shù)字中文建設(shè)、推進(jìn)語(yǔ)言文字信息化發(fā)展、推動(dòng)語(yǔ)言文字高質(zhì)量發(fā)展的基礎(chǔ)支撐,也是經(jīng)濟(jì)社會(huì)信息化建設(shè)、數(shù)字化賦能和智能化發(fā)展的基礎(chǔ)要素。
然而當(dāng)前,在語(yǔ)言的教育教學(xué)和研究領(lǐng)域,雖然有多個(gè)語(yǔ)料庫(kù),但很多語(yǔ)料庫(kù)還處于單一文本模式和領(lǐng)域應(yīng)用階段,在建設(shè)的理念、技術(shù)和方法、規(guī)模,以及數(shù)據(jù)多樣性、時(shí)效性尤其是與人工智能相結(jié)合的大規(guī)模應(yīng)用方面還存在不足,難以滿足多元化、動(dòng)態(tài)化尤其是智能化的語(yǔ)言數(shù)據(jù)需求。
對(duì)此,《意見(jiàn)》提出,到2027年初步建成國(guó)家關(guān)鍵語(yǔ)料庫(kù)。劉培俊介紹,啟動(dòng)實(shí)施國(guó)家關(guān)鍵領(lǐng)域語(yǔ)料庫(kù)建設(shè)計(jì)劃,在關(guān)鍵學(xué)科、重點(diǎn)行業(yè)、戰(zhàn)略區(qū)域、民生期待和社會(huì)急需領(lǐng)域,分批建設(shè)規(guī)范、安全、優(yōu)質(zhì)的國(guó)家關(guān)鍵語(yǔ)料庫(kù)。目前,教育部、國(guó)家語(yǔ)委已經(jīng)支持建設(shè)了30余項(xiàng)關(guān)鍵領(lǐng)域的語(yǔ)料庫(kù)。
據(jù)介紹,國(guó)家關(guān)鍵領(lǐng)域語(yǔ)料庫(kù)建設(shè)立足人工智能時(shí)代大背景,突破傳統(tǒng)語(yǔ)料庫(kù)單一文本模式和領(lǐng)域應(yīng)用壁壘,以大模型訓(xùn)練及性能評(píng)測(cè)、智能計(jì)算為核心,以新質(zhì)態(tài)、多模態(tài)、多語(yǔ)言、大規(guī)模、全域性為突出特性,為通用領(lǐng)域和細(xì)分領(lǐng)域多場(chǎng)景應(yīng)用及創(chuàng)新發(fā)展提供規(guī)范、可信、高質(zhì)量的語(yǔ)言文化語(yǔ)料資源。