数字中文建设在行动

0次浏览     发布时间:2025-04-01 02:59:00    

为落实《教育强国建设规划纲要(2024—2035年)》,教育部、国家语委、中央网信办近日共同印发《关于加强数字中文建设 推进语言文字信息化发展的意见》(以下简称《意见》),部署应用关键新技术,构建资源数据新体系,实施赋能全局新行动,全力服务教育强国、科技强国和文化强国建设。

3月31日,教育部召开新闻发布会,介绍推进语言文字信息化发展情况。

明确两步发展阶段

《意见》提出,加强数字中文建设的理念、政策、行动和项目,将数字中文建设作为服务数字中国建设的重要任务和全面推进语言文字信息化发展的突出重点,全方位释放语言文字在经济社会发展中的数据要素价值,着力推进中文数字化与数据中文化,着力推进创新应用与规范安全,着力推进新型中文服务体系构建与语言文字治理体系完善。

《意见》明确两步发展阶段:第一步到2027年,是以数字中文建设为重点的强基示范阶段,形成语言文字信息化推进机制,推动语言文字信息化规范标准、前沿语言技术、优质语言资源、新型语言服务等基础支撑能力显著增强;第二步面向2035年,是全面推进语言文字信息化发展的深化赋能阶段,推动承载中华文化的中文在全球数字空间、网络空间以及生成式人工智能等关键场景中的使用占比和价值引领作用显著提高,实现我国语言文字信息化整体水平位居世界前列。

教育部语言文字信息管理司司长刘培俊介绍,重点加强数字中文建设主要有以下考虑:一是中文使命任务重大——今后一个时期,中文服务数字中国建设,加大国家通用语言文字推广力度,深化中华优秀语言文化传承,增进语言文明国际交流互鉴等多项重大任务,更加需要中文数字化赋能。二是中文文化内涵丰富——中文承载着中华民族数千年的文明智慧,是中国贡献给世界的重要公共文化产品,更加需要中文数字化传播。三是中文使用范围广泛——中文是世界上使用人数最多的语言,是联合国六种工作语言之一,190多个国家和地区开展中文教学,85个国家将中文纳入国家的教育体系,更加需要中文数字化学习。四是中文数据价值突出——大规模、高质量的中文数据有利于推动中国特色大语言模型创新发展,更加需要中文数字化支撑。

从“信息载体”向“生产要素”转型

当前,大语言模型技术对大规模高质量语料提出前所未有的需求,赋予了数据中文化新的历史内涵和使命任务。北京大学王选计算机研究所所长汤帜认为,加强数字中文建设将从三个维度推动中文信息处理技术发展进入新阶段。

一是从重要资源转化为数据要素价值。语言文字将从“静态符号”向“动态数字资产”、从“信息载体”向“生产要素”转型,要重点推动语料库、数据标注与评价等标准的研制,支持文本生成与理解、语言翻译、情感分析等。

二是从广泛存在聚焦到关键领域应用。语言文字“日学而不察、日用而不觉”,广泛存在于社会生产各个方面。新形势下,语言文字将实现从符号存储到智能建模的质变,要聚焦关键垂直领域建设语料基础设施,构建支持大模型训练的高质量中文数据集。

三是从基础支撑提高到赋能全局发展。语言文字信息处理技术创新应用正经历从“GB2312字符集”到“万亿参数大语言模型”的范式变革。语言文字将实现与信息技术的深度融合,要形成“技术突破—场景落地—生态繁荣”的良性循环,打造数字化引领品牌,有力服务教育发展、助力科技创新、赋能文化传承、推动产业升级、促进社会进步。

建设高质量的语言文化语料资源

语料库是加强数字中文建设、推进语言文字信息化发展、推动语言文字高质量发展的基础支撑,也是经济社会信息化建设、数字化赋能和智能化发展的基础要素。

然而当前,在语言的教育教学和研究领域,虽然有多个语料库,但很多语料库还处于单一文本模式和领域应用阶段,在建设的理念、技术和方法、规模,以及数据多样性、时效性尤其是与人工智能相结合的大规模应用方面还存在不足,难以满足多元化、动态化尤其是智能化的语言数据需求。

对此,《意见》提出,到2027年初步建成国家关键语料库。刘培俊介绍,启动实施国家关键领域语料库建设计划,在关键学科、重点行业、战略区域、民生期待和社会急需领域,分批建设规范、安全、优质的国家关键语料库。目前,教育部、国家语委已经支持建设了30余项关键领域的语料库。

据介绍,国家关键领域语料库建设立足人工智能时代大背景,突破传统语料库单一文本模式和领域应用壁垒,以大模型训练及性能评测、智能计算为核心,以新质态、多模态、多语言、大规模、全域性为突出特性,为通用领域和细分领域多场景应用及创新发展提供规范、可信、高质量的语言文化语料资源。

(本报北京3月31日电 本报记者 柴如瑾)

相关文章
对话新经济人物丨铁骑力士邓先锋:用AI大模型赋能养殖业,只想证明普通鸡蛋也能营养健康

对话新经济人物丨铁骑力士邓先锋:用AI大模型赋能养殖业,只想证明普通鸡蛋也能营养健康

封面新闻记者 欧阳宏宇当我们托乡下亲戚帮忙搜罗土鸡蛋时,是否有想过科技正让普通鸡蛋更营养、更好吃。鸡蛋是最常见的生鲜小品类,但在人工智能大模型的赋能下,产业正在玩出新花活。从生产加工到运输消费,一颗鸡蛋里藏着哪些技术含量?蛋品产业又该如何变得更智慧?近日,四川铁骑力士总裁邓先锋在接受记者采访时表示,

2025-04-03 09:37:00

让“生态”走在创新前面

让“生态”走在创新前面

4月2日,山东省科技创新推进会在济南召开,围绕构建一流科技创新生态、加快推进科技强省建设,作出一系列安排部署。蛇年春节以来,中国科技成果的“井喷”,让科技创新的话题热度一直持续。“六小龙”何以出杭州?如何让现象级创新“横空出世”?怎样争当弄潮儿向涛头立?一系列讨论,与其说是对科技创新的关注,毋宁说是

2025-04-02 19:53:00

《上海市推动工业品跨境电商高质量发展行动方案(2025-2027年)》印发

《上海市推动工业品跨境电商高质量发展行动方案(2025-2027年)》印发

上海市经济和信息化委员会等部门印发《上海市推动工业品跨境电商高质量发展行动方案(2025-2027年)》。其中提出,立足打造国内国际双循环的产业发展生态,聚焦重点产业及细分领域,到2027年,培育一批具备全球布局能力、成长性较强的工业品跨境电商重点企业,在MRO工业品等领域形成具有市场影响力的通用型

2025-04-01 17:35:00

数字中文建设在行动

数字中文建设在行动

为落实《教育强国建设规划纲要(2024—2035年)》,教育部、国家语委、中央网信办近日共同印发《关于加强数字中文建设 推进语言文字信息化发展的意见》(以下简称《意见》),部署应用关键新技术,构建资源数据新体系,实施赋能全局新行动,全力服务教育强国、科技强国和文化强国建设。3月31日,教育部召开新闻

2025-04-01 02:59:00

通州又吸引全球投资40多亿元

通州又吸引全球投资40多亿元

近日,2025年“投资北京”大会在中关村论坛期间举行。通州区围绕大会主题,深度参与大会多项核心环节,通过项目签约、应用场景展示、企业对接、精准洽谈等形式,展示区域发展潜力与优质营商环境,吸引全球投资者目光。会上,通州区的五大签约项目预计将累计实现投资金额40多亿元。重点项目签约正在促进产业落地加速。

2025-03-31 21:05:00

小市值股票也有春天

小市值股票也有春天

目前A股市值不足20亿元的上市公司有600家左右,其中也存在着细分领域的龙头企业,而且有些公司还有很好的成长预期,这类公司未来也有估值重估的空间。小市值公司往往因为规模较小、知名度不高而容易被市场忽视。但是它们的业绩一旦出现快速增长,就有可能出现巨大的爆发力,很多大牛股都是从小市值公司开始成长的,今

2025-03-20 23:59:00

首款孟河医派中医数字人“Dr. 孟”发布!

首款孟河医派中医数字人“Dr. 孟”发布!

守正创新、科技赋能、AI赋能千年岐黄、数字传承孟河医脉!“Dr.孟”(孟博士)由常州市中医医院联合南京中医药大学人工智能与信息技术学院、中国移动通信集团江苏有限公司常州分公司、南京硅基智能科技有限公司研发,计划于2025年第二季度开放公众试用,是首款以孟河医派学术体系为核心的中医数字人。其命名致敬“

2025-03-20 21:51:00

新疆打造绿色算力“一张网”

新疆打造绿色算力“一张网”

来源:经济日报经济日报乌鲁木齐3月18日讯(记者耿丹丹)近年来,新疆以数字化改革为牵引,加强数字基础设施建设。聚焦特色优势产业集群建设,利用数字技术对传统产业进行全方位、全链条改造,赋能实体经济提质增效。在乌鲁木齐经济技术开发区(头屯河区)皖疆绿色算力科技产业园(乌鲁木齐融合算力中心),工作人员现场

2025-03-19 06:47:00