开普云参与由中国集中空间安全协会及国度互联网救急中心都集发起的“汉文互联网基础语料3.0”发布庆典
9月17日,在昆明召开的2025年国度集中安全宣传周东谈主工智能安全处分分论坛上,汉文互联网基础语料3.0厚爱向社会发布。动作该语料的孝顺单元之一,开普云受邀参加发布庆典。
在中央网信办关系部门教导下,中国集中空间安全协会会同国度互联网救急中心等单元,在前期发布汉文互联网基础语料1.0和2.0的基础上,依托网安协会东谈主工智能安全处分专委会建立的语料共建分享机制,集聚开普云等公司提供的一批新的高质料真确数据,经过信源筛选、本色过滤、数据去重等一系列严格概括的数据加工处理程序,变成并对社会发布汉文互联网基础语料3.0。
该语料库旨在构建高质料汉文磨真金不怕火数据集,进步大模子在汉文语境下的准确性、巨擘性与性能弘扬,为我国AI产业生态发展提供坚实数据维持。
开普云积极反映网安协会语料专委会的倡议,深度参与语料库共建责任。早在2023年,公司便从自有的PB级优质语料中,精选出相当500GB的高质料政务数据,动作首批灵通资源,孝顺给语料库树立,为大模子磨真金不怕火提供了抓续、安全、真确的数据资源,灵验进步垂直界限模子性能,也为我国大模子工作商提供了高质料的汉文预磨真金不怕火数据集。
在参与语料库树立经过中,开普云秉抓严谨、科学的魄力,死守四大中枢原则:
一是勤劳客不雅准确,觉得真确、专科的输出,必须建立在高质料真确的语料数据基础之上;
二是按界限、分阶段激动,聚焦需求最大、问题最紧要的界限,如相识样式指引、媒体本色传播等界限;
三是健全责任机制,充分说明体制上风,作念好顶层缱绻,由国度统筹权术、斡旋组织,幸免低水平叠加树立,同期退换行家积极性,表示社会参与渠谈;
四是坚抓“边建边用、在用中建”的原则,树立初期,可向稳当条目的企业和机构灵通特定的、巨擘的语料,如正规多模态出书物组成的语料等。
语料库的树立是一项系统性、永远性的工程,需社会各界抓续干预与协同激动。曩昔,开普云将连接协同各方力量,深切语料库树立与改变欺诈,夯实汉文大模子发展的数据基石,为我国AI产业迈向更高水平提供抓续、正经的数据维持。
