田鑫,专业云、网、数据、安全一体化服务商

赋能企业发展数字化经济

行业动态>国内多数AI模型训练使用的中文数据占比已超60%

国内多数AI模型训练使用的中文数据占比已超60%

(来源:新华网)中文数据在国内AI大模型的训练性能提升方面发挥着重要作用。国家数据局近日发布的数据显示,目前国内多数AI模型训练使用的中文数据占比已经超过60%,有的模型达到80%。中文高质量数据的开发和供给能力持续增强,推动我国人工智能模型性能快速提升。

 

国家数据局局长刘烈宏表示,我国人工智能的快速发展,与我国高度重视数据工作是密不可分的。作为人工智能发展的核心要素之一,数据在推动“人工智能+”过程中发挥着关键作用,高质量数据集的建设至关重要。

 

 

“在人工智能时代,Token,也就是大家通常所说的词元,是处理文本的最小数据单元,如同互联网时代大家所说的‘流量’。”刘烈宏介绍,2024年初,我国日均Token的消耗量为1000亿,到今年6月底,日均Token消耗量已经突破30万亿,一年半时间增长了300多倍,反映了我国人工智能应用规模的快速增长。

 

据介绍,截至今年6月底,我国已经建设高质量数据集超过3.5万个,总体量超过了400PB(1PB可存储约5亿张2MB大小的高清照片),400PB的总量相当于中国国家图书馆数字资源总量的140倍左右。

 

人工智能模型的训练也推动了数据交易需求的攀升。截至今年6月底,各地高质量数据集累计交易额近40亿元,数据交易机构挂牌的高质量数据集总规模达到了246PB。

 

下一步,国家数据局将通过体系化布局持续推进高质量数据集建设,加快打造具身智能、低空经济、生物制造等重点领域数据高地,推动全社会强化数据要素价值认同,加快推进数据要素价值共创,培育“为优质数据买单”的市场共识。

 

田鑫,专业的企业组网服务商,致力于为企业提供企业组网(SD-WAN、MPLS、云互联)、数据中心、网络安全、系统集成服务、ICT解决方案、行业IT解决方案等相关服务。


更多相关内容推荐:

人形机器人正在用“场景”突破“场景”

从“炫技”到“服务”,国产人形机器人“抢滩”未来产业赛道

人工智能驱动企业创新增长

大模型难道只是智算中心的客户么?

引入AI基础设施,打造负责任的AI

AI技术融入高校 机遇与挑战并存

浙江推动人形机器人产业加快发展

行业大模型:打通AI场景应用“最后一公里”

AI技术打开高端手机市场新空间

双万兆与AI融合 共筑新质生产力

大模型悄然改变建筑业

以AI+赋能 竞逐大模型赛道 中国移动让“九天”触手可及

抓住“人工智能+音乐”创新机遇

AI赋能南极科研 游客照片成企鹅保护新工具

两会新华解码|具身智能如何走向未来?

人工智能提速全球能源行业变革

 

Copyright © 2016-2030 深圳市田鑫科技有限公司版权所有   粤ICP备16070069号-2粤公网安备 44030502003803号
公司地址:广东省深圳市南山区留仙大道创智云城一期A7座901
TOP