首页 > 车圈原创 > 车圈原创 > 中国信息通信研究院人工智能研究所李荪:人工智能正在由“模型为中心”转向“数据为中心”

中国信息通信研究院人工智能研究所李荪:人工智能正在由“模型为中心”转向“数据为中心”

发布时间:2025-09-21 22:20:47来源: 13041198719

9月21日,青海数据要素生态大会在西宁举行,本次大会以“激活数据要素价值,赋能青海高质量发展”为核心主题,会聚了众多行业领袖与专家,共同探讨数据要素与区域经济的深度融合路径。

会议期间,中国信息通信研究院人工智能研究所平台与工程化部副主任李荪,以“站在AI产业与企业端”的务实视角,结合团队研究实践,深入剖析了数据在人工智能领域的关键地位及未来趋势。

近年来,人工智能的发展有目共睹,AI大模型的创新应用也逐步进入日常生产生活。随着人工智能的模型训练及可信AI的研究实践加速深入,人工智能领域正在经历一场深刻的范式变革。

转向“以数据为中心”

自2022年开始,人工智能研究和应用重点逐步从“模型为中心”(Model-centricAI,MCAI)转向“数据为中心”(Data-centricAI,DCAI)。也就是说,在模型相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果。

“人工智能每次阶段性的进步,数据都扮演着重要角色,尤其在大模型时代,海量、高质量、多样化的数据集,成为拉开模型能力差距的关键要素。”李荪认为,人工智能持续演进对数据集提出了新要求,而且,大模型技术对数据集质量和工程路线也提出了更高要求。

在技术层面,大模型对数据集的要求主要体现在三个方面,包括规模可扩展性增强、多任务适应性增强以及能力可塑性增强。

具体来说,参数规模和计算量的增加带来了模型性能的持续提升,而一个模型能同时支持多种任务和多个模态,甚至实现跨模态,已成为新的技术追求。为了实现这些目标,迫切需要强化四类数据集的供给,包括多模态数据集、具身智能数据集、推理思维链数据集和长视频数据集。

李荪表示,这些数据集将使模型更加全面和精准地理解和处理任务,增强机器人在多样化环境和任务中的适应性和决策智能,并促进模型推理能力的大幅提升。

此外,大模型的研究训练中,进一步强化学习新范式聚焦于高质量推理型数据集,通过收集大量的推理相关训练样本和非推理训练样本,推理训练监督微调数据占比大幅减少,从而提高了模型的推理能力。

高质量数据集建设

数据产业和人工智能的发展离不开政策的助力,近年来,国家部委和地方政府加大对“人工智能+高质量数据集”的支持,政策协同效应开始显现。

作为数据要素领域的行动指南,《“数据要素×”三年行动计划》,强调打造高质量人工智能大模型训练数据集。2025年国务院国资委发布首批30项央企高质量数据集,覆盖了能源、物流等关键领域。

同时,《关于促进数据标注产业高质量发展的实施意见》的落地,提出通过提升数据集质量、扩大应用场景、强化技术创新等举措,为人工智能产业发展提供关键支撑。截至2025年3月底,沈阳、保定等7个数据标注基地建设高质量数据集335个。

而且,从地方层面的实践来看,高质量数据集建设已经在各地开花。比如,上海市明确“2025年形成1000个高质量数据集”的目标,苏州市发布首批30个工业、交通领域数据集,北京市、山东省等11个地区则通过奖补政策激励数据建设等。

李荪提出,“AI与数据的融合,最终要形成产业‘飞轮’”,优质数据集能支撑企业研发出更优行业大模型,而大模型应用落地后,又会采集到更多真实场景数据,反哺数据集迭代。基于此,她认为,未来拥有高质量数据的企业,会持续拉开与同行的差距。

不过,在AI与数据的融合落地实践中,仍存在一些问题。李荪指出,当前企业在构建数据集时普遍面临目标定位模糊、实施路径碎片化以及技术底座薄弱等挑战。许多企业陷入“为数据而数据”的误区,未能将数据工程目标与核心业务指标深度绑定,导致数据价值难以转化为模型性能的实际提升。

展望未来,李荪表示,随着技术的不断进步和应用场景的持续拓展,数据与人工智能的深度融合将成为不可逆转的趋势。

车圈原创更多>>

欧盟委员会正式公布《工业加速法案》(IAA),以“提升低碳转型竞争力”为名,推出严格的战略产业本地含量要求 沃尔沃汽车12月至2月销量下滑10% 在鸿蒙智行技术焕新发布会上,华为产品负责人宣布问界M9全系累计交付量突破28万台 华为乾崑发布最高896线激光雷达,将首搭尊界S800与问界M9 宝马工厂人形机器人,电爪来自中国 奇瑞汽车正式发布瑞虎7L官方图片,新车定位紧凑型SUV,将于2026年一季度正式上市 奔驰GLC终端让利大幅加码,多地经销商报出最高优惠12.5万元,入门版裸车价下探至27万出头 iCAR V27完整配置正式曝光,凭借越级智能与硬核实力,迅速成为硬派方盒子SUV市场焦点 OPPO Find N6真机现身,折痕控制很不错! IDC:智能手机市场恐将因存储芯片供应短缺而下滑13% 魅族确认放弃手机业务:后续聚焦AI驱动软件产品 OPPO Find N6确认配备AI手写笔,其搭载行业首发AI功能! 蓝厂最强旗舰来了!vivo X300 Ultra官宣:全大底三主摄加持 影像灭霸 博通发布多维堆叠芯片平台 高管扬言今明两年能卖出100万颗 百度2.0:一场由AI驱动的核心价值重构 京东APP正式上线「百亿超市」,剑指即时零售 2026年印尼汽车购置激励政策尚未明确,消费者延后购车,政府拟将资金转向国产车开发 3M凭借其材料科学领域的创新技术,正为汽车行业提供更加安全、环保与高效的解决方案 格兰海芬嘉定基地扩产增能项目签约,预计2026年实现产值约4.7亿 新合作!泉州市与宁德时代合作共建智能零碳电池工厂 上海2026汽车以旧换新政策落地,最高补贴2万元 流媒体后视镜风口正劲,华阳前装配套量同比激增近400% 单张不到五毛钱!谷歌深夜发布Nano Banana 2,没有颠覆性,但量大管饱! AI智能体不是越多越强:信息冗余构成了LLM Agent Scaling的瓶颈 特斯拉官宣进军摩洛哥市场,向这个北非国家推出Model 3和Model Y两款车型 保时捷992代911 GT3 RS首台车在越南正式上路 苹果硬抗内存飙升压力!iPhone 18 Pro/Pro Max起售价不变 2025年全球手机存量报告:苹果、三星破10亿断层领先 小米第三 iPhone 17 Pro Max续航测试:WiFi比5G多约3小时使用时长 三星官宣2月26日举办Galaxy Unpacked发布会