海天瑞声CEO李科:数据产业正从劳动密集型向技术和知识密集型转变
专题:2025 INCLUSION·外滩大会:重塑创新增长
炒股就看金麒麟分析师研报,海天权威,瑞声专业,科数及时,据产集型全面,业正助您挖掘潜力主题机会!从劳
新浪科技讯 9月13日下午消息,动密在2025 Inclusion·外滩大会“Data meets AI:智能时代的向技型转双引擎”见解论坛上,产学界的术和多位权威专家给出了新解法:数据驱动了AI发展,AI也让数据迎来了新一轮的知识进化,双引擎融合驱动才是密集演进方向。
复旦大学教授肖仰华指出,海天当前大模型发展正面临严峻的瑞声“数据墙”困境,无标签语料对模型性能提升的科数贡献日益减弱,更大规模数据带来的据产集型性能提升与所需的训练开销相比性价比显著降低。他认为,大模型数据科学需要从专家经验阶段发展到量化科学、直至自进化阶段。“大模型的数据实践需要屠呦呦式的研究,从海量杂乱的数据中提取出决定模型能力的关键成分”。
肖仰华分享了通过语法复杂度指标和累积分布采样方法筛选高质量语料的实践,实验表明,从100亿个token的财经语料中仅筛选20%的高质量数据进行训练,对模型进行持续预训练,相比于全量数据持续预训练,在领域问答任务上的准确率提升1.7%。
上海交通大学特聘教授翟广涛强调无论是精炼数据还是合成数据,都需要质量优先,而数据质量分析要从“体验质量”入手,考虑人的体验,也考虑机器的体验,进而在数据为中心的范式下进一步提升大模型性能。
海天瑞声CEO李科从产业实践角度分享了全球AI数据行业的发展趋势。他认为,数据产业正在经历从劳动密集型向技术密集型和知识密集型的重大转型。通过动捕数据、自动驾驶标注、思维链数据集等多个实际案例,李科展示了高质量数据如何服务千行百业。
上海库帕思科技有限公司董事长山栋明说,模型之变引领“数据质变”,他表示高质量数据集应满足VALID²(鲜活度、真实性、大样本、完整性、多样性、高知识密度)要求,并详细介绍了语料数据在方法论、基础设施和行业生态三个方面的体系化重构探索。(罗宁)

责任编辑:常福强
相关文章:
相关推荐:
- iPhone Air 天猫双11首发,Apple Store官方旗舰店开启预约通道
- 蔚来宣布完成10亿美元股权增发融资
- “催收式短信”遭吐槽,美团客服回复:已进行调整,感谢关注和提醒
- 亚马逊云科技:“裁员比例两三成”报道严重失实,正在中国积极招聘人才
- TA:阿森纳未违反PSR 因俱乐部收入大幅增加
- 亚马逊云科技:“裁员比例两三成”报道严重失实,正在中国积极招聘人才
- 星纪魅族万志强:22是魅族史上打磨时间最久的一台手机,数字系列不再区分Pro版与标准版
- 菜鸟进一步强化全球物流网络:与卡塔尔航空货运达成长期战略合作
- 曼联高层与球员进行会谈 阿莫林帅位悬而未决
- 国内AI视频生成单笔最高融资诞生,巨人网络参与爱诗科技B轮融资