- 上云资讯 -
2025-04-07 10:31:28 48人关注
谷歌新研究:合成数据助力大模型,数学推理能力提升八倍
近期,谷歌、卡内基梅隆大学与 MultiOn 的研究团队联合发布了一项关于合成数据在大模型训练中应用的新研究。根据 AI 发展科研机构 Epoch AI 的报告,目前人类公开的高质量文本训练数据大约有300万亿 tokens,但随着大型模型如 ChatGPT 的快速发展,对训练数据的需求正以指数级增长,预计在2026年前这些数据将被消耗殆尽,因此合成数据逐渐成为重要的替代方案。
2025-01-15 07:36:19 51人关注
Meta AI 研究员:网络上的文本都是“垃圾” Llama 3全是合成数据
Meta AI的研究员Thomas Scialom最近在一次采访中分享了一些关于他们最新项目Llama3的见解。他直言不讳地指出,网络上的大量文本质量参差不齐,他认为在这些数据上进行训练是一种资源浪费。因此,Llama3的训练过程中并没有依赖任何人类编写的答案,而是完全基于Llama2生成的合成数据。
2024-12-29 15:45:19 49人关注
Writer使用合成数据降低人工智能模型训练成本,挑战业界巨头
据CNBC报道,旧金山的人工智能初创公司Writer周三推出了一款大型人工智能模型,与OpenAI、Anthropic等公司提供的企业产品展开竞争。令人瞩目的是,Writer只需花费约70万美元来训练其最新模型,包括数据和GPU,而竞争对手的初创公司则花费了数百万美元来构建自己的模型。
2024-12-28 17:15:26 58人关注
合成数据有毒!Meta团队证实:1%数据就能让大模型完全崩溃
最近AI圈子发生了一件怪事,就像一个吃播博主突然开始吃自己做的菜,而且越吃越上瘾,菜也越来越难吃。这事儿说起来还挺吓人,专业的术语叫模型崩溃(model collapse)。