上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-04-07 10:31:28 256人关注

谷歌新研究：合成数据助力大模型，数学推理能力提升八倍

近期，谷歌、卡内基梅隆大学与 MultiOn 的研究团队联合发布了一项关于合成数据在大模型训练中应用的新研究。根据 AI 发展科研机构 Epoch AI 的报告，目前人类公开的高质量文本训练数据大约有300万亿 tokens，但随着大型模型如 ChatGPT 的快速发展，对训练数据的需求正以指数级增长，预计在2026年前这些数据将被消耗殆尽，因此合成数据逐渐成为重要的替代方案。

Google Research 合成数据数学推理 AI研究数据增强技术

2025-01-15 07:36:19 117人关注

Meta AI 研究员：网络上的文本都是“垃圾” Llama 3全是合成数据

Meta AI的研究员Thomas Scialom最近在一次采访中分享了一些关于他们最新项目Llama3的见解。他直言不讳地指出，网络上的大量文本质量参差不齐，他认为在这些数据上进行训练是一种资源浪费。因此，Llama3的训练过程中并没有依赖任何人类编写的答案，而是完全基于Llama2生成的合成数据。

Meta AI LLaMA 3 合成数据 AI研究员大模型训练数据

2024-12-29 15:45:19 125人关注

Writer使用合成数据降低人工智能模型训练成本，挑战业界巨头

据CNBC报道，旧金山的人工智能初创公司Writer周三推出了一款大型人工智能模型，与OpenAI、Anthropic等公司提供的企业产品展开竞争。令人瞩目的是，Writer只需花费约70万美元来训练其最新模型，包括数据和GPU，而竞争对手的初创公司则花费了数百万美元来构建自己的模型。

AI训练成本降低合成数据应用 AI训练优化合成数据技术低成本AI训练方法

2024-12-28 17:15:26 145人关注

合成数据有毒！Meta团队证实：1%数据就能让大模型完全崩溃

最近AI圈子发生了一件怪事，就像一个吃播博主突然开始吃自己做的菜，而且越吃越上瘾，菜也越来越难吃。这事儿说起来还挺吓人，专业的术语叫模型崩溃（model collapse）。

合成数据数据毒性 Meta团队研究 AI数据安全合成数据研究

- 上云资讯 -

谷歌新研究：合成数据助力大模型，数学推理能力提升八倍

Meta AI 研究员：网络上的文本都是“垃圾” Llama 3全是合成数据

Writer使用合成数据降低人工智能模型训练成本，挑战业界巨头

合成数据有毒！Meta团队证实：1%数据就能让大模型完全崩溃

推荐阅读

上云服务