- 上云资讯 -
2025-07-25 10:11:35 87人关注
通义千问Qwen推出机器翻译模型Qwen-MT 基于Qwen 3打造
Qwen-MT机器翻译模型正式发布,Qwen-MT基于强大的Qwen3模型,经过超大规模多语言和翻译数据的训练,结合强化学习技术,显著提升了翻译结果的准确性和语言流畅度。开发者可以通过Qwen API(qwen-mt-turbo)直接体验其快速且准确的翻译能力。
2025-07-16 16:20:22 94人关注
字节跳动Seed最新强化学习配方POLARIS开源 4B 模型数学推理接近 235B 表现
近日,字节跳动Seed团队携手香港大学与复旦大学,共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略,成功将小模型的数学推理能力提升至与超大模型相媲美的水平,为人工智能领域的小模型优化提供了新路径。
2025-07-03 16:12:19 76人关注
探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异,推出 OctoThinker
大型语言模型(LLM)通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展,如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型,展现出强大的推理能力。然而,这种成功在不同的基础模型系列中难以复制,尤其是在 Llama 系列上。这引发了一个核心问题:究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?
大型语言模型 LLM 强化学习 Deepseek-R1-Zero 模型 基础模型表现差异 Llama 系列强化学习 复杂推理任务
2025-07-03 14:39:14 192人关注
DeepSWE 开源 AI Agent系统强势登顶,基于 Qwen3-32B
在人工智能领域,又一重磅消息传来。今天凌晨,知名大模型训练平台 Together.ai 与 Agentica 联合推出了开源 AI Agent框架 DeepSWE。这一创新系统是基于阿里最新开源的 Qwen3-32B 模型,完全通过强化学习进行训练。
Together.ai Agentica 开源AI Agent框架 DeepSWE Qwen3-32B模型 强化学习训练
2025-06-21 22:25:14 60人关注
检索增强预训练框架MaskSearch:让AI更聪明地“找答案”
检索增强掩码预测(RAMP)任务通过结合检索机制与掩码语言建模,有效提升了模型在知识密集型任务中的表现。监督微调(SFT)与强化学习(RL)相结合的方法显著优化了模型的生成质量,其中SFT提供基础能力训练,RL则通过奖励机制进一步细化输出。课程学习策略采用从简单到复杂的渐进式训练方案,使模型能够逐步掌握复杂任务,这种分层训练方法不仅提高了学习效率,还增强了模型的泛化能力。实验表明,这种组合方法在多个基准测试中取得了优于传统单一训练方式的性能表现。
2025-06-21 16:19:13 807人关注
月之暗面Kimi推出Kimi-Researcher深度研究Agent 并开启内测
近日,月之暗面旗下的Kimi智能助手宣布其首个Agent产品——Kimi-Researcher(深度研究)正式开启小范围灰度测试。这一基于端到端自主强化学习(end-to-end agentic RL)技术训练的新一代Agent模型,旨在为用户提供高效、深入的深度研究服务。
2025-05-27 10:38:45 196人关注
阿里突破性发布QwenLong-L1-32B:首个强化学习训练的长文本推理模型,性能媲美Claude-3.7
阿里巴巴今日正式发布QwenLong-L1-32B,这是一款专为长上下文推理设计的大型语言模型,标志着AI长文本处理能力的重大突破。该模型在性能表现上超越了o3-mini和Qwen3-235B-A22B,与Claude-3.7-Sonnet-Thinking达到相当水平。
阿里巴巴通义千问L1-32B 强化学习长文本模型 通义千问L1-32B模型 阿里巴巴大模型 长文本处理技术 强化学习模型应用
2025-03-15 10:34:20 247人关注
360智脑团队成功复现Deepseek强化学习效果,发布开源模型Light-R1-14B-DS
近日,360智脑团队宣布成功复现Deepseek的强化学习效果,并正式发布开源推理模型 Light-R1-14B-DS。该模型性能表现超越 DeepSeek-R1-Distill-Llama-70B和 DeepSeek-R1-Distill-Qwen-32B,成为业界首款在14B参数规模上实现强化学习效果的模型,显著提升了数学推理能力,成绩超过大多数32B级别模型。
DeepSeek Light R1-14B AI大模型 大模型技术 DeepSeek模型解析 大模型应用场景 AI技术前沿
2025-01-22 02:25:18 111人关注
k1系列强化学习模型登场!月之暗面Kimi上线视觉思考模型
月之暗面今日宣布发布全新视觉思考模型k1。这一模型基于强化学习技术,不仅支持端到端的图像理解,还整合了思维链技术,将能力扩展到了数学之外的更多基础科学领域,包括物理和化学。在基准能力测试中,k1模型的表现超越了全球领先的标杆模型,如OpenAI的o1、GPT-4o以及Claude3.5Sonnet。