LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-07-25 10:11:35 87人关注

通义千问Qwen推出机器翻译模型Qwen-MT 基于Qwen 3打造

Qwen-MT机器翻译模型正式发布,Qwen-MT基于强大的Qwen3模型,经过超大规模多语言和翻译数据的训练,结合强化学习技术,显著提升了翻译结果的准确性和语言流畅度。开发者可以通过Qwen API(qwen-mt-turbo)直接体验其快速且准确的翻译能力。

Qwen-MT机器翻译模型 Qwen3模型 Qwen API翻译能力 多语言翻译数据训练 强化学习提升翻译准确性

2025-07-16 16:20:22 94人关注

字节跳动Seed最新强化学习配方POLARIS开源 4B 模型数学推理接近 235B 表现

近日,字节跳动Seed团队携手香港大学与复旦大学,共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略,成功将小模型的数学推理能力提升至与超大模型相媲美的水平,为人工智能领域的小模型优化提供了新路径。

强化学习训练方法 POLARIS 算法 Scaling RL 策略 小模型数学推理能力提升 人工智能小模型优化

2025-07-10 09:13:29 91人关注

昆仑万维重磅发布 Skywork-R1V 3.0:跨模态推理能力直逼人类专家!

近日,昆仑万维正式发布了其全新开源模型 Skywork-R1V3.0,宣称在多模态推理方面达到了前所未有的高度,甚至与人类初级专家的水平不相上下。该模型在训练过程中采用了强化学习策略,使得其在复杂逻辑建模与跨学科知识泛化方面取得了显著进展。

昆仑万维开源模型 Skywork-R1V3.0 多模态推理模型 强化学习策略 复杂逻辑建模 跨学科知识泛化

2025-07-03 16:12:19 76人关注

探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异,推出 OctoThinker

大型语言模型(LLM)通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展,如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型,展现出强大的推理能力。然而,这种成功在不同的基础模型系列中难以复制,尤其是在 Llama 系列上。这引发了一个核心问题:究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?

大型语言模型 LLM 强化学习 Deepseek-R1-Zero 模型 基础模型表现差异 Llama 系列强化学习 复杂推理任务

2025-07-03 14:39:14 192人关注

DeepSWE 开源 AI Agent系统强势登顶,基于 Qwen3-32B

在人工智能领域,又一重磅消息传来。今天凌晨,知名大模型训练平台 Together.ai 与 Agentica 联合推出了开源 AI Agent框架 DeepSWE。这一创新系统是基于阿里最新开源的 Qwen3-32B 模型,完全通过强化学习进行训练。

Together.ai Agentica 开源AI Agent框架 DeepSWE Qwen3-32B模型 强化学习训练

2025-06-26 17:35:25 63人关注

全新 GoT-R1 多模态模型发布:让 AI 画图更聪明,图像生成新纪元!

近日,来自香港大学、香港中文大学以及商汤科技的研究团队发布了一个令人瞩目的新框架 ——GoT-R1。这一全新的多模态大模型通过引入强化学习(RL),在视觉生成任务中显著提升了 AI 的语义和空间推理能力,成功应对复杂的文本提示生成高保真、语义一致的图像。这一进展标志着图像生成技术的又一次飞跃。

多模态大模型 视觉生成任务 强化学习在AI中的应用 GoT-R1框架 语义和空间推理能力 高保真图像生成

2025-06-21 22:25:14 60人关注

检索增强预训练框架MaskSearch:让AI更聪明地“找答案”

检索增强掩码预测(RAMP)任务通过结合检索机制与掩码语言建模,有效提升了模型在知识密集型任务中的表现。监督微调(SFT)与强化学习(RL)相结合的方法显著优化了模型的生成质量,其中SFT提供基础能力训练,RL则通过奖励机制进一步细化输出。课程学习策略采用从简单到复杂的渐进式训练方案,使模型能够逐步掌握复杂任务,这种分层训练方法不仅提高了学习效率,还增强了模型的泛化能力。实验表明,这种组合方法在多个基准测试中取得了优于传统单一训练方式的性能表现。

检索增强掩码预测 RAMP任务原理 监督微调与强化学习结合 课程学习策略 知识密集型任务优化 分层训练方法

2025-06-21 16:19:13 807人关注

月之暗面Kimi推出Kimi-Researcher深度研究Agent 并开启内测

近日,月之暗面旗下的Kimi智能助手宣布其首个Agent产品——Kimi-Researcher(深度研究)正式开启小范围灰度测试。这一基于端到端自主强化学习(end-to-end agentic RL)技术训练的新一代Agent模型,旨在为用户提供高效、深入的深度研究服务。

Kimi-Researcher 月之暗面 Agent产品 端到端自主强化学习 深度研究服务 新一代Agent模型

2025-05-27 10:38:45 196人关注

阿里突破性发布QwenLong-L1-32B:首个强化学习训练的长文本推理模型,性能媲美Claude-3.7

阿里巴巴今日正式发布QwenLong-L1-32B,这是一款专为长上下文推理设计的大型语言模型,标志着AI长文本处理能力的重大突破。该模型在性能表现上超越了o3-mini和Qwen3-235B-A22B,与Claude-3.7-Sonnet-Thinking达到相当水平。

阿里巴巴通义千问L1-32B 强化学习长文本模型 通义千问L1-32B模型 阿里巴巴大模型 长文本处理技术 强化学习模型应用

2025-04-21 16:31:28 83人关注

新框架d1引领扩散模型推理进步,掀起强化学习应用新风潮

在人工智能的不断发展中,扩散模型在推理能力上逐渐崭露头角,现如今,它们不再是自回归模型的 “跟随者”。近日,来自加州大学洛杉矶分校(UCLA)和 Meta 的研究者们联合推出了一种名为 d1的新框架,该框架结合了监督微调(SFT)和强化学习(RL),使扩散模型具备更强的推理能力,包括数学理解、逻辑推理等。

D1扩散模型 强化学习框架 扩散模型技术 AI模型框架 强化学习应用

2025-03-18 10:35:32 114人关注

CMU 团队推出元强化微调:提升大语言模型推理能力的新范式

在人工智能领域,大语言模型(LLM)正在不断进化,最近,卡内基梅隆大学(CMU)与 HuggingFace 的研究者们共同提出了一种名为 “元强化微调”(Meta Reinforcement Fine-Tuning,简称 MRT)的新方法。这一方法旨在优化大语言模型在测试时的计算效率,尤其是在解决复杂推理问题时,表现尤为突出。

CMU团队 Meta强化学习 模型微调技术 强化学习优化 AI模型训练方法

2025-03-15 10:34:20 247人关注

360智脑团队成功复现Deepseek强化学习效果,发布开源模型Light-R1-14B-DS

近日,360智脑团队宣布成功复现Deepseek的强化学习效果,并正式发布开源推理模型 Light-R1-14B-DS。该模型性能表现超越 DeepSeek-R1-Distill-Llama-70B和 DeepSeek-R1-Distill-Qwen-32B,成为业界首款在14B参数规模上实现强化学习效果的模型,显著提升了数学推理能力,成绩超过大多数32B级别模型。

DeepSeek Light R1-14B AI大模型 大模型技术 DeepSeek模型解析 大模型应用场景 AI技术前沿

2025-02-06 10:19:31 215人关注

​波士顿动力与前 CEO 联手推动 Atlas 机器人强化学习进展

波士顿动力公司于本周三宣布了一项新合作,旨在提升其电动 Atlas 人形机器人的强化学习能力。这一合作伙伴关系是与机器人与人工智能研究所(RAI Institute)建立的,后者曾名为波士顿动力人工智能研究所。该研究所由前麻省理工学院教授、波士顿动力前 CEO 马克・雷伯特创立于2022年,旨在继续推动为波士顿动力奠定基础的研究。

Boston Dynamics Atlas机器人 强化学习 机器人技术 机器人学习算法 机器人创新

2025-01-22 02:25:18 111人关注

k1系列强化学习模型登场!月之暗面Kimi上线视觉思考模型

月之暗面今日宣布发布全新视觉思考模型k1。这一模型基于强化学习技术,不仅支持端到端的图像理解,还整合了思维链技术,将能力扩展到了数学之外的更多基础科学领域,包括物理和化学。在基准能力测试中,k1模型的表现超越了全球领先的标杆模型,如OpenAI的o1、GPT-4o以及Claude3.5Sonnet。

K1系列强化学习模型 强化学习模型技术 强化学习模型应用 AI模型强化学习 K1系列模型解析

2025-01-11 11:38:34 89人关注

ChatGPT神秘力量拖LLM后腿?Karpathy与LeCun联合批评RLHF技术

近日,AI界的知名研究员Andrej Karpathy抛出了一个颇具争议的观点,他认为目前广受推崇的基于人类反馈的强化学习(RLHF)技术可能并非通往真正人类级别问题解决能力的必由之路。这一言论无疑给当前AI研究领域投下了一枚重磅炸弹。

Karpathy Lecun RLHF批评 强化学习人类反馈 AI大模型争议

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10