LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-07-29 13:21:25 19人关注

​Harmonic 推出 AI 数学聊天机器人,助力用户精准解题

Harmonic 是一家由 Robinh ood CEO 弗拉德・特涅夫(Vlad Tenev)共同创办的人工智能初创公司,近日宣布推出其 iOS 和 Android 平台的 AI 聊天机器人应用程序,用户可以通过该应用访问其 AI 模型 —— 亚里士多德(Aristotle)。此款应用目前处于测试阶段,旨在让更多人使用这一 “无幻觉” 的数学推理工具。

Harmonic AI AI 聊天机器人应用 亚里士多德 AI 模型 无幻觉数学推理工具 Robinhood CEO 创业项目 AI 初创公司动态

2025-07-16 16:20:22 94人关注

字节跳动Seed最新强化学习配方POLARIS开源 4B 模型数学推理接近 235B 表现

近日,字节跳动Seed团队携手香港大学与复旦大学,共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略,成功将小模型的数学推理能力提升至与超大模型相媲美的水平,为人工智能领域的小模型优化提供了新路径。

强化学习训练方法 POLARIS 算法 Scaling RL 策略 小模型数学推理能力提升 人工智能小模型优化

2025-06-24 15:34:22 81人关注

有道推出“子曰3”模型,轻松破解数学难题,助力教育公平!

6月23日,网易有道正式推出并开源其最新的 “子曰3” 系列大模型,英文名为 Confucius3-Math。这一专注于数学教育的推理模型,能够在普通的消费级 GPU 上高效运行,成为国内首个如此低成本高性能的 AI 教育工具。在一系列数学推理任务中,“子曰3” 展现出了超越许多大规模通用模型的出色性能。

网易有道子曰3 Confucius3-Math 数学教育AI模型 低成本高性能AI教育工具 数学推理任务AI 消费级GPU运行大模型

2025-05-10 16:14:11 102人关注

UGMathBench动态基准测试数据集发布 可评估语言模型数学推理能力

近日,魔搭ModelScope社区宣布发布一项名为UGMathBench的动态基准测试数据集,旨在全面评估语言模型在本科数学广泛科目中的数学推理能力。这一数据集的问世,填补了当前在本科数学领域评估语言模型推理能力的空白,并为研究者提供了更为丰富和具有挑战性的测试平台。

动态数学推理基准 数学推理评测 UGMathBench 数学推理能力评估 动态基准测试

2025-05-02 10:16:28 248人关注

DeepSeek-Prover-V2-671B 模型开源,数学推理领域迎来新突破

中国 AI 初创公司 DeepSeek 再次掀起开源 AI 领域的热潮,正式发布其最新开源模型 DeepSeek-Prover-V2-671B。这一拥有6710亿参数的超大规模语言模型,专为数学推理和问题解决设计,展现了 DeepSeek 在高效 AI 开发上的持续创新能力。根据社交媒体上的最新讨论,这一模型被认为是 DeepSeek 在数学领域的重要里程碑,或将推动全球 AI 研究与应用的进一步发展。

DeepSeek Prover V2 671B大模型 数学推理突破 大模型技术进展 DeepSeek数学推理能力

2025-05-01 16:11:21 198人关注

数学推理新标杆!DeepSeek-Prover-V2 实现数学证明的飞跃

在人工智能领域,最近一项重磅技术发布引发广泛关注 ——DeepSeek-Prover-V2。这一模型不仅在推理性能上取得了显著提升,还被誉为通向人工通用智能(AGI)的关键一步。DeepSeek-Prover-V2在推理能力和训练效率上都进行了革命性的创新,给数学推理研究带来了新的希望。

DeepSeek Prover V2 数学证明突破 AI数学推理 大模型数学能力 AI证明技术

2025-04-07 10:31:28 110人关注

谷歌新研究:合成数据助力大模型,数学推理能力提升八倍

近期,谷歌、卡内基梅隆大学与 MultiOn 的研究团队联合发布了一项关于合成数据在大模型训练中应用的新研究。根据 AI 发展科研机构 Epoch AI 的报告,目前人类公开的高质量文本训练数据大约有300万亿 tokens,但随着大型模型如 ChatGPT 的快速发展,对训练数据的需求正以指数级增长,预计在2026年前这些数据将被消耗殆尽,因此合成数据逐渐成为重要的替代方案。

Google Research 合成数据 数学推理 AI研究 数据增强技术

2025-02-04 10:38:26 177人关注

智谱深度推理模型 GLM-Zero 预览版上线 擅长数理、代码等问题

在北京智谱华章科技有限公司的年度收官之际,公司发布了其首个基于扩展强化学习技术训练的推理模型——GLM-Zero的初代版本GLM-Zero-Preview。这款模型专注于提升人工智能的推理能力,尤其在数理逻辑、代码编写以及需要深度推理的复杂问题处理方面表现出色。与基座模型相比,GLM-Zero-Preview在保持通用任务能力的同时,专家任务能力得到了显著提升,其在AIME2024、MATH500和LiveCodeBench评测中的表现与OpenAI o1-preview相当。

GLM-Zero 大模型数学推理 大模型代码能力 GLM-Zero 技术解析 GLM-Zero 应用场景

2025-01-27 21:24:22 88人关注

阿里云发布全新数学推理模型Qwen2.5-Math-PRM,7B 版本超越 GPT-4o

今天,阿里云通义团队正式发布了全新的数学推理过程奖励模型 Qwen2.5-Math-PRM。该模型提供了72B 和7B 两种尺寸,性能表现均显著优于同类的开源过程奖励模型,尤其是在识别推理错误方面表现突出。

阿里云通义千问2.5 数学大模型PRM-7B GPT4o对比 大模型技术解析 通义千问2.5数学能力

2025-01-27 17:24:42 177人关注

阿里巴巴Qwen 团队发布新型过程奖励模型,数学推理再进化

阿里巴巴 Qwen 团队近日发布了题为《数学推理中过程奖励模型的开发经验教训》的论文,并推出了 Qwen2.5-Math-PRM 系列中的两个新模型,分别具有7B 和72B 参数。这些模型在数学推理中突破了现有 PRM 框架的限制,通过创新技术显著提高了推理模型的准确性和泛化能力。

阿里巴巴Qwen 过程奖励模型 数学推理 AI大模型 阿里巴巴AI技术 阿里巴巴Qwen应用场景

2025-01-21 21:37:30 149人关注

阿里推新 AI 基准测试 “PROCESSBENCH”,评估数学推理中的错误识别能力

近日,阿里巴巴 Qwen 团队的研究人员推出了一个名为 “PROCESSBENCH” 的新基准测试,旨在衡量语言模型在数学推理中识别过程错误的能力。随着语言模型在复杂推理任务中取得显著进展,这一领域的研究者们发现,尽管模型表现出色,但在处理某些困难问题时依然面临挑战。因此,开发一种有效的监督方法显得尤为重要。

阿里AI新基准测试 ProcessBench基准测试 AI性能评估标准 阿里AI技术进展 AI模型性能测试

2025-01-16 09:16:37 100人关注

DeepSeek开源DeepSeek-V2-Chat-0628模型 代码、数学推理能力提升

近日,LMSYS组织的大模型竞技场(Chatbot Arena)发布了最新的榜单更新,LMSYS Chatbot Arena 排行榜上总排名11超过了所有开源模型,包括Llama3-70B、Qwen2-72B、Nemotron-4-340B、Gemma2-27B等,荣获全球开源模型榜首的荣誉。

DeepSeek V2 Chat模型 代码能力 数学推理 大模型技术 DeepSeek模型更新

2024-12-28 15:24:24 155人关注

苹果研究团队发布新基准GSM-Symbolic:揭示大语言模型的数学推理短板!

最近,苹果公司的研究人员对大语言模型(LLM)的数学推理能力进行了深入研究,推出了一项名为 GSM-Symbolic 的新基准测试。

Apple Research GSM Symbolic Math Math Reasoning AI数学推理 符号数学推理

2024-12-19 14:28:35 71人关注

Kimi推出数学推理模型k0-math:数学能力对标OpenAI o1系列

月之暗面Kimi智能助手宣布推出新一代数学推理模型k0-math。k0-math模型在多项数学基准能力测试中表现突出,其成绩在中考、高考、考研以及包含入门竞赛题的MATH等4个数学基准测试中超过了OpenAI o1系列的o1-mini和o1-preview模型。

Kimi数学模型 OpenAI O1 AI大模型技术 数学建模应用 AI模型比较

2024-12-19 01:32:20 137人关注

LLM为啥总是被数学题难倒?AI算术推理竟是靠“蒙”的!

最近,AI 大型语言模型(LLM)在各种任务中表现出色,写诗、写代码、聊天都不在话下,简直是无所不能!但是,你敢相信吗?这些“天才”AI 居然是“数学菜鸟”!它们在处理简单的算术题时经常翻车,让人大跌眼镜。

大模型数学推理 大模型算术能力 LLM数学推理挑战 大模型数学处理能力 LLM算术推理问题

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10