- 上云资讯 -
2025-05-23 10:13:35 32人关注
太卷了!Anthropic发布Claude 4 编程和推理能力秒杀Gemini2.5pro
最近,人工智能界传来重大消息,Anthropic 正式推出了其 Claude4系列模型,包括 Claude Opus4和 Claude Sonnet4。这次发布并没有华丽的口号或冗长的论文,关键词只有一个 ——“干活”。根据 Anthropic 的说法,Claude Opus4被誉为全球最强的编程模型,能够稳定处理复杂且长期的任务,表现出色。而 Claude Sonnet4则在编程和推理能力上进行了强化,可以更加精准地回应用户的指令。
2025-05-10 16:14:11 40人关注
UGMathBench动态基准测试数据集发布 可评估语言模型数学推理能力
近日,魔搭ModelScope社区宣布发布一项名为UGMathBench的动态基准测试数据集,旨在全面评估语言模型在本科数学广泛科目中的数学推理能力。这一数据集的问世,填补了当前在本科数学领域评估语言模型推理能力的空白,并为研究者提供了更为丰富和具有挑战性的测试平台。
2025-05-02 10:16:28 56人关注
DeepSeek-Prover-V2-671B 模型开源,数学推理领域迎来新突破
中国 AI 初创公司 DeepSeek 再次掀起开源 AI 领域的热潮,正式发布其最新开源模型 DeepSeek-Prover-V2-671B。这一拥有6710亿参数的超大规模语言模型,专为数学推理和问题解决设计,展现了 DeepSeek 在高效 AI 开发上的持续创新能力。根据社交媒体上的最新讨论,这一模型被认为是 DeepSeek 在数学领域的重要里程碑,或将推动全球 AI 研究与应用的进一步发展。
2025-04-29 10:25:43 138人关注
通义千问Qwen3发布:推理能力显著增强 支持两种思考模式
通义千问团队宣布推出Qwen3,这是Qwen系列大型语言模型的最新成员。Qwen3系列模型在代码、数学和通用能力等基准测试中表现出色,与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比,展现了极具竞争力的结果。其中,小型MoE模型Qwen3-30B-A3B的激活参数数量仅为QwQ-32B的10%,但表现更胜一筹,而像Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。
2025-04-29 08:16:18 37人关注
xAI 新模型 Grok 3 逻辑推理能力获 OpenAI 创始人点赞
埃隆・马斯克的人工智能公司 xAI 于本周一发布了其最新的语言模型 Grok3,标志着该公司在人工智能领域的重要进展。据马斯克介绍,新模型所需的计算能力是其前身的十倍,使用了位于孟菲斯的数据中心,配备了约20万块 GPU。
2025-04-14 08:43:33 21人关注
Anthropic即将发布全新 AI 模型,推理能力再上新台阶
AI 初创公司Anthropic正准备推出其最新的 AI 模型,预计将在未来几周内正式发布。根据theinformation报道,这款新模型被称为 “混合型” 模型,具备在 “深度推理” 与快速响应之间切换的能力。这一创新设计旨在为开发者提供更加灵活的工具,以满足不同应用场景的需求。
2025-04-07 10:31:28 47人关注
谷歌新研究:合成数据助力大模型,数学推理能力提升八倍
近期,谷歌、卡内基梅隆大学与 MultiOn 的研究团队联合发布了一项关于合成数据在大模型训练中应用的新研究。根据 AI 发展科研机构 Epoch AI 的报告,目前人类公开的高质量文本训练数据大约有300万亿 tokens,但随着大型模型如 ChatGPT 的快速发展,对训练数据的需求正以指数级增长,预计在2026年前这些数据将被消耗殆尽,因此合成数据逐渐成为重要的替代方案。
2025-03-18 10:35:32 64人关注
CMU 团队推出元强化微调:提升大语言模型推理能力的新范式
在人工智能领域,大语言模型(LLM)正在不断进化,最近,卡内基梅隆大学(CMU)与 HuggingFace 的研究者们共同提出了一种名为 “元强化微调”(Meta Reinforcement Fine-Tuning,简称 MRT)的新方法。这一方法旨在优化大语言模型在测试时的计算效率,尤其是在解决复杂推理问题时,表现尤为突出。
2025-03-13 18:14:31 277人关注
DeepSeek-R1 模型幻觉问题严重,推理能力与准确性面临挑战
近日,Vectara 的机器学习团队对 DeepSeek 系列的两款模型进行了深入的幻觉测试,结果显示,DeepSeek-R1的幻觉率高达14.3%,显著高于其前身 DeepSeek-V3的3.9%。这表明,在增强推理的过程中,DeepSeek-R1产生了更多不准确或与原始信息不一致的内容。该结果引发了对推理增强大语言模型(LLM)产生幻觉率的广泛讨论。
2025-02-28 08:34:18 39人关注
OpenAI联手吴恩达推出o1系列模型免费课程,聚焦深度推理能力开发
OpenAI与人工智能领域泰斗、斯坦福大学教授吴恩达携手推出了一门重磅免费课程"Reasoning with o1"。这门由OpenAI战略解决方案架构主管Colin Jarvis执教的课程,旨在帮助开发者深入掌握o系列模型的高级推理能力。
2025-01-28 15:24:27 311人关注
谷歌即将推出全新升级版Gemini AI模型,推理能力大幅提升
谷歌近日宣布,将于2025年1月23日发布其全新升级的 AI 模型 ——“Gemini2.0Flash Thinking Exp-0123”。该模型是现有 “Exp-1219” 的进一步优化,主要聚焦于增强推理能力以及思维透明度。
2025-01-28 13:32:21 120人关注
月之暗面发布新一代SOTA模型 k1.5:多模态推理能力再升级
月之暗面公司隆重推出其全新的 SOTA(state-of-the-art)模型 ——k1.5多模态思考模型,标志着在多模态推理和通用推理领域的重大突破。该模型不仅具备出色的多模态处理能力,还展示了卓越的通用推理能力,能够有效应对各类复杂任务。
2025-01-27 01:40:40 51人关注
新 AI 模型 LlamaV-o1,测试推理能力超越Claude 3.5 Sonnet
阿联酋穆罕默德・本・扎耶德人工智能大学(MBZUAI)近日发布了一款名为 LlamaV-o1的先进人工智能模型,能够高效解决复杂的文本和图像推理任务。
2025-01-24 02:32:10 161人关注
AI医学推理能力超越人类医生?哈佛、斯坦福:o1-preview 模型诊断准确率高达80%
人工智能在医疗领域的应用再次迎来重大突破!一项由哈佛大学、斯坦福大学等多所顶尖机构联合开展的研究显示,OpenAI 的 o1-preview 模型在多项医学推理任务中表现出惊人的能力,甚至超越了人类医生。这项研究不仅评估了该模型在医学多项选择题基准测试中的表现,更着重考察了其在模拟真实临床场景下的诊断和管理能力,结果令人瞩目。
2025-01-17 18:11:15 93人关注
大语言模型推理能力被高估了 在不熟悉场景中有很大的弱点
近期,麻省理工学院(MIT)的研究团队对大型语言模型(LLMs)进行了深入的研究,探讨它们在不同任务下的表现。他们发现,尽管这些模型在一些常见的任务上看起来很出色,但实际上它们的推理能力常常被高估,尤其是在面对不熟悉的情境时。
2025-01-17 14:15:40 54人关注
OpenAI草莓计划揭秘:Q*推理能力大爆发,未来触手可及!
近日,OpenAI悄无声息地揭开了「草莓」计划的神秘面纱。这个项目,之前被称为Q*,现在以草莓的身份重新登场,据说它能让AI提前规划任务,自主上网搜集信息,甚至进行深入研究。
2025-01-16 09:16:37 53人关注
DeepSeek开源DeepSeek-V2-Chat-0628模型 代码、数学推理能力提升
近日,LMSYS组织的大模型竞技场(Chatbot Arena)发布了最新的榜单更新,LMSYS Chatbot Arena 排行榜上总排名11超过了所有开源模型,包括Llama3-70B、Qwen2-72B、Nemotron-4-340B、Gemma2-27B等,荣获全球开源模型榜首的荣誉。