上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-10-10 09:41:16 278人关注

中国信通院发布 “方升” 3.0 大模型基准测试

近日，中国信息通信研究院（信通院）正式推出了 “方升” 基准测试体系3.0，标志着国内人工智能(AI)评测的又一重大进步。这个全新的版本在前期基础上进行了全面升级，不仅新增了模型基础属性测试，还系统性地评估了模型的参数规模和推理效率等底层特征。此外，该体系还前瞻性地布局了未来的高级智能测试，聚焦全模态理解、长期记忆和自主学习等十项高级能力，为工业制造、基础科学和金融等重点行业提供了更深入的场景化评测。

2025-07-21 11:26:40 279人关注

阿里巴巴Qwen2.5数学能力遭质疑:新研究揭示模型或依赖记忆而非推理

据国外媒体报道，一项最新研究对阿里巴巴Qwen2.5模型的高数学分数提出了质疑，指出其看似卓越的数学推理能力，可能主要来源于对训练数据的记忆，而非真正的推理。研究人员通过一系列严谨的测试发现，数据污染可能是导致Qwen2.5在某些基准测试中表现优异的关键因素。

阿里巴巴Qwen2.5模型 AI模型数学能力评估数据污染对AI模型的影响 AI模型记忆与推理能力大模型基准测试问题

2025-05-17 14:23:44 302人关注

OpenAI 员工公开质疑 xAI：Grok 3 基准测试结果存在误导

近期，关于人工智能基准测试的争论在公众视野中愈演愈烈。OpenAI 的一名员工指责马斯克创办的 AI 公司 xAI 发布了误导性的 Grok3基准测试结果，而 xAI 的联合创始人伊戈尔・巴布申金则坚称公司没有问题。

OpenAI员工质疑xAI OpenAI员工质疑Grok3基准测试 xAI Grok3性能争议 OpenAI与xAI技术对比 AI大模型基准测试争议

2025-04-11 10:23:29 242人关注

推理AI模型基准测试成本激增:评估一个或需近3000美元

根据第三方AI测试机构Artificial Analysis的数据，评估OpenAI的o1推理模型在七种流行基准测试上需花费2，767.05美元，而其非推理模型GPT-4o仅需108.85美元。这一显著差异引发了关于AI评估可持续性和透明度的讨论。

AI模型基准测试 AI模型测试成本 AI测试成本激增大模型基准测试 AI模型性能评估

2025-02-21 12:39:26 882人关注

ScreenSpot-Pro：专为高分辨率环境设计的多模态 LLM 基准工具！

在专业环境中，图形用户界面（GUI）代理面临着三大关键挑战。首先，专业应用程序的复杂性远高于一般软件，要求对复杂布局有深入理解;其次，专业工具通常具备更高的分辨率，导致目标尺寸较小，从而降低了定位准确性;最后，工作流程往往依赖于额外工具和文档，增加了操作的复杂性。这些挑战凸显了开发更先进的基准和解决方案以提升 GUI 代理在这些严苛场景中的性能的必要性。

高分辨率多模态LLM基准 ScreenSpot Pro评测多模态大模型基准测试 ScreenSpot Pro应用场景高分辨率多模态基准

2025-01-24 15:16:20 265人关注

中国电信星辰大模型入选"国之重器"年度盘点，打造全国产化AI新标杆

在国务院国资委新闻中心发起的"十大国之重器"年度评选中，中国电信自主研发的星辰大模型凭借其突破性技术成果成功入围。作为国内首个全尺寸、全模态、全国产化的基础大模型体系，星辰大模型在语义、语音、视觉和多模态等领域展现出卓越实力。

中国电信星云大模型 AI评测大模型基准测试电信行业AI应用 AI大模型性能评估

2025-01-10 06:43:37 1195人关注

OpenAI推出SWE-bench Verified:提升AI软件工程能力评估

OpenAI于8月13日宣布推出SWE-bench Verified代码生成评估基准，旨在更准确评估人工智能模型在软件工程任务中的表现。这一新基准解决了此前SWE-bench存在的多项局限性。

OpenAI SWE Bench 大模型技术验证 AI模型性能评估大模型基准测试 OpenAI技术验证流程

- 上云资讯 -