LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-07-21 11:26:40 65人关注

阿里巴巴Qwen2.5数学能力遭质疑:新研究揭示模型或依赖记忆而非推理

据国外媒体报道, 一项最新研究对阿里巴巴Qwen2.5模型的高数学分数提出了质疑,指出其看似卓越的数学推理能力,可能主要来源于对训练数据的记忆,而非真正的推理。研究人员通过一系列严谨的测试发现,数据污染可能是导致Qwen2.5在某些基准测试中表现优异的关键因素。

阿里巴巴Qwen2.5模型 AI模型数学能力评估 数据污染对AI模型的影响 AI模型记忆与推理能力 大模型基准测试问题

2025-05-17 14:23:44 91人关注

OpenAI 员工公开质疑 xAI:Grok 3 基准测试结果存在误导

近期,关于人工智能基准测试的争论在公众视野中愈演愈烈。OpenAI 的一名员工指责马斯克创办的 AI 公司 xAI 发布了误导性的 Grok3基准测试结果,而 xAI 的联合创始人伊戈尔・巴布申金则坚称公司没有问题。

OpenAI员工质疑xAI OpenAI员工质疑Grok3基准测试 xAI Grok3性能争议 OpenAI与xAI技术对比 AI大模型基准测试争议

2025-04-11 10:23:29 69人关注

推理AI模型基准测试成本激增:评估一个或需近3000美元

根据第三方AI测试机构Artificial Analysis的数据,评估OpenAI的o1推理模型在七种流行基准测试上需花费2,767.05美元,而其非推理模型GPT-4o仅需108.85美元。这一显著差异引发了关于AI评估可持续性和透明度的讨论。

AI模型基准测试 AI模型测试成本 AI测试成本激增 大模型基准测试 AI模型性能评估

2025-02-21 12:39:26 340人关注

ScreenSpot-Pro:专为高分辨率环境设计的多模态 LLM 基准工具!

在专业环境中,图形用户界面(GUI)代理面临着三大关键挑战。首先,专业应用程序的复杂性远高于一般软件,要求对复杂布局有深入理解;其次,专业工具通常具备更高的分辨率,导致目标尺寸较小,从而降低了定位准确性;最后,工作流程往往依赖于额外工具和文档,增加了操作的复杂性。这些挑战凸显了开发更先进的基准和解决方案以提升 GUI 代理在这些严苛场景中的性能的必要性。

高分辨率多模态LLM基准 ScreenSpot Pro评测 多模态大模型基准测试 ScreenSpot Pro应用场景 高分辨率多模态基准

2025-01-24 15:16:20 79人关注

中国电信星辰大模型入选"国之重器"年度盘点,打造全国产化AI新标杆

在国务院国资委新闻中心发起的"十大国之重器"年度评选中,中国电信自主研发的星辰大模型凭借其突破性技术成果成功入围。作为国内首个全尺寸、全模态、全国产化的基础大模型体系,星辰大模型在语义、语音、视觉和多模态等领域展现出卓越实力。

中国电信 星云大模型 AI评测 大模型基准测试 电信行业AI应用 AI大模型性能评估

2025-01-10 06:43:37 494人关注

OpenAI推出SWE-bench Verified:提升AI软件工程能力评估

OpenAI于8月13日宣布推出SWE-bench Verified代码生成评估基准,旨在更准确评估人工智能模型在软件工程任务中的表现。这一新基准解决了此前SWE-bench存在的多项局限性。

OpenAI SWE Bench 大模型技术验证 AI模型性能评估 大模型基准测试 OpenAI技术验证流程

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10