- 上云资讯 -
2025-05-17 14:23:44 39人关注
OpenAI 员工公开质疑 xAI:Grok 3 基准测试结果存在误导
近期,关于人工智能基准测试的争论在公众视野中愈演愈烈。OpenAI 的一名员工指责马斯克创办的 AI 公司 xAI 发布了误导性的 Grok3基准测试结果,而 xAI 的联合创始人伊戈尔・巴布申金则坚称公司没有问题。
OpenAI员工质疑xAI OpenAI员工质疑Grok3基准测试 xAI Grok3性能争议 OpenAI与xAI技术对比 AI大模型基准测试争议
2025-02-21 12:39:26 202人关注
ScreenSpot-Pro:专为高分辨率环境设计的多模态 LLM 基准工具!
在专业环境中,图形用户界面(GUI)代理面临着三大关键挑战。首先,专业应用程序的复杂性远高于一般软件,要求对复杂布局有深入理解;其次,专业工具通常具备更高的分辨率,导致目标尺寸较小,从而降低了定位准确性;最后,工作流程往往依赖于额外工具和文档,增加了操作的复杂性。这些挑战凸显了开发更先进的基准和解决方案以提升 GUI 代理在这些严苛场景中的性能的必要性。
高分辨率多模态LLM基准 ScreenSpot Pro评测 多模态大模型基准测试 ScreenSpot Pro应用场景 高分辨率多模态基准
2025-01-10 06:43:37 410人关注
OpenAI推出SWE-bench Verified:提升AI软件工程能力评估
OpenAI于8月13日宣布推出SWE-bench Verified代码生成评估基准,旨在更准确评估人工智能模型在软件工程任务中的表现。这一新基准解决了此前SWE-bench存在的多项局限性。