上云资讯 - 来上云吧，企业上云一站式服务

2025-05-06 08:34:17 405人关注

OpenAI最新基准测试:AI编程能力达人类四分之一，显现局限性

OpenAI近日发布了一项重要的AI编程能力评估报告，通过价值100万美元的实际开发项目揭示了AI在软件开发领域的现状。这项名为SWE-Lancer的基准测试涵盖了1，400个来自Upwork的真实项目，全面评估AI在直接开发和项目管理两大领域的表现。

2025-01-23 08:27:36 382人关注

一项最新研究表明，顶尖的人工智能模型在接受蒙特利尔认知评估（MoCA）测试时，表现出与早期痴呆症状相似的认知障碍。这项发现强调了人工智能在临床应用中的局限性，尤其是在需要视觉和执行技能的任务中。

2025-01-20 10:13:16 328人关注

最新研究显示，尽管人工智能在编程和内容创作等领域表现出色，但在处理复杂的历史问题时仍显不足。近期在NeurIPS会议上公布的一项研究表明，即使是最先进的大型语言模型（LLM）在历史知识测试中也难以取得令人满意的成绩。

2025-01-14 18:11:43 230人关注

在Quanta Magazine的播客中，华盛顿大学计算机教授Yejin Choi与主持人Steven Strogatz展开了一场关于人工智能的深刻对话。他们探讨了AI是否必须具备身体和情感，才能发展出与人类相似的常识。

2025-01-10 01:35:27 276人关注

DeepMind联合创始人Demis Hassabis近日在一档播客中表示，当前的人工智能能力被过度夸大了。然而，他同时强调，这项技术的长期潜力，特别是在通用人工智能（AGI）方面，依然被低估。