- 上云资讯 -
2025-06-10 10:40:30 39人关注
红杉中国推出全新 AI 基准测试工具,助力智能体评估新标准
随着人工智能技术的迅速发展,尤其是大型模型的不断进步,基准测试在评估 AI 能力时面临着前所未有的挑战。为了应对这一现状,红杉中国于5月26日宣布推出一款全新的 AI 基准测试工具 ——xbench。这款工具不仅是针对 AI 模型能力的评估,还引入了动态更新机制,确保测试的有效性和公正性。
2025-06-04 10:38:16 31人关注
DeepSeek悄然发布R1最新版本,性能直逼OpenAI o3引发业界震动
开源大模型领域再次迎来重磅消息。DeepSeek平台近日低调发布了R1模型的最新0528版本,这一举动在AI开发者社区引起了广泛关注。
DeepSeek R1 DeepSeek R1性能评测 OpenAI对比 大模型性能分析 DeepSeek R1最新进展
2025-05-25 18:28:30 36人关注
360智脑发布Tiny-R1-32B:5%参数逼近Deepseek-R1满血性能
2月24日,360智脑团队与北京大学联合研发的中等量级推理模型 Tiny-R1-32B-Preview 正式发布。这一模型仅以5%的参数量,成功逼近了 Deepseek-R1-671B 的满血性能,展现了小模型在高效推理领域的巨大潜力。
2025-04-30 16:39:12 184人关注
70亿参数干翻320亿?小米扔出“核弹级”AI MiMo 你的“破电脑”也能跑赢奥数题和复杂代码!
小米正式在Hugging Face平台发布其首个专为推理(Reasoning)设计的开源大模型——MiMo-7B。据AIbase了解,MiMo-7B通过从预训练到后训练的强化学习(RL)优化,展现了在数学、代码和通用推理任务上的卓越性能,超越了多个32亿参数以上的基线模型。社交平台上的热烈讨论凸显了其对AI社区的深远影响,相关细节已通过Hugging Face(huggingface.co/xiaomi/MiMo-7B)与小米官网(xiaomi.com)公开。
2025-04-22 16:31:44 69人关注
Claude-3 IQ首超人类平均水平,Anthropic引领AI智能新纪元
Anthropic的Claude-3模型在IQ测试中取得突破性进展,平均得分首次超过人类标准值100,成为AI发展史上的里程碑。据AIbase了解,Claude-3在挪威Mensa IQ测试中的表现优于其前代模型,标志着AI在认知能力上的显著飞跃。社区分析指出,这一成就不仅反映了Anthropic的技术实力,还引发了对AI未来发展的广泛讨论。相关数据与预测已在多个技术论坛公开,AIbase为您带来深入解读。
2025-04-06 16:37:19 47人关注
Meta 官宣开源原生多模态 Llama 4,性能强劲引关注
美国科技巨头 Meta 推出了其最强大的开源人工智能模型 Llama4。此次首批发布共两款,分别是 Llama4Scout 和 Llama4Maverick 。
2025-04-03 16:15:26 140人关注
Gemini-2.5-pro在MathArena评测中展现卓越数学能力 远超其他模型
2025年4月3日消息:根据MathArena最新发布的大语言模型数学能力评测结果显示,Google的Gemini-2.5-pro以绝对优势领跑,在未污染的高难度数学竞赛中展现出令人瞩目的表现。
2025-03-04 10:40:38 82人关注
AMD 发布全新 Radeon RX 9070 系列显卡,性能大幅提升直逼 RTX 50
标在专业人士和游戏玩家的期待中,AMD 于近日正式发布了全新的 Radeon RX9070和9070XT 显卡。这两款显卡在性能上较上一代产品实现了20% 至40% 的显著提升,预计将于3月6日上市。早在今年1月的 CES 展会上,AMD 便首次展示了这两款新产品。
AMD Radeon RX 9070 RTX 50 显卡性能对比 AMD vs NVIDIA GPU性能评测 显卡新品发布
2025-02-28 10:42:11 396人关注
第三方平台 DeepSeek-R1 稳定性测评:性能差异引发热议
随着中国 AI 公司 DeepSeek 推出的推理模型 DeepSeek-R1在全球范围内受到关注,其在第三方平台的稳定性表现成为近期科技圈的热门话题。根据 X 平台上的最新讨论和评测数据,DeepSeek-R1在不同托管平台上的性能差异显著,完整性、准确性和推理时间因平台选择而异。这一现象不仅揭示了模型部署的复杂性,也为用户选择适合的托管服务提供了重要参考。
DeepSeek R1 DeepSeek R1稳定性评测 DeepSeek R1性能评测 大模型性能分析 大模型稳定性测试
2025-02-05 10:11:33 102人关注
Nvidia RTX 5070: 549 美元就能实现 RTX 4090 性能?
在最近的 CES 展会上,Nvidia 首席执行官黄仁勋发表了一个引人注目的声明:“RTX5070能够以549美元的价格,达到 RTX4090的性能水平。” 这一说法迅速在社交媒体上引发了热烈讨论,尤其是在 YouTube 和 TikTok 上,各种评论层出不穷。那么,RTX5070真的能与售价1599美元的 RTX4090抗衡吗?答案并不简单,关键在于 Nvidia 最新的 DLSS4技术。
NVIDIA RTX 5070 NVIDIA RTX 549 NVIDIA RTX 4090性能对比 显卡性能评测 NVIDIA显卡新闻
2025-01-29 09:14:24 3125人关注
DeepSeek R1 你用上了吗?推理效果一骑绝尘,Meta 内部已经慌了!
DeepSeek 近日推出的系列模型在全球 AI 圈引发震动。DeepSeek-V3 以低成本实现高性能,在多项评测中与顶尖闭源模型相当;DeepSeek-R1 则通过创新的训练方式,让模型展现出强大推理能力,性能对标 OpenAI o1 正式版,还开源了模型权重,为 AI 领域带来新的突破和思考。
2025-01-27 08:41:19 424人关注
MiniMax开源了MiniMax-01全新系列模型 性能比肩GPT-4o
MiniMax于2025年1月15日宣布开源其全新系列模型MiniMax-01,该系列包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。MiniMax-01系列在架构上进行了大胆创新,首次大规模实现线性注意力机制,打破了传统Transformer架构的局限。其参数量高达4560亿,单次激活459亿,综合性能与海外顶尖模型相当,且能高效处理长达400万token的上下文,这一长度是GPT-4o的32倍、Claude-3.5-Sonnet的20倍。
2025-01-27 01:40:40 54人关注
新 AI 模型 LlamaV-o1,测试推理能力超越Claude 3.5 Sonnet
阿联酋穆罕默德・本・扎耶德人工智能大学(MBZUAI)近日发布了一款名为 LlamaV-o1的先进人工智能模型,能够高效解决复杂的文本和图像推理任务。
2025-01-21 10:37:28 250人关注
国产大模型再突破!DeepSeek R1开源,性能直逼OpenAI,开启AI平权新时代
DeepSeek近日正式发布并开源了其最新研发的大型语言模型R1,该模型在性能上表现出色,被认为可与OpenAI的o1正式版相媲美。这一举措不仅标志着国产AI技术的又一次重大突破,也为全球AI开发者带来了新的选择。
2025-01-19 16:41:31 359人关注
OpenAI几周内发布 o3-mini,性能略逊于 o1-pro
近日,OpenAI 的 CEO 山姆・奥特曼在社交媒体上透露,备受期待的 o3-mini 将在几周内正式发布。这一消息让众多关注人工智能发展的用户感到兴奋。o3-mini 作为大模型的蒸馏版,将同时推出 API 和网页端,进一步满足用户的需求。
2025-01-19 02:25:17 114人关注
谷歌开源轻量级语言模型Gemina 2:提升AI性能、速度和可访问性
谷歌推出了 Gemma2,这是其开源轻量级语言模型的最新版本,提供90亿 (9B) 和270亿 (27B) 参数大小。与前身 Gemma 模型相比,这个新版本承诺增强性能和更快的推理速度。
2025-01-17 05:21:16 90人关注
争气!Claude 3.5 Sonnet在数据可视化领域超越GPT-4o
AI领域的王者追逐十分激烈,据最新报道Anthropic公司推出的Claude3.5Sonnet模型在数据可视化方面表现出色,甚至超越了OpenAI的GPT-4o。这款全新的AI模型,不仅速度快,推理能力和创新功能也得到了极大的提升,成为行业的新标杆。
2025-01-16 13:29:21 164人关注
Groq开源的Llama AI模型登顶排行榜,函数调用方面优于GPT-4o和Claude
人工智能硬件初创公司Groq发布了两款开源语言模型,这两款模型在专门工具使用能力方面胜过科技巨头。新的 Llama-3-Groq-70B-Tool-Use 模型已经在伯克利函数调用排行榜(BFCL)上夺得榜首,超越了来自 OpenAI、谷歌和 Anthropic 等公司的专有产品。