- 上云资讯 -
2025-08-02 11:35:25 6人关注
DeepSeek关联公司 发布大语言模型创新部署专利,推动 AI 技术新发展
近日,DeepSeek 的关联公司 —— 杭州深度求索人工智能基础技术研究有限公司,公开了一项名为 “一种大语言模型的部署方法及系统” 的专利。这项专利的公布,标志着该公司在人工智能领域的又一重要进展,尤其是在大语言模型的部署方面。
2025-07-21 14:20:21 44人关注
大语言模型的自信危机:为何GPT-4o轻易放弃正确答案?
最近,Google DeepMind 与伦敦大学的研究揭示了大语言模型(LLMs)在面对反对意见时的 “软弱” 表现。比如,像 GPT-4o 这样的先进模型,有时会显得非常自信,但一旦遇到质疑,它们就可能立即放弃正确答案。这种现象引发了研究人员的关注,他们探索了这种行为背后的原因。
大语言模型行为研究 LLMs 面对质疑表现 GPT-4o 自信度分析 语言模型软弱性原因 Google DeepMind 最新发现
2025-07-15 16:11:41 302人关注
Kimi K2 在 OpenRouter 的市场份额超过了 XAI
来自中国初创公司 Moonshot AI 的开源大语言模型 Kimi K2在 OpenRouter 平台的 token 消耗量(市场份额指标)上迅速攀升,超越 xAI 的 Grok4和 OpenAI 的 GPT-4.1,成为近期 AI 领域的焦点。这一现象被业内称为“又一个 DeepSeek 时刻”,标志着开源模型在全球 AI 竞争中的强势崛起。
Moonshot AI Kimi K2大模型 OpenRouter平台市场份额 开源大语言模型竞争 DeepSeek时刻 AI领域开源模型崛起
2025-07-11 12:38:31 67人关注
迪拜首家 “AI主厨” 餐厅即将开业,带你体验未来的美食之旅
在即将到来的9月,迪拜市中心将迎来一家名为 WOOHOO 的餐厅,它将以 “未来式餐饮” 的理念震撼开业,位置紧邻世界最高建筑哈利法塔。这家餐厅的独特之处在于其菜品的设计完全由一个名为 Chef Aiman 的大语言模型创造,而人类厨师则负责实际的烹饪过程。
2025-07-10 14:38:14 100人关注
Hugging Face重磅开源SmolLM3:3B参数小模型媲美4B巨头,128K上下文引领高效AI新风潮!
近日,Hugging Face正式推出全新开源语言模型 SmolLM3,一款拥有3B参数的轻量级大语言模型(LLM),以其卓越性能和高效设计引发行业广泛关注。SmolLM3不仅在多项基准测试中超越同级别的Llama-3.2-3B和Qwen2.5-3B,甚至与更大规模的4B参数模型Gemma3性能相当。
Hugging Face SmolLM3 开源语言模型 轻量级大语言模型 3B参数模型 SmolLM3性能评测 SmolLM3基准测试
2025-07-09 13:32:14 174人关注
Meta 招募关键工程师,苹果 AI 团队面临重大离职
苹果公司基础模型团队的首席工程师兼经理**庞若明(Ruoming Pang)**将离职加入 Meta,这一消息由彭博社援引知情人士透露。庞若明在苹果负责监督其大型语言模型的开发,该模型为苹果设备上的 Genmoji、电子邮件摘要和优先通知等核心 AI 功能提供支持。
苹果首席工程师离职 Meta AI团队新成员 庞若明职业变动 苹果大语言模型开发 Genmoji技术负责人 苹果AI功能核心团队
2025-07-05 13:31:24 58人关注
重大突破!研究团队揭示大语言模型内部潜藏的 “奖励机制”
近日,南京大学的周志华教授团队发布了一项重要研究,首次理论证明了在大语言模型中可以发现内源性奖励模型,并有效应用强化学习(RL)来提升模型表现。
2025-07-02 09:26:16 88人关注
大模型革命!Gemini 2.5 Pro 如何颠覆我们的信息处理方式
近日,谷歌 DeepMind 推出的 Gemini2.5Pro 模型引起了科技界的广泛关注。作为当前行业领先的 AI 大语言模型之一,Gemini2.5Pro 凭借其百万级的长上下文处理能力,展示了前所未有的应用潜力。然而,尽管技术领先,模型的运行成本仍然高昂,且其质量还有提升空间。
谷歌DeepMind Gemini2.5Pro模型 AI大语言模型 百万级长上下文处理 AI模型运行成本 AI模型质量提升
2025-06-30 14:38:11 142人关注
腾讯开源 Hunyuan-A13B:小尺寸,大智慧的 AI 模型
Hunyuan-A13B 是一个由腾讯最新开源的大语言模型,它以创新的设计理念,在相对较小的活跃参数规模下,实现了强大的性能表现,特别适用于资源受限的环境。
2025-06-30 12:41:16 59人关注
大语言模型搜索优化与传统 SEO 策略的惊人相似
近期,ERGO 创新实验与 ECODYNAMICS 联合开展了一项研究,重点分析了保险类内容在 AI 驱动搜索中的展现方式。
2025-06-27 12:35:10 30人关注
AI 硬件新战场!出门问问创始人揭秘未来科技与市场挑战
在北京的一场发布会上,出门问问的创始人兼 CEO 李志飞宣布推出全新 AI 硬件产品 ——TicNote,这是一款具备智能体 AI 系统的设备。TicNote 的厚度仅为3mm,可以通过磁吸方式直接贴在手机背后,搭载了基于 DeepSeek-R1等大语言模型的 Shadow AI 技术,支持 AI 转写、总结、思维导图生成等功能,录音时间更是超20小时,覆盖120多种语言。
出门问问 TicNote AI硬件 智能体AI系统 DeepSeek-R1大语言模型 Shadow AI技术 AI转写与总结
2025-06-20 12:45:26 182人关注
恶意AI卷土重来!WormGPT 通过主流平台制造钓鱼邮件和恶意脚本
近日,恶意人工智能工具 WormGPT 再次引起了网络安全专家的关注。这款工具已经不再依赖自建模型,而是通过 “劫持” 合法的大语言模型(LLMs)来生成恶意内容,令人担忧的是,它甚至能够轻易地绕过现有的安全限制。
2025-06-09 16:42:16 96人关注
Mercury:首个商用级别的Diffusion LLM,速度快、手机也能部署
在人工智能领域,一项颠覆性的技术正在悄然兴起。近日,Inception Labs 宣布推出 Mercury 系列扩散大型语言模型(dLLMs),这是一种新一代的语言模型,旨在快速、高效地生成高质量文本。与传统的自回归大型语言模型相比,Mercury 在生成速度上提高了多达10倍,能够在 NVIDIA H100显卡上实现超过每秒1000个标记的速度,这一速度在以往仅依靠定制芯片才能实现。