- 上云资讯 -
2025-12-12 15:21:19 20人关注
Starcloud 在太空中成功训练大型语言模型
NVIDIA 支持的初创公司 Starcloud 最近在太空中首次成功训练了大型语言模型(LLM),标志着向太空数据中心迈出了重要一步。随着对计算能力和能源需求的增加,利用太空资源成为未来的发展方向。
2025-12-10 08:15:10 43人关注
MIT 推出新方法,显著提升大型语言模型计算效率
MIT 的研究团队近日发布了一项创新的计算方法,旨在提高大型语言模型(LLM)的运算效率,同时降低能源消耗。这项名为实例自适应缩放的技术,可以根据提问的复杂程度调整计算资源。研究小组的相关论文于11月初发布,得到了 MIT-IBM 沃森人工智能实验室、MIT-Amazon 科学中心、MIT-Google 计算创新项目以及 MathWorks 的支持。
2025-11-13 13:25:32 148人关注
微博推出 VibeThinker-1.5B,低成本 AI 模型挑战大型语言模型
近日,中国社交媒体公司微博的人工智能部门推出了开源的 VibeThinker-1.5B,这是一个拥有15亿参数的大型语言模型(LLM)。该模型是基于阿里巴巴的 Qwen2.5-Math-1.5B 进行的精细调整,现已在 Hugging Face、GitHub 和 ModelScope 上免费提供,供研究人员和企业开发者使用,甚至可用于商业目的,遵循 MIT 许可证。
2025-09-04 13:22:41 329人关注
Meta 推出 DeepConf 技术,智能平衡大型语言模型的推理成本与准确性
近日,Meta AI 联合加州大学圣地亚哥分校(UCSD)推出了一种名为 Deep Think with Confidence(DeepConf) 的新技术,旨在帮助企业在大语言模型(LLM)的复杂推理任务中,有效降低算力成本的同时保持高准确率 。
大语言模型推理优化 DeepConf 技术解析 LLM 算力成本降低 复杂推理任务效率提升 Meta AI 与 UCSD 合作研究 企业级 AI 应用优化
2025-08-20 10:12:20 115人关注
微软Copilot打破Excel工作流壁垒:一键完成数据分析、分类与内容生成
微软正在通过一项名为“Copilot”的新功能,将大型语言模型(LLM)的强大能力直接引入 Excel 单元格,旨在从根本上改变用户处理数据的方式。这项集成将加快数据分析、文本分类和内容生成等任务的速度,让用户无需手动编辑或依赖外部工具。
微软Copilot Excel集成 Excel数据分析AI 大型语言模型Excel应用 Excel文本分类自动化 Excel内容生成技术
2025-08-14 10:18:34 189人关注
微软重磅推出POML!全新AI标记语言颠覆提示工程,未来还是XML翻版?
近日,微软推出了一款全新的提示编排标记语言(POML,Prompt Orchestration Markup Language),专为大型语言模型(LLMs)的提示工程设计。据AIbase综合整理的网络信息,POML旨在解决传统提示开发中的痛点,通过结构化、可维护的方式提升AI应用的开发效率。然而,这一新语言是否只是XML的“翻版”,以及其复杂性是否会削弱实用性,引发了社区热议。
2025-08-13 15:27:26 163人关注
GPT-oss 放飞自我:无提示自主生成编程难题,竟重复解题5000次
近日,GPT-oss 的表现引发了不少关注,甚至让人感到惊讶。这款大型语言模型在没有任何提示的情况下,自主构思出一个复杂的编程问题,并且竟然重复解答了超过5000次!这个问题围绕多米诺骨牌展开,要求在一个 NxM 的网格中,放置一个多米诺骨牌以占据两个相邻的格子,剩下的空格则必须能完全拼成多个2×2的方块。如此复杂的逻辑,竟然是 GPT-oss 在完全无提示的情况下自行想出的。
GPT-oss 自主编程能力 大型语言模型创新表现 GPT-oss 多米诺骨牌问题 无提示 AI 逻辑推理 GPT-oss 复杂问题解决能力 AI 自主构思能力
2025-08-10 09:19:34 307人关注
谷歌开源结构化信息提取工具langextract,可提供精确来源定位
谷歌正式发布了一款全新的开源 Python 库 LangExtract,旨在利用大型语言模型(LLM)如 Gemini,从非结构化文本中高效提取结构化信息。
2025-08-04 14:28:24 142人关注
Anthropic 推出个性向量技术,掌控语言模型行为新突破
Anthropic普近日宣布了一项新技术 —— 个性向量,旨在监测、控制和预防大型语言模型中的特定个性特征。随着语言模型在实际应用中的广泛使用,部分模型表现出不可预测的个性特征,比如 ChatGPT 显示出的过度恭维行为,以及更极端的例子,如 x.AI 的 Grok 模型展现出具有争议的角色 "MechaHitler"。
2025-08-01 11:33:17 501人关注
Anthropic 超越 OpenAI 成为企业 AI 模型的新宠
根据 Menlo Ventures 最近发布的一项报告,人工智能研究实验室 Anthropic 的 AI 模型在企业市场中的受欢迎程度已经超过了 OpenAI。这一趋势反映了 AI 技术在商业应用中的快速变化。当前,Anthropic 在企业大型语言模型市场的份额已达到32%,而 OpenAI 则以25% 的份额位列第二。
Anthropic AI 模型 企业AI市场趋势 大型语言模型市场份额 Anthropic vs OpenAI AI技术商业应用
2025-07-30 15:42:22 154人关注
Mistral AI 发布人工智能模型环境影响分析,揭示可持续发展挑战
Mistral AI 是一家位于巴黎的科技公司,专注于开发开放式和开源的大型语言模型。近期,该公司对其一款大型语言模型进行了全面的生命周期分析,旨在评估人工智能技术的环境影响。
2025-07-17 18:42:26 577人关注
谷歌 DeepMind 推出 MoR 架构:有望大幅提升大型语言模型的效率
在人工智能领域,大型语言模型(LLM)因其出色的表现而受到广泛关注,但其在部署时却面临着巨大的计算和内存开销问题。为了克服这一挑战,谷歌 DeepMind 最近推出了一种新架构 ——Mixture-of-Recursions(MoR),该架构被认为有潜力成为传统 Transformer 模型的 “杀手”。
大型语言模型 LLM 计算开销 LLM 内存优化 Mixture-of-Recursions 架构 MoR 替代 Transformer DeepMind 新模型架构
2025-07-14 14:26:25 250人关注
研究警告使用人工智能治疗聊天机器人存在“重大风险”
随着人工智能技术的发展,越来越多的聊天机器人开始被应用于心理治疗领域。然而,斯坦福大学的最新研究警告我们,依赖这些由大型语言模型驱动的 AI 疗法聊天机器人,可能会给用户带来 “显著风险”。这项名为《表达污名与不当反应阻碍大型语言模型安全替代心理健康提供者》的研究,将在即将召开的 ACM 公平性、问责制与透明度会议上发表。
2025-07-03 16:12:19 240人关注
探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异,推出 OctoThinker
大型语言模型(LLM)通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展,如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型,展现出强大的推理能力。然而,这种成功在不同的基础模型系列中难以复制,尤其是在 Llama 系列上。这引发了一个核心问题:究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?
大型语言模型 LLM 强化学习 Deepseek-R1-Zero 模型 基础模型表现差异 Llama 系列强化学习 复杂推理任务
2025-07-01 11:40:45 247人关注
苹果 AI 团队遭遇动荡:顶尖研究员离职引发信任危机
最近,苹果公司在人工智能领域面临了一场不小的风波。一位重要的高级研究员汤姆・冈特(Tom Gunter)在公司工作八年后选择离职,这一消息引发了内部的广泛关注。冈特在大型语言模型方面的专业知识被认为是无可替代的,尤其是在当前竞争对手如 Meta 和 OpenAI 都在通过高额薪资挖角人才的情况下。
2025-06-24 11:19:20 202人关注
AI 逆袭:大型语言模型助力癌症新药研发,竟然能 “发明” 疗法!
近日,一项来自剑桥大学等机构的研究成果引发了广泛关注:大型语言模型(LLMs)不仅在自然语言处理领域崭露头角,还能为癌症治疗带来新的希望。研究人员利用 GPT-4模型,首次尝试将其作为科学假说的生成工具,在乳腺癌的药物研发上取得了令人振奋的进展。
2025-06-20 16:11:16 436人关注
用AI会让人变笨!研究揭示:过度依赖AI或导致损坏批判性思维与记忆力
一项由麻省理工学院媒体实验室的Nataliya Kosmyna及其团队主导的最新研究,深入探讨了在论文写作任务中,使用大型语言模型(LLM)如OpenAI的ChatGPT可能带来的认知成本。该研究发现,尽管LLM产品为人类和企业带来了诸多便利,但其广泛应用却可能导致大脑积累“认知负债”,长远来看甚至会削弱个体的学习技能。
2025-06-18 15:14:39 572人关注
开源新星 Kimi-Dev-72B:打破代码修复界限的 AI 神器
最近,备受关注的开源大型语言模型 Kimi-Dev-72B 正式上线,成为开发者们的新宠。这款模型由 “月之暗面” 团队开发,专门为解决代码问题而设计,旨在提升编程效率。
