- 上云资讯 -
2025-07-25 12:43:32 93人关注
开源AI工具DailiCode横空出世:兼容多LLM模型,重构开发者工作流
近日,一款名为DailiCode的开源AI Agent CLI工具在GitHub引发关注。作为Gemini CLI的Fork版本,该工具以强大的多模型兼容性和丰富功能,为开发者打造了高效便捷的命令行AI助手新体验。
2025-07-21 14:20:21 44人关注
大语言模型的自信危机:为何GPT-4o轻易放弃正确答案?
最近,Google DeepMind 与伦敦大学的研究揭示了大语言模型(LLMs)在面对反对意见时的 “软弱” 表现。比如,像 GPT-4o 这样的先进模型,有时会显得非常自信,但一旦遇到质疑,它们就可能立即放弃正确答案。这种现象引发了研究人员的关注,他们探索了这种行为背后的原因。
大语言模型行为研究 LLMs 面对质疑表现 GPT-4o 自信度分析 语言模型软弱性原因 Google DeepMind 最新发现
2025-07-17 18:42:26 348人关注
谷歌 DeepMind 推出 MoR 架构:有望大幅提升大型语言模型的效率
在人工智能领域,大型语言模型(LLM)因其出色的表现而受到广泛关注,但其在部署时却面临着巨大的计算和内存开销问题。为了克服这一挑战,谷歌 DeepMind 最近推出了一种新架构 ——Mixture-of-Recursions(MoR),该架构被认为有潜力成为传统 Transformer 模型的 “杀手”。
大型语言模型 LLM 计算开销 LLM 内存优化 Mixture-of-Recursions 架构 MoR 替代 Transformer DeepMind 新模型架构
2025-07-17 08:44:45 209人关注
Kimi-2 已上线 LiveBench AI:超越 GPT-4.1,开源 AI 新王者诞生
近日,人工智能领域迎来了一项重要进展——Kimi-2 正式在 LiveBench AI 平台上线,并计划于次日在 ChatLLM 平台推出。这一消息迅速在业内引发广泛关注,Kimi-2以其卓越的性能和开源特性被认为是 AI 模型发展中的重要里程碑。以下是 AIbase 整理的关于 Kimi-2的最新动态和关键信息。
2025-07-10 14:38:14 100人关注
Hugging Face重磅开源SmolLM3:3B参数小模型媲美4B巨头,128K上下文引领高效AI新风潮!
近日,Hugging Face正式推出全新开源语言模型 SmolLM3,一款拥有3B参数的轻量级大语言模型(LLM),以其卓越性能和高效设计引发行业广泛关注。SmolLM3不仅在多项基准测试中超越同级别的Llama-3.2-3B和Qwen2.5-3B,甚至与更大规模的4B参数模型Gemma3性能相当。
Hugging Face SmolLM3 开源语言模型 轻量级大语言模型 3B参数模型 SmolLM3性能评测 SmolLM3基准测试
2025-07-09 11:38:27 81人关注
Hugging Face发布新一代小参数模型 SmolLM3:128K上下文,双模式推理
近日,全球知名的大模型开放平台 Hugging Face 正式发布了其最新开源模型 ——SmolLM3。这款模型拥有30亿参数,尽管参数量相对较小,但其性能显著超过了同类的开源模型,如 Llama-3.2-3B 和 Qwen2.5-3B。
Hugging Face最新开源模型 SmolLM3性能优势 30亿参数大模型 开源模型对比评测 小参数高性能模型 Hugging Face模型发布
2025-07-03 16:12:19 76人关注
探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异,推出 OctoThinker
大型语言模型(LLM)通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展,如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型,展现出强大的推理能力。然而,这种成功在不同的基础模型系列中难以复制,尤其是在 Llama 系列上。这引发了一个核心问题:究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?
大型语言模型 LLM 强化学习 Deepseek-R1-Zero 模型 基础模型表现差异 Llama 系列强化学习 复杂推理任务
2025-06-24 11:19:20 71人关注
AI 逆袭:大型语言模型助力癌症新药研发,竟然能 “发明” 疗法!
近日,一项来自剑桥大学等机构的研究成果引发了广泛关注:大型语言模型(LLMs)不仅在自然语言处理领域崭露头角,还能为癌症治疗带来新的希望。研究人员利用 GPT-4模型,首次尝试将其作为科学假说的生成工具,在乳腺癌的药物研发上取得了令人振奋的进展。
2025-06-23 10:35:29 96人关注
魔搭社区模型速递(6.14-6.21)
魔搭社区在6月14日至6月21日期间取得了显著进展,共发布了1154个模型、185个数据集和63个创新应用。社区重点展示了多个AI模型的应用实例,包括使用`AutoModelForCausalLM`和`AutoTokenizer`进行文本生成、`Qwen2_5_VLForConditionalGeneration`进行多模态处理等。技术实现方面详细介绍了模型加载、输入处理(如文本模板应用、视觉信息处理)和生成输出(如ID解码)的完整流程。社区还推荐了Nanonets-ocr等具体应用案例,并提供了模型调用示例代码(如`pip install`安装、`generate`方法参数设置)。最后邀请用户关注公众号获取更多技术资讯。
魔搭社区AI模型发布 魔搭社区数据集更新 魔搭社区创新应用案例 AutoModelForCausalLM文本生成 Qwen2_5_VL多模态处理 Nanonets-ocr应用案例
2025-06-23 10:27:34 55人关注
利用OpenVINO™高效推理MiniCPM4系列模型
本文介绍了使用OpenVINO™工具包高效推理MiniCPM4系列模型的步骤。首先需要创建Python虚拟环境并激活,然后安装必要的软件包,包括OpenVINO GenAI(需指定额外索引源)、NNCF以及Optimum-Intel(从GitHub源码安装)。核心实现部分展示了如何通过openvino_genai模块构建推理流程:创建参数解析器后,初始化LLMPipeline对象并配置生成参数,通过start_chat()开启对话,使用generate()方法处理提示词并支持流式输出,最后调用finish_chat()结束会话。整个过程体现了OpenVINO™在模型推理部署中的简洁性和高效性。
OpenVINO推理MiniCPM4 OpenVINO GenAI安装教程 Optimum-Intel源码安装 MiniCPM4模型部署 OpenVINO工具包高效推理 LLMPipeline流式输出
2025-06-20 16:11:16 279人关注
用AI会让人变笨!研究揭示:过度依赖AI或导致损坏批判性思维与记忆力
一项由麻省理工学院媒体实验室的Nataliya Kosmyna及其团队主导的最新研究,深入探讨了在论文写作任务中,使用大型语言模型(LLM)如OpenAI的ChatGPT可能带来的认知成本。该研究发现,尽管LLM产品为人类和企业带来了诸多便利,但其广泛应用却可能导致大脑积累“认知负债”,长远来看甚至会削弱个体的学习技能。
2025-06-18 13:23:13 71人关注
大模型推理大变革!CMU 与英伟达携手推出 Multiverse,实现超高速并行生成
随着人工智能的发展,大型语言模型(LLM)的应用越来越广泛,但目前的推理方式仍然存在不少局限性。传统的自回归生成方式需要逐个生成 token,效率较低且无法充分利用现代硬件的并行计算能力。为了解决这一问题,卡耐基梅隆大学(CMU)与英伟达的研究团队推出了一种名为 Multiverse 的新型生成模型,旨在实现原生并行生成,从根本上改变我们对 LLM 推理的理解。
2025-06-09 16:42:16 96人关注
Mercury:首个商用级别的Diffusion LLM,速度快、手机也能部署
在人工智能领域,一项颠覆性的技术正在悄然兴起。近日,Inception Labs 宣布推出 Mercury 系列扩散大型语言模型(dLLMs),这是一种新一代的语言模型,旨在快速、高效地生成高质量文本。与传统的自回归大型语言模型相比,Mercury 在生成速度上提高了多达10倍,能够在 NVIDIA H100显卡上实现超过每秒1000个标记的速度,这一速度在以往仅依靠定制芯片才能实现。