上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-10-28 09:21:34 57人关注

蚂蚁百灵团队发布新一代高效推理模型 Ring-mini-sparse-2.0-exp

蚂蚁百灵大模型团队最近宣布开源其全新高效推理模型 ——Ring-mini-sparse-2.0-exp。该模型基于 Ling2.0架构，专为长序列解码进行了优化，采用了创新的稀疏注意力机制。

2025-09-02 14:36:13 154人关注

颠覆的 AI 解决方案：层次推理模型 HRM 实现100倍推理速度提升

新加坡初创公司 Sapient Intelligence 最近推出了一种创新的人工智能架构，名为 “层次推理模型”（HRM）。该模型在复杂推理任务中能够与现有的大型语言模型(LLMs)相媲美，甚至在某些情况下表现更佳，且其数据需求和模型规模均远低于传统模型。HRM 的设计理念源自人类大脑，旨在通过不同的思维系统实现高效推理。

HRM 模型层次推理模型人工智能架构复杂推理任务大型语言模型替代方案高效推理系统

2025-06-23 10:27:34 121人关注

利用OpenVINO™高效推理MiniCPM4系列模型

本文介绍了使用OpenVINO™工具包高效推理MiniCPM4系列模型的步骤。首先需要创建Python虚拟环境并激活，然后安装必要的软件包，包括OpenVINO GenAI（需指定额外索引源）、NNCF以及Optimum-Intel（从GitHub源码安装）。核心实现部分展示了如何通过openvino_genai模块构建推理流程：创建参数解析器后，初始化LLMPipeline对象并配置生成参数，通过start_chat()开启对话，使用generate()方法处理提示词并支持流式输出，最后调用finish_chat()结束会话。整个过程体现了OpenVINO™在模型推理部署中的简洁性和高效性。

OpenVINO推理MiniCPM4 OpenVINO GenAI安装教程 Optimum-Intel源码安装 MiniCPM4模型部署 OpenVINO工具包高效推理 LLMPipeline流式输出

2025-05-15 16:44:13 152人关注

斯坦福新AI框架 OctoTools：无需训练，让AI实现高效复杂推理！

在人工智能（AI）领域，尽管大型语言模型(LLMs)在处理自然语言方面表现出色，但它们在面对复杂推理任务时常常显得力不从心。这些任务通常需要多步骤的推理、领域特定的知识，或者外部工具的有效集成。为了克服这些限制，研究人员们一直在探索如何通过外部工具的使用来提升 LLM 的能力。

Stanford AI框架 OctoTools 高效推理框架 AI推理工具 Stanford AI研究成果 AI框架优化

2025-04-28 10:24:34 256人关注

全球最快推理速度模型！Qafind Labs 发布 ChatDLM 技术

近日，Qafind Labs发布了其最新研发的ChatDLM模型，这一创新成果在人工智能领域引起了广泛关注。ChatDLM是首个将“区块扩散（Block Diffusion）”和“专家混合(MoE)”深度融合的模型，其在GPU上实现了惊人的2，800tokens/s超高推理速度，支持131，072tokens的超大上下文窗口，开启了文档级生成和实时对话的新纪元。

fastest inference model ChatDLM QAFind 模型推理速度优化高效推理技术

2025-01-14 12:33:45 141人关注

NVIDIA联手Hugging Face推高效推理服务，AI 模型的Token 处理效率提升五倍

最近，开源平台 Hugging Face 与 NVIDIA 宣布了一项令人振奋的新服务 —— 推理即服务（Inference-as-a-Service），这项服务将由 NVIDIA 的 NIM 技术驱动。新服务的推出可以让开发者们更快速地原型设计，使用 Hugging Face Hub 上提供的开源 AI 模型，并高效地进行部署。

NVIDIA Hugging Face 高效推理模型推理优化 AI推理加速 GPU加速技术

- 上云资讯 -

蚂蚁百灵团队发布新一代高效推理模型 Ring-mini-sparse-2.0-exp

颠覆的 AI 解决方案：层次推理模型 HRM 实现100倍推理速度提升

利用OpenVINO™高效推理MiniCPM4系列模型

斯坦福新AI框架 OctoTools：无需训练，让AI实现高效复杂推理！

全球最快推理速度模型！Qafind Labs 发布 ChatDLM 技术

NVIDIA联手Hugging Face推高效推理服务，AI 模型的Token 处理效率提升五倍

推荐阅读

上云服务

- 上云资讯 -

​蚂蚁百灵团队发布新一代高效推理模型 Ring-mini-sparse-2.0-exp

颠覆的 AI 解决方案：层次推理模型 HRM 实现100倍推理速度提升

利用OpenVINO™高效推理MiniCPM4系列模型

斯坦福新AI框架 OctoTools：无需训练，让AI实现高效复杂推理！

全球最快推理速度模型！Qafind Labs 发布 ChatDLM 技术

NVIDIA联手Hugging Face推高效推理服务，AI 模型的Token 处理效率提升五倍

推荐阅读

上云服务

蚂蚁百灵团队发布新一代高效推理模型 Ring-mini-sparse-2.0-exp