上云资讯 - 来上云吧，企业上云一站式服务

2025-09-02 15:39:32 733人关注

开源多模态模型MiniCPM-V 4.5发布，8亿参数实现移动端AI部署

近日，开源AI社区迎来重要进展，面向端侧设备的多模态大语言模型MiniCPM-V4.5正式发布。这款模型以8亿参数规模实现了在智能手机和平板电脑上的高效运行，为移动端AI应用开拓了新的可能性。

MiniCPM-V4.5 端侧多模态大语言模型移动端AI应用 8亿参数模型智能手机AI运行平板电脑AI应用

2025-08-07 18:35:18 336人关注

小红书发布开源多模态大模型 dots.vlm1，以 NaViT 视觉编码器领跑行业

小红书 Hi Lab 近日发布并开源了其首个自研多模态大模型 dots.vlm1。该模型基于12亿参数的 NaViT 视觉编码器和 DeepSeek V3大语言模型，从零开始完全训练，其卓越性能在多模态视觉理解与推理能力上已接近当前领先的闭源模型，如 Gemini2.5Pro 和 Seed-VL1.5，标志着开源多模态模型的性能达到了新的高度。

小红书多模态大模型 dots.vlm1开源模型 NaViT视觉编码器 DeepSeek V3大语言模型多模态视觉理解与推理开源多模态模型性能

2025-06-23 15:29:17 411人关注

一个模型实现生成+编辑！通义万相 Wan2.1-VACE 正式开源

通义万相Wan2.1-VACE是一个集图像生成与编辑功能于一体的开源多模态模型，由阿里云团队开发并正式发布。该模型通过统一架构同时支持文生图、图生图、图像修复和局部编辑等任务，显著提升了多任务处理效率。其核心创新在于采用基于扩散模型的可控生成技术，结合细粒度条件控制模块，能够精准理解用户指令并保持编辑区域与整体画面的协调性。模型在多项基准测试中表现优异，尤其在细节保留和语义一致性方面超越同类方案。开源版本提供了完整的训练代码、预训练模型及详细文档，支持研究者和开发者快速部署应用。这一技术突破为AIGC领域提供了更高效的解决方案，降低了多模态内容创作的技术门槛。

通义万相Wan2.1-VACE 开源多模态模型图像生成与编辑模型扩散模型可控生成技术细粒度条件控制模块 AIGC领域解决方案

2025-06-09 10:14:11 440人关注

AI日报：昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGEL

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

昆仑Gemma 昆仑Gemma模型 Bagel模型 AI大模型技术 AI模型应用场景

2025-06-02 16:31:38 783人关注

蚂蚁集团开源Ming-lite-omni:首个媲美GPT-4o的开源多模态模型

蚂蚁集团旗下百灵大模型团队在近期蚂蚁技术日上宣布重大决定:将统一多模态大模型Ming-lite-omni进行全面开源。这一举措不仅标志着蚂蚁集团在AI领域的又一次重大开放，更被业界视为首个在模态支持方面能够与GPT-4o相媲美的开源模型。

蚂蚁集团 MingLite GPT-4o AI大模型大模型技术大模型技术原理

2025-05-26 16:31:35 458人关注

字节跳动推出开源多模态模型BAGE 从图像生成到世界建模

字节跳动近日正式发布其最新开源多模态基础模型——BAGEL（Big Advanced Generalized Embodied Learner），以70亿个有效参数的规模，开启多模态AI模型的新阶段。BAGEL在图像理解、生成和编辑等关键任务中表现卓越，已在多个标准评测中超越当前主流开源视觉语言模型(VLM)，如Qwen2.5-VL和InternVL-2.5。

字节跳动开源多模态模型 Bage 多模态AI技术开源AI模型大模型技术发展

2025-05-01 16:25:20 506人关注

阿里开源多模态模型Qwen2.5-Omni：显存大幅降低暴降 50%

在开源大模型的竞争中，阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。这款模型的显著特点是显存使用减少了50%，在同等处理能力下，更加适合普通消费者的 GPU 设备。这一创新标志着阿里在多模态人工智能领域的进一步突破。

阿里巴巴通义千问2.5 通义千问2.5多模态模型阿里大模型技术多模态AI模型 Qwen2.5 Omni技术解析

2025-01-19 07:44:29 353人关注

开源本地实时多模态模型Moshi：实时生成语音支持多种口音

法国独立非盈利AI研究实验室 Kyutai 发布了一款语音助理 Moshi，这是一款革命性的实时本机多模态基础模型。这一创新模型在某些功能上模仿并超越了 OpenAI 在五月推出的 GPT-4o 所展示的一些功能。

开源多模态模型 Moshi模型多模态AI技术开源AI模型多模态模型应用

2024-12-31 23:18:44 418人关注

开源多模态模型Molmo 能够识别图像中的物体并生成准确描述

近日，一款名为Molmo的开源多模态人工智能模型引起了业界广泛关注。这个由Qwen2-72B为基础、借助OpenAI的CLIP作为视觉处理引擎的AI系统，正以其出色的性能和创新的功能挑战传统商业模型的霸主地位。

开源多模态模型多模态模型技术 Molmo模型开源AI模型多模态AI应用场景

2024-12-29 09:27:16 284人关注

Rhymes AI发布首款开源多模态AI模型Aria 性能超越GPT-4o mini等多家知名AI模型

最近，日本东京的初创公司 Rhymes AI 推出了他们的首款人工智能模型 ——Aria。该公司自称，Aria 是全球首个开源的多模态混合专家（MoE）模型。这个模型不仅具有处理多种输入模态的能力，还声称在能力上与一些知名的商业模型不相上下，甚至更胜一筹。

AI大模型开源多模态模型 Rhymes AI Aria模型多模态AI技术

2024-12-19 06:32:34 209人关注

Mistral推最强开源多模态模型 Pixtral Large，升级Le Chat可直接调用Flux Pro

法国人工智能初创公司 Mistral AI 宣布为其 Le Chat AI 助手添加了一系列新功能，包括集成的网络搜索、图像生成以及新推出的 Pixtral Large 模型。

Mistral AI PixTral Large Flux Pro AI大模型模型技术原理模型应用场景

- 上云资讯 -

开源多模态模型MiniCPM-V 4.5发布，8亿参数实现移动端AI部署

小红书发布开源多模态大模型 dots.vlm1，以 NaViT 视觉编码器领跑行业

一个模型实现生成+编辑！通义万相 Wan2.1-VACE 正式开源

AI日报：昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGEL

蚂蚁集团开源Ming-lite-omni:首个媲美GPT-4o的开源多模态模型

字节跳动推出开源多模态模型BAGE 从图像生成到世界建模

阿里开源多模态模型Qwen2.5-Omni：显存大幅降低暴降 50%

开源本地实时多模态模型Moshi：实时生成语音支持多种口音

开源多模态模型Molmo 能够识别图像中的物体并生成准确描述

Rhymes AI发布首款开源多模态AI模型Aria 性能超越GPT-4o mini等多家知名AI模型

Mistral推最强开源多模态模型 Pixtral Large，升级Le Chat可直接调用Flux Pro

推荐阅读

上云服务

- 上云资讯 -

开源多模态模型MiniCPM-V 4.5发布，8亿参数实现移动端AI部署

小红书发布开源多模态大模型 dots.vlm1，以 NaViT 视觉编码器领跑行业

一个模型实现生成+编辑！通义万相 Wan2.1-VACE 正式开源

AI日报：昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGEL

蚂蚁集团开源Ming-lite-omni:首个媲美GPT-4o的开源多模态模型

字节跳动推出开源多模态模型BAGE 从图像生成到世界建模

阿里开源多模态模型Qwen2.5-Omni：显存大幅降低暴降 50%

开源本地实时多模态模型Moshi：实时生成语音 支持多种口音

开源多模态模型Molmo 能够识别图像中的物体并生成准确描述

Rhymes AI发布首款开源多模态AI模型Aria 性能超越GPT-4o mini等多家知名AI模型

​Mistral推最强开源多模态模型 Pixtral Large，升级Le Chat可直接调用Flux Pro

推荐阅读

上云服务

开源本地实时多模态模型Moshi：实时生成语音支持多种口音

Mistral推最强开源多模态模型 Pixtral Large，升级Le Chat可直接调用Flux Pro