上云资讯 - 来上云吧，企业上云一站式服务

2025-12-03 12:16:18 197人关注

商汤NEO开源:用1/10数据量媲美顶级多模态模型，终结"拼凑式"AI时代

商汤科技与南洋理工大学S-Lab联合发布并开源全新多模态模型架构NEO，通过底层架构创新实现视觉与语言的深层统一，在性能、效率和通用性上取得全面突破。

AI

2025-11-17 14:42:33 439人关注

小米开源7B多模态模型MiMo-VL 推AI管家Miloco自动调节家居

小米今日在Hugging Face与GitHub同步发布7B参数多模态大模型“Xiaomi-MiMo-VL-Miloco-7B-GGUF”，并推出基于该模型的智能管家“Xiaomi Miloco”。

AI

2025-09-24 09:13:42 266人关注

AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

AI

2025-09-02 15:39:32 731人关注

开源多模态模型MiniCPM-V 4.5发布，8亿参数实现移动端AI部署

近日，开源AI社区迎来重要进展，面向端侧设备的多模态大语言模型MiniCPM-V4.5正式发布。这款模型以8亿参数规模实现了在智能手机和平板电脑上的高效运行，为移动端AI应用开拓了新的可能性。

MiniCPM-V4.5 端侧多模态大语言模型移动端AI应用 8亿参数模型智能手机AI运行平板电脑AI应用

2025-08-29 16:37:23 506人关注

SuperCLUE多模态视觉8月评测榜：Gemini-2.5-Pro位居第一

在8月28日发布的中文多模态视觉语言模型测评基准（SuperCLUE-VLM）榜单中，Gemini-2.5-Pro 以总分74.99分位居第一，OpenAI 的 GPT-5(high) 以68.59分排在第二位。

Gemini-2.5-Pro 登顶 SuperCLUE-VLM 榜单多模态模型评测 GPT-5(high) 排名第二视觉语言模型性能对比大模型多模态能力评估

2025-08-19 18:20:29 460人关注

腾讯开源WeChat-YATT大模型训练库，破解多模态训练两大核心瓶颈

腾讯近日发布了基于Megatron-Core和SGLang/vLLM研发的大模型训练库WeChat-YATT（Yet Another Transformer Trainer），内部项目代号为gCore。这一训练库专注于强化学习和多模态模型训练，致力于为开发者提供易扩展、简洁、高效、可靠的大模型训练解决方案。

腾讯大模型训练库 WeChat-YATT训练库 gCore项目多模态模型训练强化学习模型训练 Megatron-Core应用

2025-08-15 15:12:14 326人关注

字节跳动开源 VeOmni 框架：提升多模态训练效率的新利器

近日，字节跳动宣布开源其内部开发的 VeOmni 框架，这是一款专注于多模态模型训练的统一框架。随着人工智能技术的不断发展，特别是从单一语言模型向文本、图像和视频的多模态演进，算法工程师们在训练过程中面临诸多挑战，特别是训练流程的碎片化问题。为了应对这些困扰，VeOmni 应运而生。

字节跳动开源框架 VeOmni框架多模态模型训练 AI多模态演进算法工程师训练挑战统一训练框架

2025-08-14 08:22:26 364人关注

AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

AI日报人工智能热点 AI技术趋势 AI开发者指南创新AI产品应用 AI领域动态

2025-08-07 18:35:18 334人关注

小红书发布开源多模态大模型 dots.vlm1，以 NaViT 视觉编码器领跑行业

小红书 Hi Lab 近日发布并开源了其首个自研多模态大模型 dots.vlm1。该模型基于12亿参数的 NaViT 视觉编码器和 DeepSeek V3大语言模型，从零开始完全训练，其卓越性能在多模态视觉理解与推理能力上已接近当前领先的闭源模型，如 Gemini2.5Pro 和 Seed-VL1.5，标志着开源多模态模型的性能达到了新的高度。

小红书多模态大模型 dots.vlm1开源模型 NaViT视觉编码器 DeepSeek V3大语言模型多模态视觉理解与推理开源多模态模型性能

2025-08-01 08:19:43 309人关注

AI日报：GPT-5-Auto现身Mac客户端；阿里开源WebAgent项目WebShaper；腾讯推X-Omni多模态模型

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

AI日报人工智能热点 AI技术趋势 AI开发者指南创新AI产品应用 AI领域动态

2025-07-30 13:26:14 264人关注

昆仑万维开源多模态统一预训练模型 Skywork UniPic

7月30日，昆仑万维正式推出并开源了采用自回归路线的多模态统一预训练模型Skywork UniPic。该模型在单一架构中深度融合了图像理解、文本到图像生成及图像编辑三大核心能力，基于大规模高质量数据端到端预训练，展现了优异的通用性与可迁移性。

昆仑万维Skywork UniPic 多模态统一预训练模型自回归多模态模型图像理解与生成技术端到端预训练模型 Skywork UniPic开源

2025-07-18 16:16:20 240人关注

Mistral AI 推出新功能 Le Chat，全面追赶 ChatGPT

近日，欧洲 AI 初创公司 Mistral AI 的最新产品 Le Chat 引起了广泛关注。该公司由前谷歌和 Meta 的研究人员创立，近年来不断推出开源模型，包括被誉为 “世界上最优秀” 的 OCR 模型和多模态模型 Claude。最新发布的 Le Chat 则以其强大的新功能，向 OpenAI 的 ChatGPT 发起挑战。

Mistral AI Le Chat 功能开源 AI 模型多模态模型 Claude OCR 模型技术 AI 初创公司动态

2025-07-18 15:36:20 286人关注

字节跳动AI核心人事变动:视觉多模态负责人杨建朝宣布“暂时休息”

据网易科技报道称，字节跳动豆包大模型视觉多模态方向负责人杨建朝宣布“暂时休息”，并完成工作交接。其职位将由原阿里M6大模型技术负责人周畅（花名“时光”）接任，继续带领“Seed视觉模型”团队，向谷歌DeepMind前副总裁吴永辉汇报。

字节跳动豆包大模型视觉多模态模型 Seed视觉模型杨建朝离职周畅接任豆包大模型负责人

2025-07-11 15:45:40 471人关注

vivo 新多模态模型登场，AI 理解GUI界面能力再升级！

近日，vivo AI Lab 发布了其最新的端侧多模态模型 ——BlueLM-2.5-3B。这款模型不仅小巧高效，更具备了理解图形用户界面（GUI）的能力，标志着人工智能在处理文本和图像方面迈出了重要一步。

vivo AI Lab BlueLM-2.5-3B 端侧多模态模型 GUI理解能力人工智能文本图像处理

2025-06-26 17:35:25 247人关注

全新 GoT-R1 多模态模型发布：让 AI 画图更聪明，图像生成新纪元！

近日，来自香港大学、香港中文大学以及商汤科技的研究团队发布了一个令人瞩目的新框架 ——GoT-R1。这一全新的多模态大模型通过引入强化学习（RL），在视觉生成任务中显著提升了 AI 的语义和空间推理能力，成功应对复杂的文本提示生成高保真、语义一致的图像。这一进展标志着图像生成技术的又一次飞跃。

多模态大模型视觉生成任务强化学习在AI中的应用 GoT-R1框架语义和空间推理能力高保真图像生成

2025-06-25 15:34:35 338人关注

立体几何成大模型 “拦路虎”，SolidGeo 基准助力 AI 突破空间推理瓶颈！

在人工智能领域，多模态大模型（MLLM）一直在不断进化，然而最近一个新发布的基准测试 ——SolidGeo，给这些模型带来了前所未有的挑战。由中国科学院自动化研究所的研究团队推出的 SolidGeo，专注于立体几何的推理能力，成为了首个系统评估多模态模型在三维空间理解方面的基准。

多模态大模型立体几何推理能力三维空间理解评估 SolidGeo基准测试多模态模型挑战

2025-06-23 15:29:17 409人关注

一个模型实现生成+编辑！通义万相 Wan2.1-VACE 正式开源

通义万相Wan2.1-VACE是一个集图像生成与编辑功能于一体的开源多模态模型，由阿里云团队开发并正式发布。该模型通过统一架构同时支持文生图、图生图、图像修复和局部编辑等任务，显著提升了多任务处理效率。其核心创新在于采用基于扩散模型的可控生成技术，结合细粒度条件控制模块，能够精准理解用户指令并保持编辑区域与整体画面的协调性。模型在多项基准测试中表现优异，尤其在细节保留和语义一致性方面超越同类方案。开源版本提供了完整的训练代码、预训练模型及详细文档，支持研究者和开发者快速部署应用。这一技术突破为AIGC领域提供了更高效的解决方案，降低了多模态内容创作的技术门槛。

通义万相Wan2.1-VACE 开源多模态模型图像生成与编辑模型扩散模型可控生成技术细粒度条件控制模块 AIGC领域解决方案

2025-06-21 10:32:30 503人关注

华为发布盘古大模型5.5：五大基础模型升级深度思考模型将上线

在今日下午举行的华为开发者大会HDC2025主题演讲中，华为常务董事、华为云计算CEO张平安宣布正式发布盘古大模型5.5，标志着自然语言处理（NLP）、计算机视觉(CV)、多模态、预测、科学计算五大基础模型迎来全面升级。

华为盘古大模型5.5 盘古大模型升级 NLP模型计算机视觉模型多模态模型预测模型

2025-06-09 10:14:11 440人关注

AI日报：昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGEL

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

昆仑Gemma 昆仑Gemma模型 Bagel模型 AI大模型技术 AI模型应用场景

2025-06-05 10:42:25 446人关注

多模态大模型视觉推理能力评估:o3 仅得 25.8% 分数

近日，由清华大学、腾讯混元、斯坦福大学及卡耐基梅隆大学的研究团队联合发布了一项新评估基准 ——RBench-V，专门针对多模态大模型的视觉推理能力进行测试。该基准的推出，旨在填补当前评估体系中对模型视觉输出能力的空白，以便更全面地了解现有模型的性能。

多模态模型视觉推理评分多模态模型技术视觉推理能力评估多模态模型应用场景

- 上云资讯 -

商汤NEO开源:用1/10数据量媲美顶级多模态模型，终结"拼凑式"AI时代

小米开源7B多模态模型MiMo-VL 推AI管家Miloco自动调节家居

AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

开源多模态模型MiniCPM-V 4.5发布，8亿参数实现移动端AI部署

SuperCLUE多模态视觉8月评测榜：Gemini-2.5-Pro位居第一

腾讯开源WeChat-YATT大模型训练库，破解多模态训练两大核心瓶颈

字节跳动开源 VeOmni 框架：提升多模态训练效率的新利器

AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

小红书发布开源多模态大模型 dots.vlm1，以 NaViT 视觉编码器领跑行业

AI日报：GPT-5-Auto现身Mac客户端；阿里开源WebAgent项目WebShaper；腾讯推X-Omni多模态模型

昆仑万维开源多模态统一预训练模型 Skywork UniPic

Mistral AI 推出新功能 Le Chat，全面追赶 ChatGPT

字节跳动AI核心人事变动:视觉多模态负责人杨建朝宣布“暂时休息”

vivo 新多模态模型登场，AI 理解GUI界面能力再升级！

全新 GoT-R1 多模态模型发布：让 AI 画图更聪明，图像生成新纪元！

立体几何成大模型 “拦路虎”，SolidGeo 基准助力 AI 突破空间推理瓶颈！

一个模型实现生成+编辑！通义万相 Wan2.1-VACE 正式开源

华为发布盘古大模型5.5：五大基础模型升级深度思考模型将上线

AI日报：昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGEL

多模态大模型视觉推理能力评估:o3 仅得 25.8% 分数

推荐阅读

上云服务

- 上云资讯 -

商汤NEO开源:用1/10数据量媲美顶级多模态模型，终结"拼凑式"AI时代

小米开源7B多模态模型MiMo-VL 推AI管家Miloco自动调节家居

AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

开源多模态模型MiniCPM-V 4.5发布，8亿参数实现移动端AI部署

SuperCLUE多模态视觉8月评测榜：Gemini-2.5-Pro位居第一

腾讯开源WeChat-YATT大模型训练库，破解多模态训练两大核心瓶颈

字节跳动开源 VeOmni 框架：提升多模态训练效率的新利器

AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

小红书发布开源多模态大模型 dots.vlm1，以 NaViT 视觉编码器领跑行业

AI日报：GPT-5-Auto现身Mac客户端；阿里开源WebAgent项目WebShaper；腾讯推X-Omni多模态模型

昆仑万维开源多模态统一预训练模型 Skywork UniPic

​Mistral AI 推出新功能 Le Chat，全面追赶 ChatGPT

字节跳动AI核心人事变动:视觉多模态负责人杨建朝宣布“暂时休息”

vivo 新多模态模型登场，AI 理解GUI界面能力再升级！

全新 GoT-R1 多模态模型发布：让 AI 画图更聪明，图像生成新纪元！

立体几何成大模型 “拦路虎”，SolidGeo 基准助力 AI 突破空间推理瓶颈！

一个模型实现生成+编辑！通义万相 Wan2.1-VACE 正式开源

华为发布盘古大模型5.5：五大基础模型升级 深度思考模型将上线

AI日报：昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGEL

多模态大模型视觉推理能力评估:o3 仅得 25.8% 分数

推荐阅读

上云服务

Mistral AI 推出新功能 Le Chat，全面追赶 ChatGPT

华为发布盘古大模型5.5：五大基础模型升级深度思考模型将上线