上云资讯 - 来上云吧，企业上云一站式服务

2025-10-27 10:20:44 39人关注

巨量引擎亮出AI治理“利剑”：自研多模态大模型10分钟审90%广告，单季拦截84万违规素材

当AI生成内容席卷广告行业，虚假宣传、违规素材和恶意诱导也悄然滋生。面对这场由技术催生的新风险，巨量引擎选择用更强大的AI来守护秩序。近日，其首次公开自研的AI广告治理大模型，以“全链路治理”为框架、“以AI治AI”为核心策略，为数字广告生态筑起一道智能防线。

AI

2025-09-01 14:28:15 571人关注

上海AI实验室发布多模态大模型书生·万象 InternVL3.5

8月31日，上海人工智能实验室（上海AI实验室）宣布开源发布多模态大模型书生·万象InternVL3.5。该模型通过创新的级联式强化学习(Cascade RL)、动态视觉分辨率路由与解耦部署架构，实现了推理能力、部署效率与通用能力的全面升级。InternVL3.5开源了从1B到241B各尺寸参数的全量级版本，刷新了开源模型性能标杆，在多种任务上达到领先水平。

书生·万象InternVL3.5 上海AI实验室开源多模态大模型级联式强化学习动态视觉分辨率路由解耦部署架构

2025-08-29 12:15:32 409人关注

数学AI推理迎来重大突破！We-Math 2.0构建全链条知识体系，多模态学习能力实现质的飞跃

多模态大模型在图像问答和视觉理解等领域虽然取得了显著进展，但在数学推理这一核心挑战上依然存在明显短板。北京邮电大学、腾讯微信和清华大学的联合研究团队针对这一痛点，正式发布了We-Math2.0——一个突破性的多模态数学推理数据集和知识体系。

多模态大模型数学推理 We-Math2.0 视觉理解图像问答多模态数据集知识体系北京邮电大学清华大学腾讯微信

2025-08-27 09:22:16 408人关注

阿里国际发布多模态大模型 Ovis2.5，推动视觉感知与深度推理新进展

近日，阿里国际正式发布了其新一代多模态大模型 Ovis2.5，并对外开源。这款模型专注于原生分辨率视觉感知、深度推理以及高性价比的场景设计，旨在进一步提升人工智能的应用能力。Ovis2.5在主流多模态评测套件 OpenCompass 上的综合得分相比前一版本 Ovis2有了显著提升，继续在同类开源模型中保持 SOTA（最先进技术）水平。

阿里国际Ovis2.5 多模态大模型开源AI模型原生分辨率视觉感知深度推理高性价比AI OpenCompass评测 SOTA开源模型

2025-08-20 13:39:32 295人关注

X-SAM：打破图像分割的界限，实现任意分割的新突破

近日，中山大学、鹏城实验室与美团联合发布了一项名为 X-SAM 的新型图像分割多模态大模型，标志着图像分割技术的一次重要进步。该模型的出现，不仅提高了图像分割的精度，还实现了从 “分割万物” 到 “任意分割” 的重大飞跃。

X-SAM图像分割模型多模态大模型技术图像分割技术突破中山大学AI研究成果鹏城实验室与美团联合项目任意分割技术

2025-08-20 08:10:11 191人关注

中山大学联合美团打造X-SAM模型，单次操作可分割多个对象，20项测试全面领先

中山大学、鹏城实验室与美团三方联合研发的X-SAM图像分割模型近期正式发布，这款多模态大模型在图像分割领域实现了重要突破，将传统的"分割万物"能力升级为"任意分割"，显著提升了模型的适应性和应用范围。

X-SAM图像分割模型多模态大模型图像分割技术任意分割能力中山大学AI研究鹏城实验室AI成果

2025-08-14 17:14:42 216人关注

铁一院携手商汤科技！70年工程经验迎来AI传承新模式

中国铁路建设领域正在经历一场知识传承革命。拥有 70 年历史的中铁第一勘察设计院近日与商汤科技达成深度合作，共同推出"国铁价值工程多模态大模型应用平台"，这标志着传统铁路工程设计首次拥抱前沿AI技术。

中国铁路建设铁路工程设计AI 多模态大模型应用国铁价值工程中铁第一勘察设计院商汤科技合作

2025-08-12 10:33:30 286人关注

小米再出AI黑马！开源多模态大模型 MiMo-VL-7B-2508 性能大幅跃升，支持思考模式切换

小米宣布开源全新版本的多模态大模型——Xiaomi MiMo-VL-7B-2508，并同步推出 SFT 和 RL 两个模型版本。此次升级不仅优化了输出模式，还提升了 RL 训练的稳定性，在多项能力评测中取得了显著进步。同时，用户还可以在“思考模式”和“非思考模式”之间灵活切换，以适应不同场景需求。

小米多模态大模型大模型开源 Xiaomi MiMo-VL-7B-2508 SFT模型 RL模型训练多模态大模型评测

2025-08-09 16:41:24 453人关注

小米开源最新多模态大模型 Xiaomi MiMo-VL-7B-2508

小米大模型团队宣布开源最新一代多模态大模型 Xiaomi MiMo-VL-7B-2508，包含 RL 与 SFT 两个版本。

小米大模型多模态大模型 Xiaomi MiMo-VL-7B-2508 RL版本大模型 SFT版本大模型小米开源大模型

2025-08-07 18:35:18 336人关注

小红书发布开源多模态大模型 dots.vlm1，以 NaViT 视觉编码器领跑行业

小红书 Hi Lab 近日发布并开源了其首个自研多模态大模型 dots.vlm1。该模型基于12亿参数的 NaViT 视觉编码器和 DeepSeek V3大语言模型，从零开始完全训练，其卓越性能在多模态视觉理解与推理能力上已接近当前领先的闭源模型，如 Gemini2.5Pro 和 Seed-VL1.5，标志着开源多模态模型的性能达到了新的高度。

小红书多模态大模型 dots.vlm1开源模型 NaViT视觉编码器 DeepSeek V3大语言模型多模态视觉理解与推理开源多模态模型性能

2025-08-05 15:34:15 229人关注

小米全量开源MiDashengLM-7B：音频理解性能刷新SOTA，推理速度暴增20倍

小米今日正式发布并全量开源了MiDashengLM-7B多模态大模型，这款专注于音频理解的AI模型在性能和效率两个维度都实现了显著突破。该模型不仅在22个公开评测集上刷新了多模态大模型的最好成绩，更在推理效率上展现出惊人优势——单样本推理的首Token延迟仅为业界先进模型的四分之一，数据吞吐效率更是高出20倍以上。

小米多模态大模型 MiDashengLM-7B 音频理解AI模型大模型推理效率多模态大模型评测大模型数据吞吐效率

2025-07-28 11:44:24 209人关注

智能座舱迎来革命性升级！斑马智行元神 AI 大模型问鼎全球

在2025世界人工智能大会上，斑马智行联合通义和高通，重磅推出了端侧多模态大模型解决方案，标志着汽车智能座舱进入了主动智能时代。这一创新方案基于高通8397平台，能够实现智能座舱90% 的 “感知 - 决策 - 执行” 闭环，大幅提升了车内交互体验。

斑马智行端侧多模态大模型智能座舱解决方案高通8397平台主动智能时代汽车智能交互体验

2025-07-12 17:21:44 389人关注

阿里HumanOmniV2震撼发布：多模态AI新王者，准确率飙升至69.33%

阿里巴巴集团近期正式推出其最新多模态大语言模型HumanOmniV2，在AI领域再掀波澜。这款模型以其强大的全局上下文理解能力和多模态推理能力，标志着阿里巴巴在人工智能技术的又一次重大突破。

阿里巴巴多模态大模型 HumanOmniV2技术解析多模态推理能力全局上下文理解阿里巴巴AI技术突破

2025-07-08 10:40:16 358人关注

Stream-Omni：同时支持各种模态组合交互,开启文本、视觉、语音结合

在人工智能技术飞速发展的今天，中国科学院计算技术研究所自然语言处理团队推出了一款名为 Stream-Omni 的文本 - 视觉 - 语音多模态大模型。这一模型的核心亮点在于它能够同时支持多种模态的交互方式，为用户带来更加灵活和丰富的体验。

多模态大模型 Stream-Omni 模型特点文本视觉语音多模态交互中国科学院计算技术研究所AI成果多模态大模型应用场景

2025-07-07 12:16:21 427人关注

开源多模态大模型 EarthMind：革新地球观测数据分析的利器

近日，意大利特伦托大学、德国柏林工业大学及慕尼黑工业大学的研究团队联合推出了开源多模态大模型 EarthMind，该模型旨在高效分析和理解复杂的地球观测数据。这一创新的模型能够处理多粒度和多传感器的地球观测信息，为自然灾害监测和城市发展规划等领域提供了重要的决策依据。

开源多模态大模型 EarthMind 模型地球观测数据分析自然灾害监测技术城市发展规划决策

2025-06-28 16:30:33 676人关注

通义千问发布多模态统一理解与生成模型Qwen VLo

近日，Qwen VLo多模态大模型正式发布，该模型在图像内容理解与生成方面取得了显著进展，为用户带来了全新的视觉创作体验。

Qwen VLo多模态大模型多模态大模型技术图像内容理解技术视觉创作体验 AI视觉生成技术

2025-06-26 17:35:25 248人关注

全新 GoT-R1 多模态模型发布：让 AI 画图更聪明，图像生成新纪元！

近日，来自香港大学、香港中文大学以及商汤科技的研究团队发布了一个令人瞩目的新框架 ——GoT-R1。这一全新的多模态大模型通过引入强化学习（RL），在视觉生成任务中显著提升了 AI 的语义和空间推理能力，成功应对复杂的文本提示生成高保真、语义一致的图像。这一进展标志着图像生成技术的又一次飞跃。

多模态大模型视觉生成任务强化学习在AI中的应用 GoT-R1框架语义和空间推理能力高保真图像生成

2025-06-25 15:34:35 339人关注

立体几何成大模型 “拦路虎”，SolidGeo 基准助力 AI 突破空间推理瓶颈！

在人工智能领域，多模态大模型（MLLM）一直在不断进化，然而最近一个新发布的基准测试 ——SolidGeo，给这些模型带来了前所未有的挑战。由中国科学院自动化研究所的研究团队推出的 SolidGeo，专注于立体几何的推理能力，成为了首个系统评估多模态模型在三维空间理解方面的基准。

多模态大模型立体几何推理能力三维空间理解评估 SolidGeo基准测试多模态模型挑战

2025-06-05 10:42:25 447人关注

多模态大模型视觉推理能力评估:o3 仅得 25.8% 分数

近日，由清华大学、腾讯混元、斯坦福大学及卡耐基梅隆大学的研究团队联合发布了一项新评估基准 ——RBench-V，专门针对多模态大模型的视觉推理能力进行测试。该基准的推出，旨在填补当前评估体系中对模型视觉输出能力的空白，以便更全面地了解现有模型的性能。

多模态模型视觉推理评分多模态模型技术视觉推理能力评估多模态模型应用场景

2025-06-01 16:41:15 309人关注

云从科技的多模态大模型获全球认可，登顶 OpenCompass 榜单

近日，云从科技自主研发的多模态大模型 “从容 V2.0” 在全球知名的 OpenCompass 多模态榜单上以高达80.7分的优异成绩脱颖而出，荣登榜首。这一成就标志着中国在人工智能领域的进一步突破，尤其是在视觉感知、认知理解和跨领域应用等专业领域的表现令人瞩目。

云从科技多模态大模型 OpenCompass 榜单 AI大模型评测大模型技术排名

- 上云资讯 -

巨量引擎亮出AI治理“利剑”：自研多模态大模型10分钟审90%广告，单季拦截84万违规素材

上海AI实验室发布多模态大模型书生·万象 InternVL3.5

数学AI推理迎来重大突破！We-Math 2.0构建全链条知识体系，多模态学习能力实现质的飞跃

阿里国际发布多模态大模型 Ovis2.5，推动视觉感知与深度推理新进展

X-SAM：打破图像分割的界限，实现任意分割的新突破

中山大学联合美团打造X-SAM模型，单次操作可分割多个对象，20项测试全面领先

铁一院携手商汤科技！70年工程经验迎来AI传承新模式

小米再出AI黑马！开源多模态大模型 MiMo-VL-7B-2508 性能大幅跃升，支持思考模式切换

小米开源最新多模态大模型 Xiaomi MiMo-VL-7B-2508

小红书发布开源多模态大模型 dots.vlm1，以 NaViT 视觉编码器领跑行业

小米全量开源MiDashengLM-7B：音频理解性能刷新SOTA，推理速度暴增20倍

智能座舱迎来革命性升级！斑马智行元神 AI 大模型问鼎全球

阿里HumanOmniV2震撼发布：多模态AI新王者，准确率飙升至69.33%

Stream-Omni：同时支持各种模态组合交互,开启文本、视觉、语音结合

开源多模态大模型 EarthMind：革新地球观测数据分析的利器

通义千问发布多模态统一理解与生成模型Qwen VLo

全新 GoT-R1 多模态模型发布：让 AI 画图更聪明，图像生成新纪元！

立体几何成大模型 “拦路虎”，SolidGeo 基准助力 AI 突破空间推理瓶颈！

多模态大模型视觉推理能力评估:o3 仅得 25.8% 分数

云从科技的多模态大模型获全球认可，登顶 OpenCompass 榜单

推荐阅读

上云服务

- 上云资讯 -

巨量引擎亮出AI治理“利剑”：自研多模态大模型10分钟审90%广告，单季拦截84万违规素材

上海AI实验室发布多模态大模型书生·万象 InternVL3.5

数学AI推理迎来重大突破！We-Math 2.0构建全链条知识体系，多模态学习能力实现质的飞跃

​阿里国际发布多模态大模型 Ovis2.5，推动视觉感知与深度推理新进展

​X-SAM：打破图像分割的界限，实现任意分割的新突破

中山大学联合美团打造X-SAM模型，单次操作可分割多个对象，20项测试全面领先

铁一院携手商汤科技！70年工程经验迎来AI传承新模式

小米再出AI黑马！开源多模态大模型 MiMo-VL-7B-2508 性能大幅跃升，支持思考模式切换

小米开源最新多模态大模型 Xiaomi MiMo-VL-7B-2508

小红书发布开源多模态大模型 dots.vlm1，以 NaViT 视觉编码器领跑行业

小米全量开源MiDashengLM-7B：音频理解性能刷新SOTA，推理速度暴增20倍

智能座舱迎来革命性升级！斑马智行元神 AI 大模型问鼎全球

阿里HumanOmniV2震撼发布：多模态AI新王者，准确率飙升至69.33%

Stream-Omni：同时支持各种模态组合交互,开启文本、视觉、语音结合

​开源多模态大模型 EarthMind：革新地球观测数据分析的利器

通义千问发布多模态统一理解与生成模型Qwen VLo

全新 GoT-R1 多模态模型发布：让 AI 画图更聪明，图像生成新纪元！

立体几何成大模型 “拦路虎”，SolidGeo 基准助力 AI 突破空间推理瓶颈！

多模态大模型视觉推理能力评估:o3 仅得 25.8% 分数

云从科技的多模态大模型获全球认可，登顶 OpenCompass 榜单

推荐阅读

上云服务

阿里国际发布多模态大模型 Ovis2.5，推动视觉感知与深度推理新进展

X-SAM：打破图像分割的界限，实现任意分割的新突破

开源多模态大模型 EarthMind：革新地球观测数据分析的利器