- 上云资讯 -
2025-08-27 09:22:16 155人关注
阿里国际发布多模态大模型 Ovis2.5,推动视觉感知与深度推理新进展
近日,阿里国际正式发布了其新一代多模态大模型 Ovis2.5,并对外开源。这款模型专注于原生分辨率视觉感知、深度推理以及高性价比的场景设计,旨在进一步提升人工智能的应用能力。Ovis2.5在主流多模态评测套件 OpenCompass 上的综合得分相比前一版本 Ovis2有了显著提升,继续在同类开源模型中保持 SOTA(最先进技术)水平。
阿里国际Ovis2.5 多模态大模型 开源AI模型 原生分辨率视觉感知 深度推理 高性价比AI OpenCompass评测 SOTA开源模型
2025-08-20 13:39:32 96人关注
X-SAM:打破图像分割的界限,实现任意分割的新突破
近日,中山大学、鹏城实验室与美团联合发布了一项名为 X-SAM 的新型图像分割多模态大模型,标志着图像分割技术的一次重要进步。该模型的出现,不仅提高了图像分割的精度,还实现了从 “分割万物” 到 “任意分割” 的重大飞跃。
X-SAM图像分割模型 多模态大模型技术 图像分割技术突破 中山大学AI研究成果 鹏城实验室与美团联合项目 任意分割技术
2025-08-07 18:35:18 119人关注
小红书发布开源多模态大模型 dots.vlm1,以 NaViT 视觉编码器领跑行业
小红书 Hi Lab 近日发布并开源了其首个自研多模态大模型 dots.vlm1。该模型基于12亿参数的 NaViT 视觉编码器 和 DeepSeek V3大语言模型,从零开始完全训练,其卓越性能在多模态视觉理解与推理能力上已接近当前领先的闭源模型,如 Gemini2.5Pro 和 Seed-VL1.5,标志着开源多模态模型的性能达到了新的高度。
小红书多模态大模型 dots.vlm1开源模型 NaViT视觉编码器 DeepSeek V3大语言模型 多模态视觉理解与推理 开源多模态模型性能
2025-07-12 17:21:44 186人关注
阿里HumanOmniV2震撼发布:多模态AI新王者,准确率飙升至69.33%
阿里巴巴集团近期正式推出其最新多模态大语言模型HumanOmniV2,在AI领域再掀波澜。这款模型以其强大的全局上下文理解能力和多模态推理能力,标志着阿里巴巴在人工智能技术的又一次重大突破。
2025-07-08 10:40:16 133人关注
Stream-Omni:同时支持各种模态组合交互,开启文本、视觉、语音结合
在人工智能技术飞速发展的今天,中国科学院计算技术研究所自然语言处理团队推出了一款名为 Stream-Omni 的文本 - 视觉 - 语音多模态大模型。这一模型的核心亮点在于它能够同时支持多种模态的交互方式,为用户带来更加灵活和丰富的体验。
多模态大模型 Stream-Omni 模型特点 文本视觉语音多模态交互 中国科学院计算技术研究所AI成果 多模态大模型应用场景
2025-07-07 12:16:21 148人关注
开源多模态大模型 EarthMind:革新地球观测数据分析的利器
近日,意大利特伦托大学、德国柏林工业大学及慕尼黑工业大学的研究团队联合推出了开源多模态大模型 EarthMind,该模型旨在高效分析和理解复杂的地球观测数据。这一创新的模型能够处理多粒度和多传感器的地球观测信息,为自然灾害监测和城市发展规划等领域提供了重要的决策依据。
2025-06-28 16:30:33 426人关注
通义千问发布多模态统一理解与生成模型Qwen VLo
近日,Qwen VLo多模态大模型正式发布,该模型在图像内容理解与生成方面取得了显著进展,为用户带来了全新的视觉创作体验。
2025-06-25 15:34:35 109人关注
立体几何成大模型 “拦路虎”,SolidGeo 基准助力 AI 突破空间推理瓶颈!
在人工智能领域,多模态大模型(MLLM)一直在不断进化,然而最近一个新发布的基准测试 ——SolidGeo,给这些模型带来了前所未有的挑战。由中国科学院自动化研究所的研究团队推出的 SolidGeo,专注于立体几何的推理能力,成为了首个系统评估多模态模型在三维空间理解方面的基准。
2025-06-01 16:41:15 124人关注
云从科技的多模态大模型获全球认可,登顶 OpenCompass 榜单
近日,云从科技自主研发的多模态大模型 “从容 V2.0” 在全球知名的 OpenCompass 多模态榜单上以高达80.7分的优异成绩脱颖而出,荣登榜首。这一成就标志着中国在人工智能领域的进一步突破,尤其是在视觉感知、认知理解和跨领域应用等专业领域的表现令人瞩目。