- 上云资讯 -
2025-07-12 17:21:44 99人关注
阿里HumanOmniV2震撼发布:多模态AI新王者,准确率飙升至69.33%
阿里巴巴集团近期正式推出其最新多模态大语言模型HumanOmniV2,在AI领域再掀波澜。这款模型以其强大的全局上下文理解能力和多模态推理能力,标志着阿里巴巴在人工智能技术的又一次重大突破。
2025-07-08 10:40:16 76人关注
Stream-Omni:同时支持各种模态组合交互,开启文本、视觉、语音结合
在人工智能技术飞速发展的今天,中国科学院计算技术研究所自然语言处理团队推出了一款名为 Stream-Omni 的文本 - 视觉 - 语音多模态大模型。这一模型的核心亮点在于它能够同时支持多种模态的交互方式,为用户带来更加灵活和丰富的体验。
多模态大模型 Stream-Omni 模型特点 文本视觉语音多模态交互 中国科学院计算技术研究所AI成果 多模态大模型应用场景
2025-07-07 12:16:21 86人关注
开源多模态大模型 EarthMind:革新地球观测数据分析的利器
近日,意大利特伦托大学、德国柏林工业大学及慕尼黑工业大学的研究团队联合推出了开源多模态大模型 EarthMind,该模型旨在高效分析和理解复杂的地球观测数据。这一创新的模型能够处理多粒度和多传感器的地球观测信息,为自然灾害监测和城市发展规划等领域提供了重要的决策依据。
2025-06-28 16:30:33 281人关注
通义千问发布多模态统一理解与生成模型Qwen VLo
近日,Qwen VLo多模态大模型正式发布,该模型在图像内容理解与生成方面取得了显著进展,为用户带来了全新的视觉创作体验。
2025-06-25 15:34:35 59人关注
立体几何成大模型 “拦路虎”,SolidGeo 基准助力 AI 突破空间推理瓶颈!
在人工智能领域,多模态大模型(MLLM)一直在不断进化,然而最近一个新发布的基准测试 ——SolidGeo,给这些模型带来了前所未有的挑战。由中国科学院自动化研究所的研究团队推出的 SolidGeo,专注于立体几何的推理能力,成为了首个系统评估多模态模型在三维空间理解方面的基准。
2025-06-01 16:41:15 78人关注
云从科技的多模态大模型获全球认可,登顶 OpenCompass 榜单
近日,云从科技自主研发的多模态大模型 “从容 V2.0” 在全球知名的 OpenCompass 多模态榜单上以高达80.7分的优异成绩脱颖而出,荣登榜首。这一成就标志着中国在人工智能领域的进一步突破,尤其是在视觉感知、认知理解和跨领域应用等专业领域的表现令人瞩目。
2025-02-28 16:24:12 148人关注
百度文心大模型4.5将于3月16日发布 具备原生多模态、深度思考等能力
百度公司宣布,其最新的文心大模型4.5将于3月16日正式上线。据悉,文心大模型是百度在人工智能领域的重要布局,自两年前首次发布以来,已在全球范围内产生了深远影响。
2025-02-27 16:40:30 95人关注
百度文心4.5或将在3月中旬发布 提升推理及多模态能力
路透社消息,百度公司正紧锣密鼓筹备其下一代人工智能模型的发布,预计将于3月中旬正式推出文心4.5版本。据内部知情人士透露,新版本将在推理等多个核心领域实现显著能力提升,标志着百度在AI技术上的又一重要突破。
2025-02-21 12:39:26 339人关注
ScreenSpot-Pro:专为高分辨率环境设计的多模态 LLM 基准工具!
在专业环境中,图形用户界面(GUI)代理面临着三大关键挑战。首先,专业应用程序的复杂性远高于一般软件,要求对复杂布局有深入理解;其次,专业工具通常具备更高的分辨率,导致目标尺寸较小,从而降低了定位准确性;最后,工作流程往往依赖于额外工具和文档,增加了操作的复杂性。这些挑战凸显了开发更先进的基准和解决方案以提升 GUI 代理在这些严苛场景中的性能的必要性。
高分辨率多模态LLM基准 ScreenSpot Pro评测 多模态大模型基准测试 ScreenSpot Pro应用场景 高分辨率多模态基准
2025-02-05 18:24:29 191人关注
前微软视觉专家胡瀚加盟腾讯,全面负责混元多模态大模型研发
前微软亚洲研究院视觉计算组的首席研究员胡瀚已正式加入腾讯,接替已离职的前腾讯混元大模型技术负责人刘威,承担起多模态大模型的研发任务。这一消息引起了业界的广泛关注。