上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-06-05 10:42:25 447人关注

多模态大模型视觉推理能力评估:o3 仅得 25.8% 分数

近日，由清华大学、腾讯混元、斯坦福大学及卡耐基梅隆大学的研究团队联合发布了一项新评估基准 ——RBench-V，专门针对多模态大模型的视觉推理能力进行测试。该基准的推出，旨在填补当前评估体系中对模型视觉输出能力的空白，以便更全面地了解现有模型的性能。

多模态模型视觉推理评分多模态模型技术视觉推理能力评估多模态模型应用场景

2025-05-22 16:31:19 380人关注

多模态大模型MMaDA：让AI学会「跨次元思考」，文本图像通吃的全能型选手来了！

最近，普林斯顿大学、字节跳动、清华大学和北京大学联手搞了个大事情，推出了一款名为 MMaDA 的多模态大模型! 这可不是普通的 AI，它号称能让 AI 拥有“深度思考”的能力，还能在文本、图像、甚至复杂的推理任务之间“七十二变”，表现力直接超越了你熟悉的 GPT-4、Gemini、甚至 SDXL!

多模态模型 MMADA AI 文本图像处理多模态AI技术 AI模型应用场景多模态模型技术解析

2025-02-05 16:36:42 381人关注

前微软视觉专家胡瀚加盟腾讯，掌舵多模态大模型研发

近日，前微软亚洲研究院的视觉计算组首席研究员胡瀚正式加盟腾讯，负责混元多模态大模型的研发工作。这一消息引发了业内的广泛关注，胡瀚的加入被认为将为腾讯的人工智能事业注入新的活力。

腾讯多模态模型微软专家加入腾讯多模态模型技术腾讯AI人才引进多模态模型发展

2025-01-16 23:20:18 419人关注

智源研究院推出新一代无编码器视觉语言多模态大模型EVE

近期，多模态大模型的研究和应用取得了显著进展。国外公司如OpenAI、Google、Microsoft等推出了一系列先进的模型，国内也有智谱AI、阶跃星辰等机构在该领域取得了突破。这些模型通常依赖视觉编码器来提取视觉特征并与大语言模型结合，但存在训练分离导致的视觉归纳偏置问题，限制了多模态大模型的部署效率和性能。

EVE编码器无编码器视觉语言模型多模态模型技术视觉语言融合模型多模态AI架构

2025-01-13 19:27:46 284人关注

书生·浦语灵笔多模态大模型升级2.5版本支持更长上下文图像视频理解力直指GPT4V

最近，书生·浦语灵笔（InternLM-XComposer）多模态大模型升级2.5版本，这款由上海人工智能实验室领衔研发的模型，以其卓越的长上下文输入和输出能力，为文本图像理解和创作应用带来了革命性的突破。

多模态模型 Scholar Puyu V2.5 长上下文理解图像视频理解多模态模型技术进展

2024-12-31 23:18:44 418人关注

开源多模态模型Molmo 能够识别图像中的物体并生成准确描述

近日，一款名为Molmo的开源多模态人工智能模型引起了业界广泛关注。这个由Qwen2-72B为基础、借助OpenAI的CLIP作为视觉处理引擎的AI系统，正以其出色的性能和创新的功能挑战传统商业模型的霸主地位。

开源多模态模型多模态模型技术 Molmo模型开源AI模型多模态AI应用场景

- 上云资讯 -

多模态大模型视觉推理能力评估:o3 仅得 25.8% 分数

多模态大模型MMaDA：让AI学会「跨次元思考」，文本图像通吃的全能型选手来了！

前微软视觉专家胡瀚加盟腾讯，掌舵多模态大模型研发

智源研究院推出新一代无编码器视觉语言多模态大模型EVE

书生·浦语灵笔多模态大模型升级2.5版本支持更长上下文图像视频理解力直指GPT4V

开源多模态模型Molmo 能够识别图像中的物体并生成准确描述

推荐阅读

上云服务

- 上云资讯 -

多模态大模型视觉推理能力评估:o3 仅得 25.8% 分数

多模态大模型MMaDA：让AI学会「跨次元思考」，文本图像通吃的全能型选手来了！

前微软视觉专家胡瀚加盟腾讯，掌舵多模态大模型研发

智源研究院推出新一代无编码器视觉语言多模态大模型EVE

书生·浦语灵笔多模态大模型升级2.5版本 支持更长上下文 图像视频理解力直指GPT4V

开源多模态模型Molmo 能够识别图像中的物体并生成准确描述

推荐阅读

上云服务

书生·浦语灵笔多模态大模型升级2.5版本支持更长上下文图像视频理解力直指GPT4V