LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-06-05 10:42:25 108人关注

多模态大模型视觉推理能力评估:o3 仅得 25.8% 分数

近日,由清华大学、腾讯混元、斯坦福大学及卡耐基梅隆大学的研究团队联合发布了一项新评估基准 ——RBench-V,专门针对多模态大模型的视觉推理能力进行测试。该基准的推出,旨在填补当前评估体系中对模型视觉输出能力的空白,以便更全面地了解现有模型的性能。

多模态模型 视觉推理评分 多模态模型技术 视觉推理能力评估 多模态模型应用场景

2025-05-22 16:31:19 140人关注

多模态大模型MMaDA:让AI学会「跨次元思考」,文本图像通吃的全能型选手来了!

最近,普林斯顿大学、字节跳动、清华大学和北京大学联手搞了个大事情,推出了一款名为 MMaDA 的多模态大模型! 这可不是普通的 AI,它号称能让 AI 拥有“深度思考”的能力,还能在文本、图像、甚至复杂的推理任务之间“七十二变”,表现力直接超越了你熟悉的 GPT-4、Gemini、甚至 SDXL!

多模态模型 MMADA AI 文本图像处理 多模态AI技术 AI模型应用场景 多模态模型技术解析

2025-02-05 16:36:42 157人关注

前微软视觉专家胡瀚加盟腾讯,掌舵多模态大模型研发

近日,前微软亚洲研究院的视觉计算组首席研究员胡瀚正式加盟腾讯,负责混元多模态大模型的研发工作。这一消息引发了业内的广泛关注,胡瀚的加入被认为将为腾讯的人工智能事业注入新的活力。

腾讯多模态模型 微软专家加入腾讯 多模态模型技术 腾讯AI人才引进 多模态模型发展

2025-01-16 23:20:18 125人关注

智源研究院推出新一代无编码器视觉语言多模态大模型EVE

近期,多模态大模型的研究和应用取得了显著进展。国外公司如OpenAI、Google、Microsoft等推出了一系列先进的模型,国内也有智谱AI、阶跃星辰等机构在该领域取得了突破。这些模型通常依赖视觉编码器来提取视觉特征并与大语言模型结合,但存在训练分离导致的视觉归纳偏置问题,限制了多模态大模型的部署效率和性能。

EVE编码器 无编码器视觉语言模型 多模态模型技术 视觉语言融合模型 多模态AI架构

2025-01-13 19:27:46 124人关注

书生·浦语灵笔多模态大模型升级2.5版本 支持更长上下文 图像视频理解力直指GPT4V

最近,书生·浦语灵笔(InternLM-XComposer)多模态大模型升级2.5版本,这款由上海人工智能实验室领衔研发的模型,以其卓越的长上下文输入和输出能力,为文本图像理解和创作应用带来了革命性的突破。

多模态模型 Scholar Puyu V2.5 长上下文理解 图像视频理解 多模态模型技术进展

2024-12-31 23:18:44 206人关注

开源多模态模型Molmo 能够识别图像中的物体并生成准确描述

近日,一款名为Molmo的开源多模态人工智能模型引起了业界广泛关注。这个由Qwen2-72B为基础、借助OpenAI的CLIP作为视觉处理引擎的AI系统,正以其出色的性能和创新的功能挑战传统商业模型的霸主地位。

开源多模态模型 多模态模型技术 Molmo模型 开源AI模型 多模态AI应用场景

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10