上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-06-07 10:21:44 285人关注

视觉语言模型新突破！Visual ARFT 助力多模态智能体能力

随着人工智能的迅猛发展，尤其是在大型推理模型领域，如 OpenAI 的 o3，研究者们正在努力让这些模型具备更强的智能体能力。这种能力不仅仅局限于文本处理，更扩展到了图像理解与操作。近日，来自上海交通大学、上海人工智能实验室、香港中文大学和武汉大学的研究团队推出了一种名为 Visual-ARFT（视觉智能体强化微调）的新方法，旨在提升视觉语言模型的多模态智能体能力，使其能够更灵活地执行复杂任务。

视觉语言模型多模态AI AI技术突破视觉语言模型应用多模态AI发展趋势

2025-05-08 18:27:18 375人关注

VLM-R1引领视觉语言模型新纪元多模态AI迎来新突破

近日，VLM-R1项目的成功推出为这一领域带来了新的曙光。该项目是 DeepSeek 团队的 R1方法在视觉语言模型中的成功迁移，意味着 AI 对视觉内容的理解将进入一个全新的阶段。

视觉语言模型多模态AI VLM-R1模型多模态AI技术视觉语言模型应用

2025-05-03 10:14:42 295人关注

快手All in AI视觉！成立可灵AI事业部，加速大模型商业化

4 月 30 日，快手发布组织架构调整公告，宣布正式成立可灵AI事业部，进一步强化其在人工智能领域的战略布局。

快手AI视觉模型 AI视觉模型技术快手AI技术解析视觉语言模型应用快手AI视觉语言模型

2025-01-07 04:33:26 561人关注

阿里重磅开源超强AI模型Qwen2-VL：能理解超 20 分钟视频

阿里巴巴的云计算部门刚刚发布了一款全新的 AI 模型 ——Qwen2-VL。这款模型的强大之处在于它能够理解视觉内容，包括图片和视频，甚至可以实时分析长达20分钟的视频，可以说相当强悍。

阿里通义千问2.0视觉语言模型通义千问VL模型 Qwen2-VL技术解析阿里巴巴AI大模型视觉语言模型应用场景

- 上云资讯 -

视觉语言模型新突破！Visual ARFT 助力多模态智能体能力

VLM-R1引领视觉语言模型新纪元多模态AI迎来新突破

快手All in AI视觉！成立可灵AI事业部，加速大模型商业化

阿里重磅开源超强AI模型Qwen2-VL：能理解超 20 分钟视频

推荐阅读

上云服务

- 上云资讯 -

视觉语言模型新突破！Visual ARFT 助力多模态智能体能力

VLM-R1引领视觉语言模型新纪元 多模态AI迎来新突破

快手All in AI视觉！成立可灵AI事业部，加速大模型商业化

阿里重磅开源超强AI模型Qwen2-VL：能理解超 20 分钟视频

推荐阅读

上云服务

VLM-R1引领视觉语言模型新纪元多模态AI迎来新突破