LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-06-07 10:21:44 52人关注

视觉语言模型新突破!Visual ARFT 助力多模态智能体能力

随着人工智能的迅猛发展,尤其是在大型推理模型领域,如 OpenAI 的 o3,研究者们正在努力让这些模型具备更强的智能体能力。这种能力不仅仅局限于文本处理,更扩展到了图像理解与操作。近日,来自上海交通大学、上海人工智能实验室、香港中文大学和武汉大学的研究团队推出了一种名为 Visual-ARFT(视觉智能体强化微调)的新方法,旨在提升视觉语言模型的多模态智能体能力,使其能够更灵活地执行复杂任务。

视觉语言模型 多模态AI AI技术突破 视觉语言模型应用 多模态AI发展趋势

2025-05-08 18:27:18 145人关注

VLM-R1引领视觉语言模型新纪元 多模态AI迎来新突破

近日,VLM-R1项目的成功推出为这一领域带来了新的曙光。该项目是 DeepSeek 团队的 R1方法在视觉语言模型中的成功迁移,意味着 AI 对视觉内容的理解将进入一个全新的阶段。

视觉语言模型 多模态AI VLM-R1模型 多模态AI技术 视觉语言模型应用

2025-05-03 10:14:42 94人关注

快手All in AI视觉!成立可灵AI事业部,加速大模型商业化

4 月 30 日,快手发布组织架构调整公告,宣布正式成立可灵AI事业部,进一步强化其在人工智能领域的战略布局。

快手AI视觉模型 AI视觉模型技术 快手AI技术解析 视觉语言模型应用 快手AI视觉语言模型

2025-01-07 04:33:26 255人关注

阿里重磅开源超强AI模型Qwen2-VL:能理解超 20 分钟视频

阿里巴巴的云计算部门刚刚发布了一款全新的 AI 模型 ——Qwen2-VL。这款模型的强大之处在于它能够理解视觉内容,包括图片和视频,甚至可以实时分析长达20分钟的视频,可以说相当强悍。

阿里通义千问2.0视觉语言模型 通义千问VL模型 Qwen2-VL技术解析 阿里巴巴AI大模型 视觉语言模型应用场景

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10