- 上云资讯 -



2025-05-08 18:27:18 47人关注

VLM-R1引领视觉语言模型新纪元 多模态AI迎来新突破

近日,VLM-R1项目的成功推出为这一领域带来了新的曙光。该项目是 DeepSeek 团队的 R1方法在视觉语言模型中的成功迁移,意味着 AI 对视觉内容的理解将进入一个全新的阶段。

2025-05-07 12:41:20 33人关注

谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者

近日,谷歌宣布推出一款全新的视觉 - 语言模型(Vision-Language Model, VLM),名为 PaliGemma2Mix。这款模型融合了图像处理与自然语言处理的能力,能够同时理解视觉信息和文本输入,并根据需求生成相应的输出,标志着人工智能技术在多任务处理方面的进一步突破。

2025-02-09 16:20:14 131人关注

IBM发布视觉语言模型Granite-Vision-3.1-2B,轻松解析复杂文档

随着人工智能技术的不断发展,视觉与文本数据的融合成为了一项复杂的挑战。传统的模型往往难以准确解析表格、图表、信息图和图示等结构化视觉文档,这一限制影响了自动内容提取和理解能力,进而影响了数据分析、信息检索和决策等应用。面对这一需求,IBM 近期发布了 Granite-Vision-3.1-2B,一款专为文档理解设计的小型视觉语言模型。

2025-01-28 08:11:33 73人关注

​MIT、 DeepMind研究揭示视觉语言模型无法理解否定表达的原因

在多模态任务中,视觉语言模型(VLMs)起着至关重要的作用,如图像检索、图像说明和医学诊断等。这些模型的目标是将视觉数据与语言数据进行对齐,以实现更高效的信息处理。然而,目前的 VLMs 在理解否定方面仍面临重大挑战。

2025-01-06 14:19:15 404人关注

通义千问开源视觉语言模型Qwen2-VL 2B、7B尺寸API可直接调用

9月2日,通义千问宣布开源其第二代视觉语言模型Qwen2-VL,并在阿里云百炼平台上推出2B、7B两个尺寸及其量化版本模型的API,供用户直接调用。

2024-12-15 15:43:11 90人关注

​Hugging Face推2B参数视觉语言模型SmolVLM:在普通设备就能飞速运行

近年来,机器学习模型在视觉和语言任务方面的应用需求日益增长,但大多数模型都需要庞大的计算资源,无法在个人设备上高效运行。尤其是像笔记本电脑、消费级 GPU 和移动设备等小型设备,在处理视觉语言任务时面临巨大的挑战。