- 上云资讯 -
2025-05-08 18:27:18 47人关注
VLM-R1引领视觉语言模型新纪元 多模态AI迎来新突破
近日,VLM-R1项目的成功推出为这一领域带来了新的曙光。该项目是 DeepSeek 团队的 R1方法在视觉语言模型中的成功迁移,意味着 AI 对视觉内容的理解将进入一个全新的阶段。
2025-05-07 12:41:20 33人关注
谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者
近日,谷歌宣布推出一款全新的视觉 - 语言模型(Vision-Language Model, VLM),名为 PaliGemma2Mix。这款模型融合了图像处理与自然语言处理的能力,能够同时理解视觉信息和文本输入,并根据需求生成相应的输出,标志着人工智能技术在多任务处理方面的进一步突破。
2025-05-03 10:14:42 28人关注
快手All in AI视觉!成立可灵AI事业部,加速大模型商业化
4 月 30 日,快手发布组织架构调整公告,宣布正式成立可灵AI事业部,进一步强化其在人工智能领域的战略布局。
2025-02-09 16:20:14 131人关注
IBM发布视觉语言模型Granite-Vision-3.1-2B,轻松解析复杂文档
随着人工智能技术的不断发展,视觉与文本数据的融合成为了一项复杂的挑战。传统的模型往往难以准确解析表格、图表、信息图和图示等结构化视觉文档,这一限制影响了自动内容提取和理解能力,进而影响了数据分析、信息检索和决策等应用。面对这一需求,IBM 近期发布了 Granite-Vision-3.1-2B,一款专为文档理解设计的小型视觉语言模型。
2025-01-28 08:11:33 73人关注
MIT、 DeepMind研究揭示视觉语言模型无法理解否定表达的原因
在多模态任务中,视觉语言模型(VLMs)起着至关重要的作用,如图像检索、图像说明和医学诊断等。这些模型的目标是将视觉数据与语言数据进行对齐,以实现更高效的信息处理。然而,目前的 VLMs 在理解否定方面仍面临重大挑战。
2025-01-06 14:19:15 404人关注
通义千问开源视觉语言模型Qwen2-VL 2B、7B尺寸API可直接调用
9月2日,通义千问宣布开源其第二代视觉语言模型Qwen2-VL,并在阿里云百炼平台上推出2B、7B两个尺寸及其量化版本模型的API,供用户直接调用。
2024-12-15 15:43:11 90人关注
Hugging Face推2B参数视觉语言模型SmolVLM:在普通设备就能飞速运行
近年来,机器学习模型在视觉和语言任务方面的应用需求日益增长,但大多数模型都需要庞大的计算资源,无法在个人设备上高效运行。尤其是像笔记本电脑、消费级 GPU 和移动设备等小型设备,在处理视觉语言任务时面临巨大的挑战。