上云资讯 - 来上云吧，企业上云一站式服务

2025-01-28 08:11:33 334人关注

MIT、 DeepMind研究揭示视觉语言模型无法理解否定表达的原因

在多模态任务中，视觉语言模型（VLMs）起着至关重要的作用，如图像检索、图像说明和医学诊断等。这些模型的目标是将视觉数据与语言数据进行对齐，以实现更高效的信息处理。然而，目前的 VLMs 在理解否定方面仍面临重大挑战。