微信扫码
添加专属顾问
2025-01-26 17:32:37 177人关注
在多模态大语言模型(MLLMs)的推动下,图像和视频相关的任务取得了革命性的进展,包括视觉问答、叙述生成和交互式编辑等。然而,实现细粒度的视频内容理解仍然面临重大挑战。这一挑战涉及像素级的分割、带有语言描述的跟踪,以及在特定视频提示上进行视觉问答等任务。
AI框架 SA2VA框架 图像理解技术 视频理解技术 AI大模型应用