上云资讯 - 来上云吧，企业上云一站式服务

2024-12-24 06:18:22 199人关注

视频理解领域杀出黑马！Video-XL这款模型能处理长达一小时的视频！

当前，多模态大型语言模型（MLLM）在视频理解领域取得了显著进展，但处理超长视频仍然是一个挑战。这是因为，MLLM 通常难以处理超过最大上下文长度的数千个视觉标记，并且会受到标记聚合导致的信息衰减的影响。同时，大量的视频标记也会带来高昂的计算成本。