上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-05-16 18:27:33 424人关注

Meta AI 发布新型视频学习模型V-JEPA ：视频理解新突破

近日，Meta AI 团队推出了视频联合嵌入预测架构（V-JEPA）模型，这一创新举措旨在推动机器智能的发展。人类能够自然而然地处理来自视觉信号的信息，进而识别周围的物体和运动模式。机器学习的一个重要目标是揭示促使人类进行无监督学习的基本原理。研究人员提出了一个关键假设 —— 预测特征原则，认为连续感官输入的表示应该能够相互预测。

Meta AI 视频学习模型 V-JEPA模型 AI视频理解技术 Meta AI技术进展

2025-01-26 17:32:37 389人关注

一体化 AI 框架Sa2VA:实现图像与视频的深度理解

在多模态大语言模型（MLLMs）的推动下，图像和视频相关的任务取得了革命性的进展，包括视觉问答、叙述生成和交互式编辑等。然而，实现细粒度的视频内容理解仍然面临重大挑战。这一挑战涉及像素级的分割、带有语言描述的跟踪，以及在特定视频提示上进行视觉问答等任务。

AI框架 SA2VA框架图像理解技术视频理解技术 AI大模型应用

2025-01-21 16:12:25 211人关注

Twelve Labs推出多模态视频理解AI 解决视频内容搜索和分析难题

Twelve Labs开发了一款创新的AI技术，能够分析和搜索视频内容。用户可以通过特定内容进行搜索，例如“穿红衬衫的人何时进入餐厅”，还能够对视频片段进行自动总结。这项技术已经吸引了Nvidia、三星和英特尔等大牌投资者的关注。

多模态视频理解 AI视频分析视频理解技术多模态AI应用视频内容分析技术

2025-01-17 17:33:33 356人关注

智谱AI宣布开源视频理解模型CogVLM2-Video

智谱AI宣布CogVLM2-Video模型开源升级，这是一个在视频理解领域取得显著进展的模型。CogVLM2-Video通过引入多帧视频图像和时间戳作为编码器输入，解决了现有视频理解模型在处理时间信息丢失问题上的局限。模型利用自动化的时间定位数据构建方法，生成了3万条与时间相关的视频问答数据，从而训练出在公共视频理解基准上达到最新性能的模型。CogVLM2-Video在视频字幕生成和时间定位方面表现出色，为视频生成和摘要等任务提供了强大工具。

CogVLM2 开源视频模型多模态大模型视觉语言模型视频理解技术 CogVLM2开源

2025-01-17 15:39:36 278人关注

视频理解新突破！谷歌推通用视频模型VideoPrism 精准分类、定位、检索一网打尽！

在AI的世界里，让机器看懂视频，可比看懂图片难多了。视频是动态的，有声音，有动作，还有一堆复杂的场景。以前的AI，看视频就跟看天书似的，经常是一头雾水。

视频理解技术突破 Google VideoPrism 视频分析技术 AI视频理解 Google AI视频模型

2024-12-24 13:30:38 219人关注

智源推出小时级超长视频理解大模型Video-XL

北京智源人工智能研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等高校推出了一款名为Video-XL的超长视频理解大模型。这款模型是多模态大模型核心能力的重要展示，也是向通用人工智能（AGI）迈进的关键步骤。与现有多模态大模型相比，Video-XL在处理超过10分钟的长视频时，展现了更优的性能和效率。

长视频理解视频理解技术 XL-hour长视频模型视频分析技术长视频处理算法

2024-12-21 03:44:36 410人关注

英伟达重磅推出：AI视频理解新突破，让机器真正读懂视频内容

NVIDIA近日对外发布全新的AI视频搜索与摘要蓝图（AI Blueprint for Video Search and Summarization），这一技术方案将彻底改变传统视频分析的局限性。不同于过去仅能识别预设对象的固定模型，新方案通过结合生成式AI、视觉语言模型(VLM)和大语言模型(LLM)，实现了对视频内容的深度理解和自然交互。

NVIDIA AI视频理解突破 AI视频分析技术 NVIDIA最新AI研究视频理解技术进展 AI视频处理创新

- 上云资讯 -

Meta AI 发布新型视频学习模型V-JEPA ：视频理解新突破

一体化 AI 框架Sa2VA:实现图像与视频的深度理解

Twelve Labs推出多模态视频理解AI 解决视频内容搜索和分析难题

智谱AI宣布开源视频理解模型CogVLM2-Video

视频理解新突破！谷歌推通用视频模型VideoPrism 精准分类、定位、检索一网打尽！

智源推出小时级超长视频理解大模型Video-XL

英伟达重磅推出：AI视频理解新突破，让机器真正读懂视频内容

推荐阅读

上云服务

- 上云资讯 -

Meta AI 发布新型视频学习模型V-JEPA ：视频理解新突破

一体化 AI 框架​Sa2VA:实现图像与视频的深度理解

Twelve Labs推出多模态视频理解AI 解决视频内容搜索和分析难题

智谱AI宣布开源视频理解模型CogVLM2-Video

视频理解新突破！谷歌推通用视频模型VideoPrism 精准分类、定位、检索一网打尽！

智源推出小时级超长视频理解大模型Video-XL

英伟达重磅推出：AI视频理解新突破，让机器真正读懂视频内容

推荐阅读

上云服务

一体化 AI 框架Sa2VA:实现图像与视频的深度理解