上云资讯 - 来上云吧，企业上云一站式服务

2025-08-26 14:42:25 300人关注

苹果发布适配版SlowFast-LLaVA模型：长视频理解性能超越大规模模型

据国外媒体报道，苹果研究团队近日发布了适配版的SlowFast-LLaVA模型，该模型在长视频分析理解任务上表现出色，其性能甚至超越了参数规模更大的模型。这项突破为长视频内容分析提供了高效的全新解决方案。

SlowFast-LLaVA模型长视频分析理解适配版SlowFast-LLaVA 苹果研究团队AI模型视频内容分析解决方案

2025-08-11 16:40:45 237人关注

小钢炮4.0视觉模型MiniCPM-V 4.0，手机端应用更流畅

在人工智能的持续发展中，最近一款新模型 MiniCPM-V4.0引起了广泛关注。该模型是 MiniCPM-V 系列的最新版本，具有4.1亿参数，基于 SigLIP2-400M 和 MiniCPM4-3B 进行构建。与之前的版本相比，MiniCPM-V4.0在单图、多图及视频理解方面表现出色，并且在效率上有了显著提升。

MiniCPM-V4.0 人工智能新模型 MiniCPM-V 系列 4.1亿参数模型 SigLIP2-400M 构建 MiniCPM4-3B 构建单图多图视频理解

2025-07-25 13:14:20 510人关注

AI视频记忆革命来了！Memories.ai获800万美元融资，挑战千万小时视频分析极限

人工智能正在突破视频理解的最后边界。当前市面上的AI工具虽然能够分析单个视频并生成摘要，但面对数千小时的多视频内容时却显得力不从心。这个技术瓶颈正困扰着安防公司和营销企业，前者需要AI筛查海量监控录像，后者则希望分析不同的视频营销活动和产品拍摄素材。

AI视频理解多视频内容分析海量监控录像筛查视频营销分析 AI技术瓶颈安防AI应用

2025-05-16 18:27:33 423人关注

Meta AI 发布新型视频学习模型V-JEPA ：视频理解新突破

近日，Meta AI 团队推出了视频联合嵌入预测架构（V-JEPA）模型，这一创新举措旨在推动机器智能的发展。人类能够自然而然地处理来自视觉信号的信息，进而识别周围的物体和运动模式。机器学习的一个重要目标是揭示促使人类进行无监督学习的基本原理。研究人员提出了一个关键假设 —— 预测特征原则，认为连续感官输入的表示应该能够相互预测。

Meta AI 视频学习模型 V-JEPA模型 AI视频理解技术 Meta AI技术进展

2025-01-26 17:32:37 389人关注

一体化 AI 框架Sa2VA:实现图像与视频的深度理解

在多模态大语言模型（MLLMs）的推动下，图像和视频相关的任务取得了革命性的进展，包括视觉问答、叙述生成和交互式编辑等。然而，实现细粒度的视频内容理解仍然面临重大挑战。这一挑战涉及像素级的分割、带有语言描述的跟踪，以及在特定视频提示上进行视觉问答等任务。

AI框架 SA2VA框架图像理解技术视频理解技术 AI大模型应用

2025-01-21 16:12:25 211人关注

Twelve Labs推出多模态视频理解AI 解决视频内容搜索和分析难题

Twelve Labs开发了一款创新的AI技术，能够分析和搜索视频内容。用户可以通过特定内容进行搜索，例如“穿红衬衫的人何时进入餐厅”，还能够对视频片段进行自动总结。这项技术已经吸引了Nvidia、三星和英特尔等大牌投资者的关注。

多模态视频理解 AI视频分析视频理解技术多模态AI应用视频内容分析技术

2025-01-17 17:33:33 354人关注

智谱AI宣布开源视频理解模型CogVLM2-Video

智谱AI宣布CogVLM2-Video模型开源升级，这是一个在视频理解领域取得显著进展的模型。CogVLM2-Video通过引入多帧视频图像和时间戳作为编码器输入，解决了现有视频理解模型在处理时间信息丢失问题上的局限。模型利用自动化的时间定位数据构建方法，生成了3万条与时间相关的视频问答数据，从而训练出在公共视频理解基准上达到最新性能的模型。CogVLM2-Video在视频字幕生成和时间定位方面表现出色，为视频生成和摘要等任务提供了强大工具。

CogVLM2 开源视频模型多模态大模型视觉语言模型视频理解技术 CogVLM2开源

2025-01-17 15:39:36 277人关注

视频理解新突破！谷歌推通用视频模型VideoPrism 精准分类、定位、检索一网打尽！

在AI的世界里，让机器看懂视频，可比看懂图片难多了。视频是动态的，有声音，有动作，还有一堆复杂的场景。以前的AI，看视频就跟看天书似的，经常是一头雾水。

视频理解技术突破 Google VideoPrism 视频分析技术 AI视频理解 Google AI视频模型

2025-01-16 10:28:10 239人关注

长视频也不怕！Goldfish：可理解任意长度视频准确提升

在视频理解领域，传统的AI模型往往只能处理时长较短的视频，面对几小时甚至更长的视频内容时显得力不从心。这主要是因为这些模型在处理长视频时会遇到“噪声与冗余”以及“内存与计算”限制。现在，一种名为Goldfish的新技术改变了这一局面。

金鱼认知能力金鱼长期记忆金鱼视频理解金鱼行为研究金鱼学习能力

2025-01-13 19:27:46 284人关注

书生·浦语灵笔多模态大模型升级2.5版本支持更长上下文图像视频理解力直指GPT4V

最近，书生·浦语灵笔（InternLM-XComposer）多模态大模型升级2.5版本，这款由上海人工智能实验室领衔研发的模型，以其卓越的长上下文输入和输出能力，为文本图像理解和创作应用带来了革命性的突破。

多模态模型 Scholar Puyu V2.5 长上下文理解图像视频理解多模态模型技术进展

2024-12-26 14:18:20 237人关注

智源发布原生多模态世界模型Emu3：仅靠下一个token预测实现文本、图像和视频理解和生成

智源研究院正式发布了他们的新一代多模态世界模型 Emu3，该模型的最大亮点在于，它仅依靠下一个 token 的预测能力，就能在文本、图像和视频这三种不同模态中进行理解和生成。

多模态世界模型 Emu3 Token预测大模型技术 AI多模态技术 Emu3应用场景

2024-12-25 01:41:41 235人关注

Salesforce AI研究推全新多模态模型BLIP-3-Video:低成本搞定视频理解

最近，Salesforce AI 研究团队推出了一款全新的多模态语言模型 ——BLIP-3-Video。随着视频内容的快速增加，如何高效处理视频数据成为了一个亟待解决的问题。这款模型的出现，旨在提升视频理解的效率和效果，适用于从自动驾驶到娱乐等各个行业。

Salesforce BLIP-3 多模态模型视频理解 AI多模态技术 Salesforce AI模型 BLIP-3应用场景

2024-12-24 13:30:38 217人关注

智源推出小时级超长视频理解大模型Video-XL

北京智源人工智能研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等高校推出了一款名为Video-XL的超长视频理解大模型。这款模型是多模态大模型核心能力的重要展示，也是向通用人工智能（AGI）迈进的关键步骤。与现有多模态大模型相比，Video-XL在处理超过10分钟的长视频时，展现了更优的性能和效率。

长视频理解视频理解技术 XL-hour长视频模型视频分析技术长视频处理算法

2024-12-24 06:18:22 199人关注

视频理解领域杀出黑马！Video-XL这款模型能处理长达一小时的视频！

当前，多模态大型语言模型（MLLM）在视频理解领域取得了显著进展，但处理超长视频仍然是一个挑战。这是因为，MLLM 通常难以处理超过最大上下文长度的数千个视觉标记，并且会受到标记聚合导致的信息衰减的影响。同时，大量的视频标记也会带来高昂的计算成本。

视频生成技术长视频生成 AI视频模型 XL视频模型视频生成AI技术

2024-12-21 03:44:36 409人关注

英伟达重磅推出：AI视频理解新突破，让机器真正读懂视频内容

NVIDIA近日对外发布全新的AI视频搜索与摘要蓝图（AI Blueprint for Video Search and Summarization），这一技术方案将彻底改变传统视频分析的局限性。不同于过去仅能识别预设对象的固定模型，新方案通过结合生成式AI、视觉语言模型(VLM)和大语言模型(LLM)，实现了对视频内容的深度理解和自然交互。

NVIDIA AI视频理解突破 AI视频分析技术 NVIDIA最新AI研究视频理解技术进展 AI视频处理创新

- 上云资讯 -

苹果发布适配版SlowFast-LLaVA模型：长视频理解性能超越大规模模型

小钢炮4.0视觉模型MiniCPM-V 4.0，手机端应用更流畅

AI视频记忆革命来了！Memories.ai获800万美元融资，挑战千万小时视频分析极限

Meta AI 发布新型视频学习模型V-JEPA ：视频理解新突破

一体化 AI 框架Sa2VA:实现图像与视频的深度理解

Twelve Labs推出多模态视频理解AI 解决视频内容搜索和分析难题

智谱AI宣布开源视频理解模型CogVLM2-Video

视频理解新突破！谷歌推通用视频模型VideoPrism 精准分类、定位、检索一网打尽！

长视频也不怕！Goldfish：可理解任意长度视频准确提升

书生·浦语灵笔多模态大模型升级2.5版本支持更长上下文图像视频理解力直指GPT4V

智源发布原生多模态世界模型Emu3：仅靠下一个token预测实现文本、图像和视频理解和生成

Salesforce AI研究推全新多模态模型BLIP-3-Video:低成本搞定视频理解

智源推出小时级超长视频理解大模型Video-XL

视频理解领域杀出黑马！Video-XL这款模型能处理长达一小时的视频！

英伟达重磅推出：AI视频理解新突破，让机器真正读懂视频内容

推荐阅读

上云服务

- 上云资讯 -

苹果发布适配版SlowFast-LLaVA模型：长视频理解性能超越大规模模型

小钢炮4.0视觉模型MiniCPM-V 4.0，手机端应用更流畅

AI视频记忆革命来了！Memories.ai获800万美元融资，挑战千万小时视频分析极限

Meta AI 发布新型视频学习模型V-JEPA ：视频理解新突破

一体化 AI 框架​Sa2VA:实现图像与视频的深度理解

Twelve Labs推出多模态视频理解AI 解决视频内容搜索和分析难题

智谱AI宣布开源视频理解模型CogVLM2-Video

视频理解新突破！谷歌推通用视频模型VideoPrism 精准分类、定位、检索一网打尽！

长视频也不怕！Goldfish：可理解任意长度视频 准确提升

书生·浦语灵笔多模态大模型升级2.5版本 支持更长上下文 图像视频理解力直指GPT4V

智源发布原生多模态世界模型Emu3：仅靠下一个token预测实现文本、图像和视频理解和生成

Salesforce AI研究推全新多模态模型BLIP-3-Video:低成本搞定视频理解

智源推出小时级超长视频理解大模型Video-XL

视频理解领域杀出黑马！Video-XL这款模型能处理长达一小时的视频！

英伟达重磅推出：AI视频理解新突破，让机器真正读懂视频内容

推荐阅读

上云服务

一体化 AI 框架Sa2VA:实现图像与视频的深度理解

长视频也不怕！Goldfish：可理解任意长度视频准确提升

书生·浦语灵笔多模态大模型升级2.5版本支持更长上下文图像视频理解力直指GPT4V