LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

云计算 阿里云 豆包 DeepSeek AI 大模型 人工智能 物联网 MCP 智能体

2025-05-16 18:27:33 76人关注

Meta AI 发布新型视频学习模型V-JEPA :视频理解新突破

近日,Meta AI 团队推出了视频联合嵌入预测架构(V-JEPA)模型,这一创新举措旨在推动机器智能的发展。人类能够自然而然地处理来自视觉信号的信息,进而识别周围的物体和运动模式。机器学习的一个重要目标是揭示促使人类进行无监督学习的基本原理。研究人员提出了一个关键假设 —— 预测特征原则,认为连续感官输入的表示应该能够相互预测。

Meta AI 视频学习模型 V-JEPA模型 AI视频理解技术 Meta AI技术进展

2025-01-26 17:32:37 133人关注

一体化 AI 框架​Sa2VA:实现图像与视频的深度理解

在多模态大语言模型(MLLMs)的推动下,图像和视频相关的任务取得了革命性的进展,包括视觉问答、叙述生成和交互式编辑等。然而,实现细粒度的视频内容理解仍然面临重大挑战。这一挑战涉及像素级的分割、带有语言描述的跟踪,以及在特定视频提示上进行视觉问答等任务。

AI框架 SA2VA框架 图像理解技术 视频理解技术 AI大模型应用

2025-01-21 16:12:25 67人关注

Twelve Labs推出多模态视频理解AI 解决视频内容搜索和分析难题

Twelve Labs开发了一款创新的AI技术,能够分析和搜索视频内容。用户可以通过特定内容进行搜索,例如“穿红衬衫的人何时进入餐厅”,还能够对视频片段进行自动总结。这项技术已经吸引了Nvidia、三星和英特尔等大牌投资者的关注。

多模态视频理解 AI视频分析 视频理解技术 多模态AI应用 视频内容分析技术

2025-01-17 17:33:33 74人关注

智谱AI宣布开源视频理解模型CogVLM2-Video

智谱AI宣布CogVLM2-Video模型开源升级,这是一个在视频理解领域取得显著进展的模型。CogVLM2-Video通过引入多帧视频图像和时间戳作为编码器输入,解决了现有视频理解模型在处理时间信息丢失问题上的局限。模型利用自动化的时间定位数据构建方法,生成了3万条与时间相关的视频问答数据,从而训练出在公共视频理解基准上达到最新性能的模型。CogVLM2-Video在视频字幕生成和时间定位方面表现出色,为视频生成和摘要等任务提供了强大工具。

CogVLM2 开源视频模型 多模态大模型 视觉语言模型 视频理解技术 CogVLM2开源

2025-01-17 15:39:36 74人关注

视频理解新突破!谷歌推通用视频模型VideoPrism 精准分类、定位、检索一网打尽!

在AI的世界里,让机器看懂视频,可比看懂图片难多了。视频是动态的,有声音,有动作,还有一堆复杂的场景。以前的AI,看视频就跟看天书似的,经常是一头雾水。

视频理解技术突破 Google VideoPrism 视频分析技术 AI视频理解 Google AI视频模型

2025-01-16 10:28:10 61人关注

长视频也不怕!Goldfish:可理解任意长度视频 准确提升

在视频理解领域,传统的AI模型往往只能处理时长较短的视频,面对几小时甚至更长的视频内容时显得力不从心。这主要是因为这些模型在处理长视频时会遇到“噪声与冗余”以及“内存与计算”限制。现在,一种名为Goldfish的新技术改变了这一局面。

金鱼认知能力 金鱼长期记忆 金鱼视频理解 金鱼行为研究 金鱼学习能力

2025-01-13 19:27:46 83人关注

书生·浦语灵笔多模态大模型升级2.5版本 支持更长上下文 图像视频理解力直指GPT4V

最近,书生·浦语灵笔(InternLM-XComposer)多模态大模型升级2.5版本,这款由上海人工智能实验室领衔研发的模型,以其卓越的长上下文输入和输出能力,为文本图像理解和创作应用带来了革命性的突破。

多模态模型 Scholar Puyu V2.5 长上下文理解 图像视频理解 多模态模型技术进展

2024-12-26 14:18:20 42人关注

智源发布原生多模态世界模型Emu3:仅靠下一个token预测实现文本、图像和视频理解和生成

智源研究院正式发布了他们的新一代多模态世界模型 Emu3,该模型的最大亮点在于,它仅依靠下一个 token 的预测能力,就能在文本、图像和视频这三种不同模态中进行理解和生成。

多模态世界模型 Emu3 Token预测 大模型技术 AI多模态技术 Emu3应用场景

2024-12-25 01:41:41 41人关注

Salesforce AI研究推全新多模态模型BLIP-3-Video:低成本搞定视频理解

最近,Salesforce AI 研究团队推出了一款全新的多模态语言模型 ——BLIP-3-Video。随着视频内容的快速增加,如何高效处理视频数据成为了一个亟待解决的问题。这款模型的出现,旨在提升视频理解的效率和效果,适用于从自动驾驶到娱乐等各个行业。

Salesforce BLIP-3 多模态模型 视频理解 AI多模态技术 Salesforce AI模型 BLIP-3应用场景

2024-12-24 13:30:38 40人关注

智源推出小时级超长视频理解大模型Video-XL

北京智源人工智能研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等高校推出了一款名为Video-XL的超长视频理解大模型。这款模型是多模态大模型核心能力的重要展示,也是向通用人工智能(AGI)迈进的关键步骤。与现有多模态大模型相比,Video-XL在处理超过10分钟的长视频时,展现了更优的性能和效率。

长视频理解 视频理解技术 XL-hour长视频模型 视频分析技术 长视频处理算法

2024-12-24 06:18:22 44人关注

视频理解领域杀出黑马!Video-XL这款模型能处理长达一小时的视频!

当前,多模态大型语言模型(MLLM)在视频理解领域取得了显著进展,但处理超长视频仍然是一个挑战。 这是因为,MLLM 通常难以处理超过最大上下文长度的数千个视觉标记,并且会受到标记聚合导致的信息衰减的影响。 同时,大量的视频标记也会带来高昂的计算成本。

视频生成技术 长视频生成 AI视频模型 XL视频模型 视频生成AI技术

2024-12-21 03:44:36 76人关注

英伟达重磅推出:AI视频理解新突破,让机器真正读懂视频内容

NVIDIA近日对外发布全新的AI视频搜索与摘要蓝图(AI Blueprint for Video Search and Summarization),这一技术方案将彻底改变传统视频分析的局限性。不同于过去仅能识别预设对象的固定模型,新方案通过结合生成式AI、视觉语言模型(VLM)和大语言模型(LLM),实现了对视频内容的深度理解和自然交互。

NVIDIA AI视频理解突破 AI视频分析技术 NVIDIA最新AI研究 视频理解技术进展 AI视频处理创新

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10