- 上云资讯 -
2025-05-16 18:27:33 76人关注
Meta AI 发布新型视频学习模型V-JEPA :视频理解新突破
近日,Meta AI 团队推出了视频联合嵌入预测架构(V-JEPA)模型,这一创新举措旨在推动机器智能的发展。人类能够自然而然地处理来自视觉信号的信息,进而识别周围的物体和运动模式。机器学习的一个重要目标是揭示促使人类进行无监督学习的基本原理。研究人员提出了一个关键假设 —— 预测特征原则,认为连续感官输入的表示应该能够相互预测。
2025-01-17 17:33:33 74人关注
智谱AI宣布开源视频理解模型CogVLM2-Video
智谱AI宣布CogVLM2-Video模型开源升级,这是一个在视频理解领域取得显著进展的模型。CogVLM2-Video通过引入多帧视频图像和时间戳作为编码器输入,解决了现有视频理解模型在处理时间信息丢失问题上的局限。模型利用自动化的时间定位数据构建方法,生成了3万条与时间相关的视频问答数据,从而训练出在公共视频理解基准上达到最新性能的模型。CogVLM2-Video在视频字幕生成和时间定位方面表现出色,为视频生成和摘要等任务提供了强大工具。
2025-01-17 15:39:36 74人关注
视频理解新突破!谷歌推通用视频模型VideoPrism 精准分类、定位、检索一网打尽!
在AI的世界里,让机器看懂视频,可比看懂图片难多了。视频是动态的,有声音,有动作,还有一堆复杂的场景。以前的AI,看视频就跟看天书似的,经常是一头雾水。
2025-01-13 19:27:46 83人关注
书生·浦语灵笔多模态大模型升级2.5版本 支持更长上下文 图像视频理解力直指GPT4V
最近,书生·浦语灵笔(InternLM-XComposer)多模态大模型升级2.5版本,这款由上海人工智能实验室领衔研发的模型,以其卓越的长上下文输入和输出能力,为文本图像理解和创作应用带来了革命性的突破。
2024-12-25 01:41:41 41人关注
Salesforce AI研究推全新多模态模型BLIP-3-Video:低成本搞定视频理解
最近,Salesforce AI 研究团队推出了一款全新的多模态语言模型 ——BLIP-3-Video。随着视频内容的快速增加,如何高效处理视频数据成为了一个亟待解决的问题。这款模型的出现,旨在提升视频理解的效率和效果,适用于从自动驾驶到娱乐等各个行业。
Salesforce BLIP-3 多模态模型 视频理解 AI多模态技术 Salesforce AI模型 BLIP-3应用场景
2024-12-24 13:30:38 40人关注
智源推出小时级超长视频理解大模型Video-XL
北京智源人工智能研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等高校推出了一款名为Video-XL的超长视频理解大模型。这款模型是多模态大模型核心能力的重要展示,也是向通用人工智能(AGI)迈进的关键步骤。与现有多模态大模型相比,Video-XL在处理超过10分钟的长视频时,展现了更优的性能和效率。
2024-12-21 03:44:36 76人关注
英伟达重磅推出:AI视频理解新突破,让机器真正读懂视频内容
NVIDIA近日对外发布全新的AI视频搜索与摘要蓝图(AI Blueprint for Video Search and Summarization),这一技术方案将彻底改变传统视频分析的局限性。不同于过去仅能识别预设对象的固定模型,新方案通过结合生成式AI、视觉语言模型(VLM)和大语言模型(LLM),实现了对视频内容的深度理解和自然交互。