- 上云资讯 -
2025-10-01 15:22:26 85人关注
DeepMind 重磅推出 “帧链” 概念:视频模型或将实现全面视觉理解
近日,DeepMind 在其最新论文中提出了一个颠覆性的概念 ——“帧链”(CoF,chain-of-frames),这标志着视频生成模型的发展又迈出了重要一步。这个概念与之前的 “链式思维”(CoT)类似,后者让语言模型能够进行符号推理,而 “帧链” 则使得视频模型能够在时间和空间上进行推理,仿佛赋予了视频生成模型一种独立的思维能力。
2025-10-01 09:23:21 197人关注
火山引擎发布豆包大模型1.6-vision 视觉理解能力实现重大突破
火山引擎今日发布了其最新的人工智能产品 —— 豆包大模型1.6-vision。这一版本的发布标志着在视觉理解领域的一次重要突破,进一步推动了 AI 技术的进步与应用。
2025-08-18 14:44:45 163人关注
阿里推出多模态深度研究智能体WebWatcher
阿里巴巴自然语言处理团队宣布推出WebWatcher,这是一个开源的多模态深度研究智能体,旨在突破现有闭源系统和开源Agent在多模态深度研究领域的局限性。WebWatcher通过整合网页浏览、图像搜索、代码解释器和内部OCR等多种工具,能够像人类研究员一样处理复杂的多模态任务,展现出强大的视觉理解、逻辑推理、知识调用、工具调度和自我验证能力。
阿里巴巴自然语言处理 WebWatcher开源智能体 多模态深度研究 智能体视觉理解能力 智能体工具调度技术 多模态任务处理
2025-08-15 14:17:16 178人关注
智元机器人发布机器人世界模型开源平台——Genie Envisioner
智元机器人在上海宣布推出面向真实世界机器人操控的统一世界模型平台——Genie Envisioner(GE)。这一创新平台突破了传统机器人学习系统分阶段开发的模式,将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构,实现了机器人从“看”到“想”再到“动”的端到端推理与执行。基于约3000小时的真实机器人操控视频数据,GE在跨平台泛化和长时序任务执行上展现出显著优势,为具身智能发展开辟了从视觉理解到动作执行的全新技术路径。
2025-08-07 18:35:18 180人关注
小红书发布开源多模态大模型 dots.vlm1,以 NaViT 视觉编码器领跑行业
小红书 Hi Lab 近日发布并开源了其首个自研多模态大模型 dots.vlm1。该模型基于12亿参数的 NaViT 视觉编码器 和 DeepSeek V3大语言模型,从零开始完全训练,其卓越性能在多模态视觉理解与推理能力上已接近当前领先的闭源模型,如 Gemini2.5Pro 和 Seed-VL1.5,标志着开源多模态模型的性能达到了新的高度。
小红书多模态大模型 dots.vlm1开源模型 NaViT视觉编码器 DeepSeek V3大语言模型 多模态视觉理解与推理 开源多模态模型性能
2025-01-09 12:15:15 228人关注
Salesforce推出xGen-MM开源多模态AI模型,助力视觉理解
Salesforce推出了一套名为 xGen-MM 的开源多模态 AI 模型,这套模型可以同时理解和生成文本、图像等多种数据类型,可能会彻底改变我们对 AI 的研究和应用方式。
