上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-10-01 15:22:26 228人关注

DeepMind 重磅推出 “帧链” 概念：视频模型或将实现全面视觉理解

近日，DeepMind 在其最新论文中提出了一个颠覆性的概念 ——“帧链”（CoF，chain-of-frames），这标志着视频生成模型的发展又迈出了重要一步。这个概念与之前的 “链式思维”(CoT)类似，后者让语言模型能够进行符号推理，而 “帧链” 则使得视频模型能够在时间和空间上进行推理，仿佛赋予了视频生成模型一种独立的思维能力。

2025-10-01 09:23:21 427人关注

火山引擎发布豆包大模型1.6-vision 视觉理解能力实现重大突破

火山引擎今日发布了其最新的人工智能产品 —— 豆包大模型1.6-vision。这一版本的发布标志着在视觉理解领域的一次重要突破，进一步推动了 AI 技术的进步与应用。

2025-08-29 12:15:32 409人关注

数学AI推理迎来重大突破！We-Math 2.0构建全链条知识体系，多模态学习能力实现质的飞跃

多模态大模型在图像问答和视觉理解等领域虽然取得了显著进展，但在数学推理这一核心挑战上依然存在明显短板。北京邮电大学、腾讯微信和清华大学的联合研究团队针对这一痛点，正式发布了We-Math2.0——一个突破性的多模态数学推理数据集和知识体系。

多模态大模型数学推理 We-Math2.0 视觉理解图像问答多模态数据集知识体系北京邮电大学清华大学腾讯微信

2025-08-18 14:44:45 298人关注

阿里推出多模态深度研究智能体WebWatcher

阿里巴巴自然语言处理团队宣布推出WebWatcher，这是一个开源的多模态深度研究智能体，旨在突破现有闭源系统和开源Agent在多模态深度研究领域的局限性。WebWatcher通过整合网页浏览、图像搜索、代码解释器和内部OCR等多种工具，能够像人类研究员一样处理复杂的多模态任务，展现出强大的视觉理解、逻辑推理、知识调用、工具调度和自我验证能力。

阿里巴巴自然语言处理 WebWatcher开源智能体多模态深度研究智能体视觉理解能力智能体工具调度技术多模态任务处理

2025-08-15 14:17:16 439人关注

智元机器人发布机器人世界模型开源平台——Genie Envisioner

智元机器人在上海宣布推出面向真实世界机器人操控的统一世界模型平台——Genie Envisioner（GE）。这一创新平台突破了传统机器人学习系统分阶段开发的模式，将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构，实现了机器人从“看”到“想”再到“动”的端到端推理与执行。基于约3000小时的真实机器人操控视频数据，GE在跨平台泛化和长时序任务执行上展现出显著优势，为具身智能发展开辟了从视觉理解到动作执行的全新技术路径。

智元机器人 Genie Envisioner 平台具身智能技术机器人端到端推理机器人视觉理解机器人动作执行

2025-08-07 18:35:18 336人关注

小红书发布开源多模态大模型 dots.vlm1，以 NaViT 视觉编码器领跑行业

小红书 Hi Lab 近日发布并开源了其首个自研多模态大模型 dots.vlm1。该模型基于12亿参数的 NaViT 视觉编码器和 DeepSeek V3大语言模型，从零开始完全训练，其卓越性能在多模态视觉理解与推理能力上已接近当前领先的闭源模型，如 Gemini2.5Pro 和 Seed-VL1.5，标志着开源多模态模型的性能达到了新的高度。

小红书多模态大模型 dots.vlm1开源模型 NaViT视觉编码器 DeepSeek V3大语言模型多模态视觉理解与推理开源多模态模型性能

2025-01-22 23:18:19 774人关注

豆包大模型家族全面升级，重磅推出视觉理解模型、音乐4.0模型

在2024年12月18日的火山引擎 FORCE 原动力大会上，火山引擎宣布对豆包大模型家族进行全面升级，并重磅发布了全新的视觉理解模型。

豆包大模型升级豆包家族新功能豆包视觉能力豆包音乐能力豆包大模型技术更新

2025-01-09 12:15:15 347人关注

Salesforce推出xGen-MM开源多模态AI模型，助力视觉理解

Salesforce推出了一套名为 xGen-MM 的开源多模态 AI 模型，这套模型可以同时理解和生成文本、图像等多种数据类型，可能会彻底改变我们对 AI 的研究和应用方式。

Salesforce XGen-MM 多模态AI 视觉AI AI大模型多模态AI技术

- 上云资讯 -

DeepMind 重磅推出 “帧链” 概念：视频模型或将实现全面视觉理解

火山引擎发布豆包大模型1.6-vision 视觉理解能力实现重大突破

数学AI推理迎来重大突破！We-Math 2.0构建全链条知识体系，多模态学习能力实现质的飞跃

阿里推出多模态深度研究智能体WebWatcher

智元机器人发布机器人世界模型开源平台——Genie Envisioner

小红书发布开源多模态大模型 dots.vlm1，以 NaViT 视觉编码器领跑行业

豆包大模型家族全面升级，重磅推出视觉理解模型、音乐4.0模型

Salesforce推出xGen-MM开源多模态AI模型，助力视觉理解

推荐阅读

上云服务

- 上云资讯 -

DeepMind 重磅推出 “帧链” 概念：视频模型或将实现全面视觉理解

火山引擎发布豆包大模型1.6-vision 视觉理解能力实现重大突破

数学AI推理迎来重大突破！We-Math 2.0构建全链条知识体系，多模态学习能力实现质的飞跃

​阿里推出多模态深度研究智能体WebWatcher

智元机器人发布机器人世界模型开源平台——Genie Envisioner

小红书发布开源多模态大模型 dots.vlm1，以 NaViT 视觉编码器领跑行业

​豆包大模型家族全面升级，重磅推出视觉理解模型、音乐4.0模型

Salesforce推出xGen-MM开源多模态AI模型，助力视觉理解

推荐阅读

上云服务

阿里推出多模态深度研究智能体WebWatcher

豆包大模型家族全面升级，重磅推出视觉理解模型、音乐4.0模型