LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-10-01 15:22:26 85人关注

DeepMind 重磅推出 “帧链” 概念:视频模型或将实现全面视觉理解

近日,DeepMind 在其最新论文中提出了一个颠覆性的概念 ——“帧链”(CoF,chain-of-frames),这标志着视频生成模型的发展又迈出了重要一步。这个概念与之前的 “链式思维”(CoT)类似,后者让语言模型能够进行符号推理,而 “帧链” 则使得视频模型能够在时间和空间上进行推理,仿佛赋予了视频生成模型一种独立的思维能力。

AI

2025-10-01 09:23:21 197人关注

火山引擎发布豆包大模型1.6-vision 视觉理解能力实现重大突破

火山引擎今日发布了其最新的人工智能产品 —— 豆包大模型1.6-vision。这一版本的发布标志着在视觉理解领域的一次重要突破,进一步推动了 AI 技术的进步与应用。

AI

2025-08-29 12:15:32 192人关注

数学AI推理迎来重大突破!We-Math 2.0构建全链条知识体系,多模态学习能力实现质的飞跃

多模态大模型在图像问答和视觉理解等领域虽然取得了显著进展,但在数学推理这一核心挑战上依然存在明显短板。北京邮电大学、腾讯微信和清华大学的联合研究团队针对这一痛点,正式发布了We-Math2.0——一个突破性的多模态数学推理数据集和知识体系。

多模态大模型 数学推理 We-Math2.0 视觉理解 图像问答 多模态数据集 知识体系 北京邮电大学 清华大学 腾讯微信

2025-08-18 14:44:45 163人关注

​阿里推出多模态深度研究智能体WebWatcher

阿里巴巴自然语言处理团队宣布推出WebWatcher,这是一个开源的多模态深度研究智能体,旨在突破现有闭源系统和开源Agent在多模态深度研究领域的局限性。WebWatcher通过整合网页浏览、图像搜索、代码解释器和内部OCR等多种工具,能够像人类研究员一样处理复杂的多模态任务,展现出强大的视觉理解、逻辑推理、知识调用、工具调度和自我验证能力。

阿里巴巴自然语言处理 WebWatcher开源智能体 多模态深度研究 智能体视觉理解能力 智能体工具调度技术 多模态任务处理

2025-08-15 14:17:16 178人关注

智元机器人发布机器人世界模型开源平台——Genie Envisioner

智元机器人在上海宣布推出面向真实世界机器人操控的统一世界模型平台——Genie Envisioner(GE)。这一创新平台突破了传统机器人学习系统分阶段开发的模式,将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构,实现了机器人从“看”到“想”再到“动”的端到端推理与执行。基于约3000小时的真实机器人操控视频数据,GE在跨平台泛化和长时序任务执行上展现出显著优势,为具身智能发展开辟了从视觉理解到动作执行的全新技术路径。

智元机器人 Genie Envisioner 平台 具身智能技术 机器人端到端推理 机器人视觉理解 机器人动作执行

2025-08-07 18:35:18 180人关注

小红书发布开源多模态大模型 dots.vlm1,以 NaViT 视觉编码器领跑行业

小红书 Hi Lab 近日发布并开源了其首个自研多模态大模型 dots.vlm1。该模型基于12亿参数的 NaViT 视觉编码器 和 DeepSeek V3大语言模型,从零开始完全训练,其卓越性能在多模态视觉理解与推理能力上已接近当前领先的闭源模型,如 Gemini2.5Pro 和 Seed-VL1.5,标志着开源多模态模型的性能达到了新的高度。

小红书多模态大模型 dots.vlm1开源模型 NaViT视觉编码器 DeepSeek V3大语言模型 多模态视觉理解与推理 开源多模态模型性能

2025-01-22 23:18:19 635人关注

​豆包大模型家族全面升级,重磅推出视觉理解模型、音乐4.0模型

在2024年12月18日的火山引擎 FORCE 原动力大会上,火山引擎宣布对豆包大模型家族进行全面升级,并重磅发布了全新的视觉理解模型。

豆包大模型升级 豆包家族新功能 豆包视觉能力 豆包音乐能力 豆包大模型技术更新

2025-01-09 12:15:15 228人关注

Salesforce推出xGen-MM开源多模态AI模型,助力视觉理解

Salesforce推出了一套名为 xGen-MM 的开源多模态 AI 模型,这套模型可以同时理解和生成文本、图像等多种数据类型,可能会彻底改变我们对 AI 的研究和应用方式。

Salesforce XGen-MM 多模态AI 视觉AI AI大模型 多模态AI技术

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10