上云资讯 - 来上云吧，企业上云一站式服务

2025-12-16 09:23:15 273人关注

商汤发布行业首个“多剧集生成智能体”Seko2.0，国产AI芯片首次打通多模态AIGC全链路

商汤科技正式推出Seko2.0——全球首个专注于多剧集视频生成的智能体，标志着AI视频生成从单片段创作迈向连续叙事的新阶段。该系统能够生成角色、场景、风格高度一致的多集短视频内容，在剧情连贯性、人物稳定性与视觉统一性上实现行业突破，为短剧、广告、教育等场景提供可规模化的AI内容生产方案。

AI

2025-12-12 15:21:41 140人关注

前字节视觉大模型 AI 平台负责人潘欣加盟美团出任多模态AI创新业务负责人

前字节跳动视觉大模型AI平台负责人潘欣已于本周到岗，出任多模态AI创新业务负责人，直接向美团技术委员会汇报。至此，这家市值千亿港元的生活服务巨头在 2025 年“外卖＋AI”战略中补齐了最核心的一块算法拼图。

AI

2025-11-11 18:27:45 229人关注

百度重磅发布新一代多模态AI模型ERNIE-4.5-VL

近日，百度在人工智能领域又迈出了重要一步，正式发布了其最新的多模态思考模型 ——ERNIE-4.5-VL-28B-A3B-Thinking。这个新模型不仅具备强大的语言处理能力，还引入了 “图像思考” 的创新功能，意味着它在理解和处理图像方面有了显著提升。

AI

2025-09-10 17:15:32 315人关注

Freepik重磅接入Seedream 4.0！Premium+会员无限生图

全球知名设计资源平台Freepik近日正式上线字节跳动Seedream4.0图像生成模型，这一升级将AI生图能力无缝集成到其创意工具中，为设计师和创作者带来革命性体验。作为豆包大模型家族的最新成员，Seedream4.0支持多模态输入输出，生成质量和速度均达业界领先水平。更吸引人的是，Freepik的Premium+会员可享无限生成次数，这一福利被誉为“太香了”，预计将进一步巩固平台在AI设计领域的领先地位。

AI生图 Seedream4.0模型 Freepik平台 AI设计工具多模态AI生成 AI会员福利

2025-09-03 16:28:21 439人关注

Liquid AI 推出 LFM2-VL 模型，为手机带来「小巧又灵敏」的AI 视觉语言能力

Liquid AI 最新发布了 LFM2-VL 系列视觉语言基础模型（Vision-Language Foundation Models），这标志着多模态 AI 正朝着「精简、快速、可部署在设备端」的方向加速发展。

Liquid AI LFM2-VL 视觉语言基础模型多模态AI 设备端AI部署轻量化视觉语言模型边缘计算AI

2025-08-21 14:33:11 300人关注

NVIDIA 与美国国家科学基金会携手打造开放科学 AI 模型

近日，美国国家科学基金会（NSF）与 NVIDIA 联合宣布将投资1.52亿美元，开展一项名为 “开放多模态 AI 基础设施加速科学”(OMAI)的新项目，由艾伦人工智能研究所(Ai2)牵头。该项目的目标是开发开放源代码的多模态 AI 模型，旨在帮助各学科的研究人员更有效地进行科学研究。

AI大模型多模态AI模型开源AI基础设施 AI加速科学研究 NSF与NVIDIA合作项目 OMAI项目投资

2025-08-14 18:31:14 330人关注

昆仑万维发布Skywork Deep Research Agent v2

在SkyWork AI技术发布周的第四天，昆仑万维集团宣布了一项重大升级:Skywork Deep Research Agent v2。这一升级标志着天工超级智能体（Skywork Super Agents）的核心引擎得到了显著增强，为用户带来了更多模态、更高质量和更高效的体验。

昆仑万维集团 Skywork Deep Research Agent v2 天工超级智能体 Skywork Super Agents AI技术升级多模态AI体验

2025-07-26 10:20:19 237人关注

商汤科技将在WAIC2025发布日日新v6.5等重磅产品

据新浪科技报道，商汤科技将在大会期间重磅发布日日新v6.5及全新产品线，以先进的多模态和智能体能力推动生产力革新与用户交互体验升级。

商汤科技日日新v6.5 多模态AI技术智能体能力生产力革新AI 用户交互体验升级 AI大模型新品发布

2025-07-16 18:41:14 189人关注

前OpenAI CTO Mira Murati新公司完成20亿美元融资，推进多模态AI研发

前OpenAI首席技术官Mira Murati创立的人工智能初创公司Thinking Machines Lab宣布完成20亿美元种子轮融资，由Andreessen Horowitz（a16z）领投，NVIDIA、AMD、Accel、ServiceNow、Cisco和Jane Street等知名机构参投。此次融资使公司估值达到120亿美元，成为AI领域最大规模的早期投资之一，凸显了Murati在AI行业的强大影响力

AI初创公司 Thinking Machines Lab融资 Mira Murati创业 AI领域早期投资 Andreessen Horowitz领投 AI行业影响力

2025-07-12 17:21:44 389人关注

阿里HumanOmniV2震撼发布：多模态AI新王者，准确率飙升至69.33%

阿里巴巴集团近期正式推出其最新多模态大语言模型HumanOmniV2，在AI领域再掀波澜。这款模型以其强大的全局上下文理解能力和多模态推理能力，标志着阿里巴巴在人工智能技术的又一次重大突破。

阿里巴巴多模态大模型 HumanOmniV2技术解析多模态推理能力全局上下文理解阿里巴巴AI技术突破

2025-07-12 09:10:12 380人关注

谷歌DeepMind开源GenAI Processors：一键构建实时AI工作流

谷歌DeepMind近日宣布开源全新Python库“GenAI Processors”，为开发者提供了一个轻量级、高效的工具，用于构建异步、可组合的生成式AI工作流。这一开源库旨在简化复杂多模态AI应用的开发过程，支持实时处理音频、视频和文本等多模态数据，显著提升了基于Gemini API的应用程序开发效率。

谷歌DeepMind GenAI Processors开源库生成式AI工作流多模态AI应用开发 Gemini API开发效率

2025-07-11 08:31:41 471人关注

阿里开源ThinkSound：AI自动为视频加音效，影视与游戏创作迎来大变革！

2025年7月，阿里巴巴通义实验室正式开源其首款音频生成模型ThinkSound，为视频内容创作带来革命性突破。这款多模态AI模型能够基于视频、文本或音频输入，生成高保真的音效与音景，完美适配画面内容，为影视制作、游戏开发及多媒体创作注入全新活力。AIbase结合最新信息，深入剖析ThinkSound的独特优势与行业影响，带您一探AI音效生成的新前沿。

阿里巴巴通义实验室 ThinkSound开源音频生成模型 AI音效生成多模态AI模型视频内容创作革命

2025-06-23 10:24:30 534人关注

Google Gemini 2.5 Flash-Lite炸裂登场！点击瞬间生成UI，未来交互从此不同！

Google DeepMind推出全新Gemini2.5Flash-Lite模型，以其超低延迟和实时生成交互界面的能力引发业界热议。这款模型不仅继承了Gemini2.5系列的多模态和长上下文窗口特性，还展现了前所未有的UI设计创新潜力，被认为是未来交互界面的雏形。以下是AIbase整理的最新资讯，带您一探究竟。

Google DeepMind Gemini2.5Flash-Lite模型超低延迟AI模型实时生成交互界面多模态AI技术长上下文窗口特性

2025-06-07 10:21:44 284人关注

视觉语言模型新突破！Visual ARFT 助力多模态智能体能力

随着人工智能的迅猛发展，尤其是在大型推理模型领域，如 OpenAI 的 o3，研究者们正在努力让这些模型具备更强的智能体能力。这种能力不仅仅局限于文本处理，更扩展到了图像理解与操作。近日，来自上海交通大学、上海人工智能实验室、香港中文大学和武汉大学的研究团队推出了一种名为 Visual-ARFT（视觉智能体强化微调）的新方法，旨在提升视觉语言模型的多模态智能体能力，使其能够更灵活地执行复杂任务。

视觉语言模型多模态AI AI技术突破视觉语言模型应用多模态AI发展趋势

2025-05-28 18:34:15 303人关注

微软开源多模态AI Agent “Magma”：为购物和机器人操作带来新体验

微软在其官网上正式发布了多模态 AI Agent 基础模型 “Magma”，并进行了开源。这一新兴技术相较于传统的智能助手，展现出了更为强大的多模态能力，能够处理图像、视频、文本等多种数据形式，打破了数字与物理世界之间的壁垒。

Microsoft 开源多模态AI AI代理 MAGMA 多模态AI技术微软AI创新

2025-05-26 16:31:35 458人关注

字节跳动推出开源多模态模型BAGE 从图像生成到世界建模

字节跳动近日正式发布其最新开源多模态基础模型——BAGEL（Big Advanced Generalized Embodied Learner），以70亿个有效参数的规模，开启多模态AI模型的新阶段。BAGEL在图像理解、生成和编辑等关键任务中表现卓越，已在多个标准评测中超越当前主流开源视觉语言模型(VLM)，如Qwen2.5-VL和InternVL-2.5。

字节跳动开源多模态模型 Bage 多模态AI技术开源AI模型大模型技术发展

2025-05-22 16:31:19 378人关注

多模态大模型MMaDA：让AI学会「跨次元思考」，文本图像通吃的全能型选手来了！

最近，普林斯顿大学、字节跳动、清华大学和北京大学联手搞了个大事情，推出了一款名为 MMaDA 的多模态大模型! 这可不是普通的 AI，它号称能让 AI 拥有“深度思考”的能力，还能在文本、图像、甚至复杂的推理任务之间“七十二变”，表现力直接超越了你熟悉的 GPT-4、Gemini、甚至 SDXL!

多模态模型 MMADA AI 文本图像处理多模态AI技术 AI模型应用场景多模态模型技术解析

2025-05-12 10:35:24 618人关注

首个智能文档处理基准发布：Gemini领跑但短板待补，多模态AI面临现实挑战

5月11日，智能文档处理领域迎来重大进展——首个针对视觉-语言模型的统一基准测试"IDP Leaderboard"正式推出。该基准通过16个数据集、9229份文档，全面评估了当前主流模型在OCR、关键信息提取、视觉问答、表格提取、分类和长文档处理六大核心任务上的表现，为行业发展提供了可量化参考。

智能文档处理文档处理基准测试 Gemini 基准测试智能文档处理技术文档处理性能评估

2025-05-11 10:31:22 309人关注

Barracuda推出多模态AI升级，提升网络安全威胁检测能力

Barracuda Networks 近日发布了其新一代的威胁检测技术，利用多模态人工智能（AI）提升对网络攻击的防护能力。这项技术能够实时分析并关联多种数据类型，包括网址、文档、图像和二维码，从而最大限度地提高威胁检测的准确性和速度。

Barracuda 多模态AI AI网络安全网络安全技术多模态AI应用 Barracuda网络安全解决方案

2025-05-09 16:37:11 477人关注

快手祭出“内容净化器”KuaiMod！多模态AI专治各种劣质内容

在短视频已经成为亿万用户日常生活的重要组成部分的今天，它不仅仅是一种娱乐方式，更是人们获取信息、表达观点和进行社交的主要渠道。随着短视频内容的爆炸式增长，各大平台正面临前所未有的挑战:一方面需要高效识别和管理内容，另一方面则需要精准地将优质内容推送给真正感兴趣的用户。

AI内容清理工具快模AI清理器 AI内容净化 AI内容优化 AI内容过滤技术

- 上云资讯 -

商汤发布行业首个“多剧集生成智能体”Seko2.0，国产AI芯片首次打通多模态AIGC全链路

前字节视觉大模型 AI 平台负责人潘欣加盟美团出任多模态AI创新业务负责人

百度重磅发布新一代多模态AI模型ERNIE-4.5-VL

Freepik重磅接入Seedream 4.0！Premium+会员无限生图

Liquid AI 推出 LFM2-VL 模型，为手机带来「小巧又灵敏」的AI 视觉语言能力

NVIDIA 与美国国家科学基金会携手打造开放科学 AI 模型

昆仑万维发布Skywork Deep Research Agent v2

商汤科技将在WAIC2025发布日日新v6.5等重磅产品

前OpenAI CTO Mira Murati新公司完成20亿美元融资，推进多模态AI研发

阿里HumanOmniV2震撼发布：多模态AI新王者，准确率飙升至69.33%

谷歌DeepMind开源GenAI Processors：一键构建实时AI工作流

阿里开源ThinkSound：AI自动为视频加音效，影视与游戏创作迎来大变革！

Google Gemini 2.5 Flash-Lite炸裂登场！点击瞬间生成UI，未来交互从此不同！

视觉语言模型新突破！Visual ARFT 助力多模态智能体能力

微软开源多模态AI Agent “Magma”：为购物和机器人操作带来新体验

字节跳动推出开源多模态模型BAGE 从图像生成到世界建模

多模态大模型MMaDA：让AI学会「跨次元思考」，文本图像通吃的全能型选手来了！

首个智能文档处理基准发布：Gemini领跑但短板待补，多模态AI面临现实挑战

Barracuda推出多模态AI升级，提升网络安全威胁检测能力

快手祭出“内容净化器”KuaiMod！多模态AI专治各种劣质内容

推荐阅读

上云服务

- 上云资讯 -

商汤发布行业首个“多剧集生成智能体”Seko2.0，国产AI芯片首次打通多模态AIGC全链路

前字节视觉大模型 AI 平台负责人潘欣加盟美团 出任多模态AI创新业务负责人

百度重磅发布新一代多模态AI模型ERNIE-4.5-VL

Freepik重磅接入Seedream 4.0！Premium+会员无限生图

Liquid AI 推出 LFM2-VL 模型，为手机带来「小巧又灵敏」的AI 视觉语言能力

NVIDIA 与美国国家科学基金会携手打造开放科学 AI 模型

昆仑万维发布Skywork Deep Research Agent v2

商汤科技将在WAIC2025发布日日新v6.5等重磅产品

前OpenAI CTO Mira Murati新公司完成20亿美元融资，推进多模态AI研发

阿里HumanOmniV2震撼发布：多模态AI新王者，准确率飙升至69.33%

谷歌DeepMind开源GenAI Processors：一键构建实时AI工作流

阿里开源ThinkSound：AI自动为视频加音效，影视与游戏创作迎来大变革！

Google Gemini 2.5 Flash-Lite炸裂登场！点击瞬间生成UI，未来交互从此不同！

视觉语言模型新突破！Visual ARFT 助力多模态智能体能力

微软开源多模态AI Agent “Magma”：为购物和机器人操作带来新体验

字节跳动推出开源多模态模型BAGE 从图像生成到世界建模

多模态大模型MMaDA：让AI学会「跨次元思考」，文本图像通吃的全能型选手来了！

首个智能文档处理基准发布：Gemini领跑但短板待补，多模态AI面临现实挑战

Barracuda推出多模态AI升级，提升网络安全威胁检测能力

快手祭出“内容净化器”KuaiMod！多模态AI专治各种劣质内容

推荐阅读

上云服务

前字节视觉大模型 AI 平台负责人潘欣加盟美团出任多模态AI创新业务负责人