- 上云资讯 -
2025-12-16 09:23:15 54人关注
商汤发布行业首个“多剧集生成智能体”Seko2.0,国产AI芯片首次打通多模态AIGC全链路
商汤科技正式推出Seko2.0——全球首个专注于多剧集视频生成的智能体,标志着AI视频生成从单片段创作迈向连续叙事的新阶段。该系统能够生成角色、场景、风格高度一致的多集短视频内容,在剧情连贯性、人物稳定性与视觉统一性上实现行业突破,为短剧、广告、教育等场景提供可规模化的AI内容生产方案。
2025-12-12 15:21:41 16人关注
前字节视觉大模型 AI 平台负责人潘欣加盟美团 出任多模态AI创新业务负责人
前字节跳动视觉大模型AI平台负责人潘欣已于本周到岗,出任多模态AI创新业务负责人,直接向美团技术委员会汇报。至此,这家市值千亿港元的生活服务巨头在 2025 年“外卖+AI”战略中补齐了最核心的一块算法拼图。
2025-11-11 18:27:45 139人关注
百度重磅发布新一代多模态AI模型ERNIE-4.5-VL
近日,百度在人工智能领域又迈出了重要一步,正式发布了其最新的多模态思考模型 ——ERNIE-4.5-VL-28B-A3B-Thinking。这个新模型不仅具备强大的语言处理能力,还引入了 “图像思考” 的创新功能,意味着它在理解和处理图像方面有了显著提升。
2025-09-10 17:15:32 192人关注
Freepik重磅接入Seedream 4.0!Premium+会员无限生图
全球知名设计资源平台Freepik近日正式上线字节跳动Seedream4.0图像生成模型,这一升级将AI生图能力无缝集成到其创意工具中,为设计师和创作者带来革命性体验。 作为豆包大模型家族的最新成员,Seedream4.0支持多模态输入输出,生成质量和速度均达业界领先水平。更吸引人的是,Freepik的Premium+会员可享无限生成次数,这一福利被誉为“太香了”,预计将进一步巩固平台在AI设计领域的领先地位。
2025-08-14 18:31:14 229人关注
昆仑万维发布Skywork Deep Research Agent v2
在SkyWork AI技术发布周的第四天,昆仑万维集团宣布了一项重大升级:Skywork Deep Research Agent v2。这一升级标志着天工超级智能体(Skywork Super Agents)的核心引擎得到了显著增强,为用户带来了更多模态、更高质量和更高效的体验。
昆仑万维集团 Skywork Deep Research Agent v2 天工超级智能体 Skywork Super Agents AI技术升级 多模态AI体验
2025-07-16 18:41:14 127人关注
前OpenAI CTO Mira Murati新公司完成20亿美元融资,推进多模态AI研发
前OpenAI首席技术官Mira Murati创立的人工智能初创公司Thinking Machines Lab宣布完成20亿美元种子轮融资,由Andreessen Horowitz(a16z)领投,NVIDIA、AMD、Accel、ServiceNow、Cisco和Jane Street等知名机构参投。此次融资使公司估值达到120亿美元,成为AI领域最大规模的早期投资之一,凸显了Murati在AI行业的强大影响力
AI初创公司 Thinking Machines Lab融资 Mira Murati创业 AI领域早期投资 Andreessen Horowitz领投 AI行业影响力
2025-07-12 17:21:44 301人关注
阿里HumanOmniV2震撼发布:多模态AI新王者,准确率飙升至69.33%
阿里巴巴集团近期正式推出其最新多模态大语言模型HumanOmniV2,在AI领域再掀波澜。这款模型以其强大的全局上下文理解能力和多模态推理能力,标志着阿里巴巴在人工智能技术的又一次重大突破。
2025-07-12 09:10:12 276人关注
谷歌DeepMind开源GenAI Processors:一键构建实时AI工作流
谷歌DeepMind近日宣布开源全新Python库“GenAI Processors”,为开发者提供了一个轻量级、高效的工具,用于构建异步、可组合的生成式AI工作流。这一开源库旨在简化复杂多模态AI应用的开发过程,支持实时处理音频、视频和文本等多模态数据,显著提升了基于Gemini API的应用程序开发效率。
谷歌DeepMind GenAI Processors开源库 生成式AI工作流 多模态AI应用开发 Gemini API开发效率
2025-06-23 10:24:30 412人关注
Google Gemini 2.5 Flash-Lite炸裂登场!点击瞬间生成UI,未来交互从此不同!
Google DeepMind推出全新Gemini2.5Flash-Lite模型,以其超低延迟和实时生成交互界面的能力引发业界热议。这款模型不仅继承了Gemini2.5系列的多模态和长上下文窗口特性,还展现了前所未有的UI设计创新潜力,被认为是未来交互界面的雏形。以下是AIbase整理的最新资讯,带您一探究竟。
Google DeepMind Gemini2.5Flash-Lite模型 超低延迟AI模型 实时生成交互界面 多模态AI技术 长上下文窗口特性
2025-05-12 10:35:24 506人关注
首个智能文档处理基准发布:Gemini领跑但短板待补,多模态AI面临现实挑战
5月11日,智能文档处理领域迎来重大进展——首个针对视觉-语言模型的统一基准测试"IDP Leaderboard"正式推出。该基准通过16个数据集、9229份文档,全面评估了当前主流模型在OCR、关键信息提取、视觉问答、表格提取、分类和长文档处理六大核心任务上的表现,为行业发展提供了可量化参考。
