上云资讯 - 来上云吧，企业上云一站式服务

2025-11-11 18:27:45 229人关注

百度重磅发布新一代多模态AI模型ERNIE-4.5-VL

近日，百度在人工智能领域又迈出了重要一步，正式发布了其最新的多模态思考模型 ——ERNIE-4.5-VL-28B-A3B-Thinking。这个新模型不仅具备强大的语言处理能力，还引入了 “图像思考” 的创新功能，意味着它在理解和处理图像方面有了显著提升。

AI

2025-08-21 14:33:11 301人关注

NVIDIA 与美国国家科学基金会携手打造开放科学 AI 模型

近日，美国国家科学基金会（NSF）与 NVIDIA 联合宣布将投资1.52亿美元，开展一项名为 “开放多模态 AI 基础设施加速科学”(OMAI)的新项目，由艾伦人工智能研究所(Ai2)牵头。该项目的目标是开发开放源代码的多模态 AI 模型，旨在帮助各学科的研究人员更有效地进行科学研究。

AI大模型多模态AI模型开源AI基础设施 AI加速科学研究 NSF与NVIDIA合作项目 OMAI项目投资

2025-07-11 08:31:41 471人关注

阿里开源ThinkSound：AI自动为视频加音效，影视与游戏创作迎来大变革！

2025年7月，阿里巴巴通义实验室正式开源其首款音频生成模型ThinkSound，为视频内容创作带来革命性突破。这款多模态AI模型能够基于视频、文本或音频输入，生成高保真的音效与音景，完美适配画面内容，为影视制作、游戏开发及多媒体创作注入全新活力。AIbase结合最新信息，深入剖析ThinkSound的独特优势与行业影响，带您一探AI音效生成的新前沿。

阿里巴巴通义实验室 ThinkSound开源音频生成模型 AI音效生成多模态AI模型视频内容创作革命

2025-05-07 12:41:20 257人关注

谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者

近日，谷歌宣布推出一款全新的视觉 - 语言模型（Vision-Language Model， VLM），名为 PaliGemma2Mix。这款模型融合了图像处理与自然语言处理的能力，能够同时理解视觉信息和文本输入，并根据需求生成相应的输出，标志着人工智能技术在多任务处理方面的进一步突破。

Google PaLI-Gemma-2 视觉语言模型多模态AI模型 Google AI技术视觉与语言融合模型 AI模型应用场景

2025-05-05 08:26:13 275人关注

微软团队推多模态AI模型Magma：整合视觉、语言和动作决策技能

近日，微软研究团队联合多所高校的研究人员，发布了一款名为 “Magma” 的多模态 AI 模型。这款模型的设计旨在处理和整合图像、文本和视频等多种数据类型，以便在数字和物理环境中执行复杂任务。随着科技的不断进步，多模态 AI 代理正在被广泛应用于机器人技术、虚拟助手和用户界面自动化等领域。

Microsoft Magma AI模型多模态AI模型视觉语言动作模型 AI大模型技术微软AI模型应用

2025-05-01 16:25:20 506人关注

阿里开源多模态模型Qwen2.5-Omni：显存大幅降低暴降 50%

在开源大模型的竞争中，阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。这款模型的显著特点是显存使用减少了50%，在同等处理能力下，更加适合普通消费者的 GPU 设备。这一创新标志着阿里在多模态人工智能领域的进一步突破。

阿里巴巴通义千问2.5 通义千问2.5多模态模型阿里大模型技术多模态AI模型 Qwen2.5 Omni技术解析

2025-01-27 09:40:40 457人关注

面壁智能推MiniCPM-o 2.6：一款适用于手机的多模态智能大模型

OpenBMB 团队近日推出了 MiniCPM-o2.6，这是该系列中最新、功能最强大的多模态大型语言模型（MLLM）。MiniCPM-o2.6的最大亮点在于它的8亿参数，使其在视觉、语音以及多模态直播领域的性能接近于 GPT-4o-202405，成为开源社区中多功能且高效的选择。

多模态AI模型 Minicpm-O-26模型 AI大模型技术多模态模型应用 AI模型新闻

2025-01-23 21:10:21 558人关注

李飞飞团队前瞻性研究多模态AI模型初显空间智能

有“AI教母”之称的斯坦福大学教授李飞飞及其团队近日发布了一项关于多模态大模型“空间智能”的研究，揭示这些模型在记忆和回忆空间方面已经具备初步能力，并展现出形成局部世界模型的潜力。

Fei-Fei Li团队多模态AI 空间智能 AI技术突破多模态AI应用空间智能研究

2025-01-22 05:39:19 1623人关注

DeepSeek-AI开源DeepSeek-VL2系列:3B、16B 和27B参数三种模型

随着人工智能的快速发展，视觉与语言能力的整合引发了视觉语言模型（VLMs）的突破性进展。这些模型旨在同时处理和理解视觉与文本数据，广泛应用于图像描述、视觉问答、光学字符识别以及多模态内容分析等场景。

DeepSeek VL2 3B模型 16B模型 27B模型大语言模型技术多模态AI模型

2025-01-16 16:42:18 266人关注

Meta暂停在欧盟推出多模态AI模型引发科技监管讨论

Meta周三向Axios发表声明，宣布由于欧盟法规不明确，该公司将不会向欧盟国家的客户发布其新的多模态AI模型或未来版本。这一决定引发了对欧盟AI监管环境的广泛讨论，同时也反映了美国科技巨头在面对全球不同监管要求时的策略调整。

Meta暂停欧盟AI发布欧盟AI监管政策多模态AI技术 AI产品合规性 AI市场准入限制

2025-01-16 12:16:41 293人关注

因监管问题，Meta 暂不在欧盟发布多模态 AI 模型

Meta 表示，由于监管担忧，暂不会在欧盟推出即将发布的多模态 AI 模型，这将阻止欧洲公司使用该模型，尽管其以开放许可发布。

Meta 欧盟多模态AI模型 AI技术发展 AI模型应用

2025-01-15 17:15:11 346人关注

PixVerse V2视频模型发布支持直接生成8秒视频

PixVerse 发布了 V2版本的视频模型，不仅能直接生成长达8秒的视频，更是大幅提升了画质和细节。

PixVerse V2 视频生成模型 8秒视频生成 AI视频技术多模态AI模型

2025-01-11 22:26:21 471人关注

腾讯混元大模型：斩获“图生文”多模态理解国内大模型第一

腾讯混元大模型在中文多模态大模型SuperCLUE-V测评基准8月榜单中表现卓越，荣获国内大模型排名第一，位于卓越领导者象限。多模态理解，即模型需准确识别图像元素、理解其关系，并生成自然语言描述，考验了模型对图像识别的精确度及对复杂现实世界的理解力。

腾讯超图灵多模态理解腾讯AI技术多模态AI模型超图灵技术应用

2025-01-09 12:15:15 346人关注

Salesforce推出xGen-MM开源多模态AI模型，助力视觉理解

Salesforce推出了一套名为 xGen-MM 的开源多模态 AI 模型，这套模型可以同时理解和生成文本、图像等多种数据类型，可能会彻底改变我们对 AI 的研究和应用方式。

Salesforce XGen-MM 多模态AI 视觉AI AI大模型多模态AI技术

2025-01-05 01:23:26 604人关注

Mini-Omni：开启"边思考边说话"新时代的多模态AI模型

在人工智能快速发展的今天，一款名为Mini-Omni的开源多模态大型语言模型正在引领语音交互技术的革新。这个由多个先进技术集成而成的AI系统，不仅能够实现实时的语音输入和输出，还具备"边思考边说话"的独特能力，为用户带来前所未有的自然交互体验。

多模态AI模型 Omni模型 AI模型技术多模态技术应用 AI模型最新动态

2024-12-31 16:24:45 389人关注

OpenAI全新多模态内容审核模型上线：基于 GPT-4o，可检测文本和图像

在数字时代，内容安全问题愈发受到重视。9月26日，OpenAI 正式推出了一款全新的多模态内容审核模型，名为 “omni-moderation-latest”。

OpenAI多模态内容审核模型内容审核技术 AI内容审核多模态AI模型 OpenAI最新模型

2024-12-29 09:27:16 284人关注

Rhymes AI发布首款开源多模态AI模型Aria 性能超越GPT-4o mini等多家知名AI模型

最近，日本东京的初创公司 Rhymes AI 推出了他们的首款人工智能模型 ——Aria。该公司自称，Aria 是全球首个开源的多模态混合专家（MoE）模型。这个模型不仅具有处理多种输入模态的能力，还声称在能力上与一些知名的商业模型不相上下，甚至更胜一筹。

AI大模型开源多模态模型 Rhymes AI Aria模型多模态AI技术

- 上云资讯 -

百度重磅发布新一代多模态AI模型ERNIE-4.5-VL

NVIDIA 与美国国家科学基金会携手打造开放科学 AI 模型

阿里开源ThinkSound：AI自动为视频加音效，影视与游戏创作迎来大变革！

谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者

微软团队推多模态AI模型Magma：整合视觉、语言和动作决策技能

阿里开源多模态模型Qwen2.5-Omni：显存大幅降低暴降 50%

面壁智能推MiniCPM-o 2.6：一款适用于手机的多模态智能大模型

李飞飞团队前瞻性研究多模态AI模型初显空间智能

DeepSeek-AI开源DeepSeek-VL2系列:3B、16B 和27B参数三种模型

Meta暂停在欧盟推出多模态AI模型引发科技监管讨论

因监管问题，Meta 暂不在欧盟发布多模态 AI 模型

PixVerse V2视频模型发布支持直接生成8秒视频

腾讯混元大模型：斩获“图生文”多模态理解国内大模型第一

Salesforce推出xGen-MM开源多模态AI模型，助力视觉理解

Mini-Omni：开启"边思考边说话"新时代的多模态AI模型

OpenAI全新多模态内容审核模型上线：基于 GPT-4o，可检测文本和图像

Rhymes AI发布首款开源多模态AI模型Aria 性能超越GPT-4o mini等多家知名AI模型

推荐阅读

上云服务

- 上云资讯 -

百度重磅发布新一代多模态AI模型ERNIE-4.5-VL

NVIDIA 与美国国家科学基金会携手打造开放科学 AI 模型

阿里开源ThinkSound：AI自动为视频加音效，影视与游戏创作迎来大变革！

谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者

微软团队推多模态AI模型Magma：整合视觉、语言和动作决策技能

阿里开源多模态模型Qwen2.5-Omni：显存大幅降低暴降 50%

面壁智能推MiniCPM-o 2.6：一款适用于手机的多模态智能大模型

李飞飞团队前瞻性研究 多模态AI模型初显空间智能

DeepSeek-AI开源DeepSeek-VL2系列:3B、16B 和27B参数三种模型

Meta暂停在欧盟推出多模态AI模型 引发科技监管讨论

因监管问题，​Meta 暂不在欧盟发布多模态 AI 模型

PixVerse V2视频模型发布 支持直接生成8秒视频

腾讯混元大模型：斩获“图生文”多模态理解国内大模型第一

Salesforce推出xGen-MM开源多模态AI模型，助力视觉理解

Mini-Omni：开启"边思考边说话"新时代的多模态AI模型

OpenAI全新多模态内容审核模型上线：基于 GPT-4o，可检测文本和图像

Rhymes AI发布首款开源多模态AI模型Aria 性能超越GPT-4o mini等多家知名AI模型

推荐阅读

上云服务

李飞飞团队前瞻性研究多模态AI模型初显空间智能

Meta暂停在欧盟推出多模态AI模型引发科技监管讨论

因监管问题，Meta 暂不在欧盟发布多模态 AI 模型

PixVerse V2视频模型发布支持直接生成8秒视频