- 上云资讯 -
2025-05-07 12:41:20 81人关注
谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者
近日,谷歌宣布推出一款全新的视觉 - 语言模型(Vision-Language Model, VLM),名为 PaliGemma2Mix。这款模型融合了图像处理与自然语言处理的能力,能够同时理解视觉信息和文本输入,并根据需求生成相应的输出,标志着人工智能技术在多任务处理方面的进一步突破。
Google PaLI-Gemma-2 视觉语言模型 多模态AI模型 Google AI技术 视觉与语言融合模型 AI模型应用场景
2025-05-05 08:26:13 85人关注
微软团队推多模态AI模型Magma:整合视觉、语言和动作决策技能
近日,微软研究团队联合多所高校的研究人员,发布了一款名为 “Magma” 的多模态 AI 模型。这款模型的设计旨在处理和整合图像、文本和视频等多种数据类型,以便在数字和物理环境中执行复杂任务。随着科技的不断进步,多模态 AI 代理正在被广泛应用于机器人技术、虚拟助手和用户界面自动化等领域。
2025-05-01 16:25:20 124人关注
阿里开源多模态模型Qwen2.5-Omni:显存大幅降低暴降 50%
在开源大模型的竞争中,阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。这款模型的显著特点是显存使用减少了50%,在同等处理能力下,更加适合普通消费者的 GPU 设备。这一创新标志着阿里在多模态人工智能领域的进一步突破。
2025-01-27 09:40:40 207人关注
面壁智能推MiniCPM-o 2.6:一款适用于手机的多模态智能大模型
OpenBMB 团队近日推出了 MiniCPM-o2.6,这是该系列中最新、功能最强大的多模态大型语言模型(MLLM)。MiniCPM-o2.6的最大亮点在于它的8亿参数,使其在视觉、语音以及多模态直播领域的性能接近于 GPT-4o-202405,成为开源社区中多功能且高效的选择。
2025-01-16 16:42:18 97人关注
Meta暂停在欧盟推出多模态AI模型 引发科技监管讨论
Meta周三向Axios发表声明,宣布由于欧盟法规不明确,该公司将不会向欧盟国家的客户发布其新的多模态AI模型或未来版本。这一决定引发了对欧盟AI监管环境的广泛讨论,同时也反映了美国科技巨头在面对全球不同监管要求时的策略调整。
2025-01-15 17:15:11 155人关注
PixVerse V2视频模型发布 支持直接生成8秒视频
PixVerse 发布了 V2版本的视频模型,不仅能直接生成长达8秒的视频,更是大幅提升了画质和细节。
2025-01-09 12:15:15 144人关注
Salesforce推出xGen-MM开源多模态AI模型,助力视觉理解
Salesforce推出了一套名为 xGen-MM 的开源多模态 AI 模型,这套模型可以同时理解和生成文本、图像等多种数据类型,可能会彻底改变我们对 AI 的研究和应用方式。
2024-12-31 16:24:45 143人关注
OpenAI全新多模态内容审核模型上线:基于 GPT-4o,可检测文本和图像
在数字时代,内容安全问题愈发受到重视。9月26日,OpenAI 正式推出了一款全新的多模态内容审核模型,名为 “omni-moderation-latest”。