LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-07-11 08:31:41 132人关注

阿里开源ThinkSound:AI自动为视频加音效,影视与游戏创作迎来大变革!

2025年7月,阿里巴巴通义实验室正式开源其首款音频生成模型ThinkSound,为视频内容创作带来革命性突破。这款多模态AI模型能够基于视频、文本或音频输入,生成高保真的音效与音景,完美适配画面内容,为影视制作、游戏开发及多媒体创作注入全新活力。AIbase结合最新信息,深入剖析ThinkSound的独特优势与行业影响,带您一探AI音效生成的新前沿。

阿里巴巴通义实验室 ThinkSound开源 音频生成模型 AI音效生成 多模态AI模型 视频内容创作革命

2025-05-07 12:41:20 81人关注

谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者

近日,谷歌宣布推出一款全新的视觉 - 语言模型(Vision-Language Model, VLM),名为 PaliGemma2Mix。这款模型融合了图像处理与自然语言处理的能力,能够同时理解视觉信息和文本输入,并根据需求生成相应的输出,标志着人工智能技术在多任务处理方面的进一步突破。

Google PaLI-Gemma-2 视觉语言模型 多模态AI模型 Google AI技术 视觉与语言融合模型 AI模型应用场景

2025-05-05 08:26:13 85人关注

微软团队推多模态AI模型Magma:整合视觉、语言和动作决策技能

近日,微软研究团队联合多所高校的研究人员,发布了一款名为 “Magma” 的多模态 AI 模型。这款模型的设计旨在处理和整合图像、文本和视频等多种数据类型,以便在数字和物理环境中执行复杂任务。随着科技的不断进步,多模态 AI 代理正在被广泛应用于机器人技术、虚拟助手和用户界面自动化等领域。

Microsoft Magma AI模型 多模态AI模型 视觉语言动作模型 AI大模型技术 微软AI模型应用

2025-05-01 16:25:20 124人关注

阿里开源多模态模型Qwen2.5-Omni:显存大幅降低暴降 50%

在开源大模型的竞争中,阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。这款模型的显著特点是显存使用减少了50%,在同等处理能力下,更加适合普通消费者的 GPU 设备。这一创新标志着阿里在多模态人工智能领域的进一步突破。

阿里巴巴通义千问2.5 通义千问2.5多模态模型 阿里大模型技术 多模态AI模型 Qwen2.5 Omni技术解析

2025-01-27 09:40:40 207人关注

面壁智能推MiniCPM-o 2.6:一款适用于手机的多模态智能大模型

OpenBMB 团队近日推出了 MiniCPM-o2.6,这是该系列中最新、功能最强大的多模态大型语言模型(MLLM)。MiniCPM-o2.6的最大亮点在于它的8亿参数,使其在视觉、语音以及多模态直播领域的性能接近于 GPT-4o-202405,成为开源社区中多功能且高效的选择。

多模态AI模型 Minicpm-O-26模型 AI大模型技术 多模态模型应用 AI模型新闻

2025-01-23 21:10:21 256人关注

李飞飞团队前瞻性研究 多模态AI模型初显空间智能

有“AI教母”之称的斯坦福大学教授李飞飞及其团队近日发布了一项关于多模态大模型“空间智能”的研究,揭示这些模型在记忆和回忆空间方面已经具备初步能力,并展现出形成局部世界模型的潜力。

Fei-Fei Li团队 多模态AI 空间智能 AI技术突破 多模态AI应用 空间智能研究

2025-01-22 05:39:19 824人关注

DeepSeek-AI开源DeepSeek-VL2系列:3B、16B 和27B参数三种模型

随着人工智能的快速发展,视觉与语言能力的整合引发了视觉语言模型(VLMs)的突破性进展。这些模型旨在同时处理和理解视觉与文本数据,广泛应用于图像描述、视觉问答、光学字符识别以及多模态内容分析等场景。

DeepSeek VL2 3B模型 16B模型 27B模型 大语言模型技术 多模态AI模型

2025-01-16 16:42:18 97人关注

Meta暂停在欧盟推出多模态AI模型 引发科技监管讨论

Meta周三向Axios发表声明,宣布由于欧盟法规不明确,该公司将不会向欧盟国家的客户发布其新的多模态AI模型或未来版本。这一决定引发了对欧盟AI监管环境的广泛讨论,同时也反映了美国科技巨头在面对全球不同监管要求时的策略调整。

Meta暂停欧盟AI发布 欧盟AI监管政策 多模态AI技术 AI产品合规性 AI市场准入限制

2025-01-16 12:16:41 92人关注

因监管问题,​Meta 暂不在欧盟发布多模态 AI 模型

Meta 表示,由于监管担忧,暂不会在欧盟推出即将发布的多模态 AI 模型,这将阻止欧洲公司使用该模型,尽管其以开放许可发布。

Meta 欧盟 多模态AI模型 AI技术发展 AI模型应用

2025-01-15 17:15:11 155人关注

PixVerse V2视频模型发布 支持直接生成8秒视频

PixVerse 发布了 V2版本的视频模型,不仅能直接生成长达8秒的视频,更是大幅提升了画质和细节。

PixVerse V2 视频生成模型 8秒视频生成 AI视频技术 多模态AI模型

2025-01-11 22:26:21 181人关注

腾讯混元大模型:斩获“图生文”多模态理解国内大模型第一

腾讯混元大模型在中文多模态大模型SuperCLUE-V测评基准8月榜单中表现卓越,荣获国内大模型排名第一,位于卓越领导者象限。多模态理解,即模型需准确识别图像元素、理解其关系,并生成自然语言描述,考验了模型对图像识别的精确度及对复杂现实世界的理解力。

腾讯超图灵 多模态理解 腾讯AI技术 多模态AI模型 超图灵技术应用

2025-01-09 12:15:15 144人关注

Salesforce推出xGen-MM开源多模态AI模型,助力视觉理解

Salesforce推出了一套名为 xGen-MM 的开源多模态 AI 模型,这套模型可以同时理解和生成文本、图像等多种数据类型,可能会彻底改变我们对 AI 的研究和应用方式。

Salesforce XGen-MM 多模态AI 视觉AI AI大模型 多模态AI技术

2025-01-05 01:23:26 259人关注

Mini-Omni:开启"边思考边说话"新时代的多模态AI模型

在人工智能快速发展的今天,一款名为Mini-Omni的开源多模态大型语言模型正在引领语音交互技术的革新。这个由多个先进技术集成而成的AI系统,不仅能够实现实时的语音输入和输出,还具备"边思考边说话"的独特能力,为用户带来前所未有的自然交互体验。

多模态AI模型 Omni模型 AI模型技术 多模态技术应用 AI模型最新动态

2024-12-31 16:24:45 143人关注

OpenAI全新多模态内容审核模型上线:基于 GPT-4o,可检测文本和图像

在数字时代,内容安全问题愈发受到重视。9月26日,OpenAI 正式推出了一款全新的多模态内容审核模型,名为 “omni-moderation-latest”。

OpenAI多模态内容审核模型 内容审核技术 AI内容审核 多模态AI模型 OpenAI最新模型

2024-12-29 09:27:16 103人关注

Rhymes AI发布首款开源多模态AI模型Aria 性能超越GPT-4o mini等多家知名AI模型

最近,日本东京的初创公司 Rhymes AI 推出了他们的首款人工智能模型 ——Aria。该公司自称,Aria 是全球首个开源的多模态混合专家(MoE)模型。这个模型不仅具有处理多种输入模态的能力,还声称在能力上与一些知名的商业模型不相上下,甚至更胜一筹。

AI大模型 开源多模态模型 Rhymes AI Aria模型 多模态AI技术

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10