上云资讯 - 来上云吧，企业上云一站式服务

2025-06-04 16:25:12 488人关注

通义推出CoGenAV多模态语音表征模型可实现音画同步感知

近日，通义大模型发布CoGenAV，以音画同步理念创新语音识别技术，有效解决语音识别中噪声干扰的难题。

2025-05-14 16:28:27 391人关注

字节跳动发布新一代多模态大模型，挑战谷歌 Gemini 2.5 Pro

在人工智能领域竞争日益激烈的今天，字节跳动的 Seed 团队于5月13日正式发布了其最新的多模态大模型 Seed1.5-VL，旨在为智能体技术的进步铺平道路。该模型经过超过3万亿 tokens 的多模态数据预训练，不仅具备强大的通用多模态理解和推理能力，还显著降低了推理成本。

字节跳动多模态模型 Gemini AI大模型多模态技术应用

2025-01-27 12:13:41 1054人关注

月之暗面Kimi多模态图片理解模型 API 发布

2025年1月15日，北京月之暗面科技有限公司宣布全新多模态图片理解模型moonshot-v1-vision-preview正式发布，该模型完善了moonshot-v1模型系列的多模态能力，助力Kimi更好地理解世界。

Kimi多模态API 多模态图像理解API Kimi API应用场景多模态技术解析 Kimi API使用指南

2025-01-24 10:40:20 445人关注

阿里发布多模态推理模型QVQ-72B！视觉、语言能力双提升，复杂问题迎刃而解

阿里巴巴近日推出了一款名为QVQ-72B的全新多模态推理模型，该模型基于Qwen2-VL-72B构建，融合了强大的语言和视觉能力，能够处理更为复杂的推理和分析任务，标志着阿里巴巴在多模态AI领域取得了新的突破。

阿里 QVQ-72B 多模态推理模型大模型技术应用阿里大模型新闻 AI 多模态技术

2025-01-23 19:42:40 234人关注

多模态大模型引爆应用场景阶跃星辰完成数亿美元融资

据智能涌现消息，中国大模型独角兽阶跃星辰近日完成数亿美元B轮融资，核心投资方包括上海国有资本投资有限公司及旗下基金，腾讯投资、五源资本、启明创投等战略和财务投资人也参与其中。这笔资金将主要用于基础模型研发，进一步提升多模态和复杂推理能力，并拓展C端应用场景。

多模态大模型大模型融资多模态技术投资 AI大模型资金动态多模态大模型发展趋势

2025-01-18 19:19:24 493人关注

新颖多模态推荐系统范式DiffMM，让扩散模型也能推荐短视频！

港大与腾讯的研究人员提出了一种全新的多模态推荐系统范式 ——DiffMM，旨在提高短视频推荐的精准度。该系统通过创建一个包含用户和视频信息的图，并利用图扩散和对比学习技术，更好地理解用户和视频之间的关系，从而实现更准确的推荐。

多模态推荐系统推荐系统技术多模态技术应用 DiffMM 推荐系统推荐系统创新

2025-01-11 19:26:14 520人关注

腾讯混元领跑多模态AI：全方位领先GPT-4/Claude-3.5等

在人工智能的多模态领域，国产大模型正展现出强劲的实力。最新发布的中文多模态大模型测评基准SuperCLUE-V榜单显示，腾讯的hunyuan-vision和上海AI Lab的InternVL2-40B分别成为国内闭源和开源界的两大领跑者，甚至超越了国际知名的Claude-3.5-Sonnet和谷歌的Gemini-1.5-Pro。

腾讯混元大模型多模态AI 大模型技术 AI大模型应用腾讯AI新闻多模态技术发展

2025-01-05 01:23:26 605人关注

Mini-Omni：开启"边思考边说话"新时代的多模态AI模型

在人工智能快速发展的今天，一款名为Mini-Omni的开源多模态大型语言模型正在引领语音交互技术的革新。这个由多个先进技术集成而成的AI系统，不仅能够实现实时的语音输入和输出，还具备"边思考边说话"的独特能力，为用户带来前所未有的自然交互体验。

多模态AI模型 Omni模型 AI模型技术多模态技术应用 AI模型最新动态

2024-12-31 14:32:17 385人关注

超牛多模态模型Emu3：通过预测下一个词的方式理解图像、视频

在人工智能的浩瀚海洋中，一艘名为Emu3的创新之船正在破浪前行，为我们展示了多模态AI的无限可能。这个由Meta AI研究团队开发的革命性模型，通过简单而巧妙的"下一步预测"机制，实现了文本、图像和视频的统一处理。

EMU3 多模态模型下一个词预测 AI大模型多模态技术应用 EMU3模型架构

2024-12-29 17:35:19 206人关注

科大讯飞：将于10月24日发布多模态视觉交互技术

今日，科大讯飞宣布，2024科大讯飞全球1024开发者节将于10月24日开幕。

讯飞多模态视觉交互技术多模态视觉交互视觉交互技术讯飞视觉交互多模态技术应用

2024-12-26 16:13:14 271人关注

重新定义多模态AI！智源发布原生多模态世界模型Emu3

北京智源人工智能研究院宣布推出原生多模态世界模型Emu3。这一模型基于下一个token预测技术，无需依赖扩散模型或组合方法，就能够完成文本、图像、视频三种模态数据的理解和生成。Emu3在图像生成、视频生成、视觉语言理解等任务中超过了现有的知名开源模型，如SDXL、LLaVA、OpenSora等，展现了卓越的性能。

多模态AI 智源Emu3 AI大模型多模态技术 AI技术前沿人工智能创新

2024-12-26 14:18:20 237人关注

智源发布原生多模态世界模型Emu3：仅靠下一个token预测实现文本、图像和视频理解和生成

智源研究院正式发布了他们的新一代多模态世界模型 Emu3，该模型的最大亮点在于，它仅依靠下一个 token 的预测能力，就能在文本、图像和视频这三种不同模态中进行理解和生成。

多模态世界模型 Emu3 Token预测大模型技术 AI多模态技术 Emu3应用场景

2024-12-25 01:41:41 236人关注

Salesforce AI研究推全新多模态模型BLIP-3-Video:低成本搞定视频理解

最近，Salesforce AI 研究团队推出了一款全新的多模态语言模型 ——BLIP-3-Video。随着视频内容的快速增加，如何高效处理视频数据成为了一个亟待解决的问题。这款模型的出现，旨在提升视频理解的效率和效果，适用于从自动驾驶到娱乐等各个行业。

Salesforce BLIP-3 多模态模型视频理解 AI多模态技术 Salesforce AI模型 BLIP-3应用场景

2024-12-19 21:38:27 931人关注

科大讯飞星火多模态交互大模型上线实现“语音、视觉、数字人交互”三合一

科大讯飞公司近日宣布，其最新研发的讯飞星火多模态交互大模型正式投入运营。这一技术突破标志着科大讯飞从单一的语音交互技术拓展到音视频流实时多模态交互的新阶段。新模型集成了语音、视觉和数字人交互功能，用户可通过一键调用，实现三者的无缝结合。

讯飞星火多模态模型多模态大模型讯飞星火模型发布 AI多模态技术大模型应用场景

- 上云资讯 -

通义推出CoGenAV多模态语音表征模型可实现音画同步感知

字节跳动发布新一代多模态大模型，挑战谷歌 Gemini 2.5 Pro

月之暗面Kimi多模态图片理解模型 API 发布

阿里发布多模态推理模型QVQ-72B！视觉、语言能力双提升，复杂问题迎刃而解

多模态大模型引爆应用场景阶跃星辰完成数亿美元融资

新颖多模态推荐系统范式DiffMM，让扩散模型也能推荐短视频！

腾讯混元领跑多模态AI：全方位领先GPT-4/Claude-3.5等

Mini-Omni：开启"边思考边说话"新时代的多模态AI模型

超牛多模态模型Emu3：通过预测下一个词的方式理解图像、视频

科大讯飞：将于10月24日发布多模态视觉交互技术

重新定义多模态AI！智源发布原生多模态世界模型Emu3

智源发布原生多模态世界模型Emu3：仅靠下一个token预测实现文本、图像和视频理解和生成

Salesforce AI研究推全新多模态模型BLIP-3-Video:低成本搞定视频理解

科大讯飞星火多模态交互大模型上线实现“语音、视觉、数字人交互”三合一

推荐阅读

上云服务

- 上云资讯 -

通义推出CoGenAV多模态语音表征模型 可实现音画同步感知

字节跳动发布新一代多模态大模型，挑战谷歌 Gemini 2.5 Pro

月之暗面Kimi多模态图片理解模型 API 发布

阿里发布多模态推理模型QVQ-72B！视觉、语言能力双提升，复杂问题迎刃而解

多模态大模型引爆应用场景 阶跃星辰完成数亿美元融资

新颖多模态推荐系统范式DiffMM，让扩散模型也能推荐短视频！

腾讯混元领跑多模态AI：全方位领先GPT-4/Claude-3.5等

Mini-Omni：开启"边思考边说话"新时代的多模态AI模型

超牛多模态模型Emu3：通过预测下一个词的方式理解图像、视频

科大讯飞：将于10月24日发布多模态视觉交互技术

重新定义多模态AI！智源发布原生多模态世界模型Emu3

智源发布原生多模态世界模型Emu3：仅靠下一个token预测实现文本、图像和视频理解和生成

Salesforce AI研究推全新多模态模型BLIP-3-Video:低成本搞定视频理解

科大讯飞星火多模态交互大模型上线 实现“语音、视觉、数字人交互”三合一

推荐阅读

上云服务

通义推出CoGenAV多模态语音表征模型可实现音画同步感知

多模态大模型引爆应用场景阶跃星辰完成数亿美元融资

科大讯飞星火多模态交互大模型上线实现“语音、视觉、数字人交互”三合一