上云资讯 - 来上云吧，企业上云一站式服务

2025-12-18 13:33:33 273人关注

Meta发布SAM Audio：全球首个支持“点击分离声音”的多模态音频模型，一键提取吉他声、人声或狗叫

Meta正式推出音频处理领域的重磅突破——SAM Audio，全球首个统一的多模态音频分离模型。它能让用户像“用眼睛听声音”一样，从一段混杂的视频或音频中，一键提取出任意目标声音:点击视频中的吉他手，立刻分离出纯净吉他声;输入“狗吠”，自动过滤掉整段播客中的犬吠噪音;甚至只需圈定时间片段，即可精准剔除干扰音。这项技术首次将人类自然感知声音的方式——看、说、指、选——完整复刻到AI系统中。

AI

2025-09-01 13:28:17 376人关注

腾讯ARC开源音频模型 AudioStory：用大语言模型生成长音频

近日，腾讯 ARC 团队发布了一款名为 AudioStory 的模型，旨在利用大语言模型（LLMs）生成长篇叙事音频。该模型解决了现有文本到音频生成技术在处理短音频方面的优势与长篇叙事音频在时间连贯性与组合推理上的挑战。

腾讯ARC团队AudioStory模型大语言模型生成长篇音频文本到音频生成技术长篇叙事音频时间连贯性音频生成组合推理挑战

2025-08-26 10:19:19 516人关注

微软开源 VibeVoice-1.5B 模型：90 分钟超长语音合成新突破

近日，微软研究院正式开源了其最新音频模型 ——VibeVoice-1.5B。该模型在语音合成技术上实现了多项重大突破，使得合成的语音更自然、时长更长、效果更优。

微软音频模型开源 VibeVoice-1.5B 语音合成技术突破自然语音合成长音频合成微软研究院音频模型

2025-07-24 08:36:42 368人关注

昆仑万维推出音乐模型Mureka V7、音频模型Mureka TTS V1

7月23日，昆仑万维集团为全球用户带来了两款创新的AI模型——Mureka V7音乐模型与Mureka TTS V1音频模型，这两款模型的发布标志着AI音乐生成领域迈出了重要一步。Mureka V7音乐模型自发布以来便备受瞩目，其以高效的音乐创作能力和卓越的音乐品质赢得了广泛好评。

昆仑万维AI模型 Mureka V7音乐模型 Mureka TTS V1音频模型 AI音乐生成技术 AI音乐创作能力

2025-07-17 09:44:46 738人关注

AI日报：字节将发布AI编程工具TRAE2.0版本；Mistral重磅推出音频模型Voxtral；月之暗面回应Kimi K2 API速度慢

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

AI日报 AI技术趋势 AI开发者指南人工智能热点创新AI产品应用 AI领域动态

2025-07-16 12:30:25 347人关注

Mistral重磅推出Voxtral：开源AI音频模型的新时代来临！

随着人工智能技术的飞速发展，语音正迅速成为我们与机器沟通的主要方式。法国初创企业 Mistral 近日正式发布了其首个开源音频模型 ——Voxtral，旨在打破大型企业封闭系统的垄断，为开发者提供一个更灵活且经济的替代方案。

开源语音模型 Mistral Voxtral 语音AI技术语音模型开源方案开发者语音工具经济型语音AI

2025-05-10 16:14:28 282人关注

Vidu Q1 系列 API 正式开放同时上线文生音频模型

近日， Vidu Q1系列 API 已正式面向全球开放。开发者与企业用户可借此契机，通过调用 API 体验 Vidu Q1模型所具备的多样化功能。

Vidu Q1 API 文本转音频API Vidu API发布文本转音频技术 Vidu Q1新功能

2025-01-21 22:11:29 604人关注

阶跃星辰Step-1o Audio千亿参数端到端语音大模型上线将接入跃问App

阶跃星辰近日宣布推出Step系列模型矩阵的新成员——Step-1o端到端语音大模型，据称这是国内首个千亿参数端到端语音大模型。这一新模型的发布标志着语音技术领域的一大进步，它通过端到端的语音方案，能够实现语音理解和生成的一体化，从而提升模型智商和情商的上限，并实现超自然、高质量的交流体验。

音频模型语音模型 Step 1O模型语音识别技术音频处理技术

2025-01-16 23:16:43 626人关注

Qwen2-Audio：千问系列的音频多模态模型无需文字即可语音交互

阿里云最新发布了一名为 Qwen-Audio 的大规模音频语言型，该模型可接受多种音频信号输入，够进行音频分析或直接回答语音指令极大地提升了语音交互体验。

Qwen2音频模型多模态语音交互大模型语音技术 AI语音交互系统 Qwen2应用场景

2025-01-16 00:35:39 302人关注

Stability AI开源音频生成模型Stable Audio Open:可生成47秒的立体声音频

最近，Stability AI 团队推出了一款全新的开源音频生成模型，名为 Stable Audio Open。这款模型的特别之处在于，它能够从文本提示生成时长可达47秒的立体声音频，采样率高达44.1kHz。

Stability AI Stable Audio AI音频生成 AI音频技术 Stability AI新闻音频模型开源

2025-01-11 10:11:16 548人关注

阿里巴巴发布新语音模型 Qwen2-Audio，实力超越 OpenAI Whisper

近日，阿里巴巴在其 Qwen-Audio 的基础上，推出了全新的开源语音模型 Qwen2-Audio。这款模型不仅在语音识别、翻译和音频分析方面表现出色，更是在功能和性能上实现了显著提升。Qwen2-Audio 提供了基础版和指令微调版，用户可以通过语音对音频模型提问，并识别和分析内容。

阿里巴巴语音模型 Qwen2音频模型阿里巴巴AI语音技术 Qwen2音频技术阿里巴巴新语音模型发布

2025-01-08 06:40:38 283人关注

摩尔线程宣布开源音频理解大模型MooER

摩尔线程近日宣布开源其音频理解大模型MooER（摩耳），成为业界首个基于国产全功能GPU训练和推理的大型开源语音模型。MooER不仅支持中英文语音识别，还具备中译英的语音翻译能力，展现了强大的多语言处理能力。

摩尔线程开源音频理解模型开源音频理解模型摩尔线程开源模型音频理解模型技术开源AI音频模型

2025-01-02 21:21:33 322人关注

腾讯出品！AI音频模型 EzAudio AI，让文本秒变逼真声音

近日，约翰霍普金斯大学与腾讯 AI 实验室联合推出了一款名为 EzAudio 的新型文本到音频生成模型。这项技术承诺以空前的效率和高品质文本转换为声音，标志着人工智能和音频技术的重大飞跃。

腾讯EZAUDIO AI语音合成文本转语音技术 AI语音生成腾讯AI语音技术

2024-12-22 16:14:17 270人关注

全新开源音频模型Hertz-Dev:超低延迟，实现AI实时对话

在当今科技的浪潮中，对话式人工智能（AI）已经成为我们生活中的重要组成部分。然而，快速、高效和实时的互动仍然是一个不小的挑战。尤其是延迟问题，指的是输入与响应之间的时间差，常常让客服机器人和虚拟助手的体验变得缓慢，影响用户的使用感受。

开源音频模型实时AI对话超低延迟AI Hertz Dev 技术 AI音频处理技术

2024-12-22 05:38:40 174人关注

首个会话音频开源模型Hertz-dev 120毫秒超低延迟惊艳全网

一个革命性的开源音频模型——Hertz-dev横空出世，凭借其惊人的性能指标，让全球开发者为之震撼。这款拥有85亿参数的AI语音巨兽，通过2000万小时高质量音频数据的训练，成功实现了人类梦寐以求的全双工实时对话。

音频开源模型 Hertz Dev 开源音频模型音频模型技术音频AI开发

2024-12-17 13:21:36 245人关注

Meta最新音频大模型SPIRIT LM，让AI不止能说会道，还能“声情并茂”！

Meta AI近日重磅开源了名为SPIRIT LM的基础多模态语言模型，该模型能够自由混合文本和语音，为音频和文本的多模态任务打开了新的可能性。

Meta音频模型 Spirit LM 音频大模型技术 Meta AI音频创新 Spirit LM应用场景

2024-12-16 16:10:31 274人关注

英伟达出品！AI音频模型Fugatto：输入文本、音频可生成音乐、音效

在音乐和声音创作领域，技术与创意的结合总是面临诸多挑战。现有的 AI 模型往往只擅长特定的任务，缺乏广泛的适应性，这使得 AI 在音乐制作中的辅助作用受限。为了让 AI 更好地服务于音乐与音频生产，亟需一款能够灵活应对各种创作需求的通用模型。为此，NVIDIA 推出了 Fugatto，这是一款拥有25亿参数的音频生成与处理模型。

NVIDIA Fugatto AI音频模型 AI音频技术音频模型应用深度学习音频处理 NVIDIA AI技术

- 上云资讯 -

Meta发布SAM Audio：全球首个支持“点击分离声音”的多模态音频模型，一键提取吉他声、人声或狗叫

腾讯ARC开源音频模型 AudioStory：用大语言模型生成长音频

微软开源 VibeVoice-1.5B 模型：90 分钟超长语音合成新突破

昆仑万维推出音乐模型Mureka V7、音频模型Mureka TTS V1

AI日报：字节将发布AI编程工具TRAE2.0版本；Mistral重磅推出音频模型Voxtral；月之暗面回应Kimi K2 API速度慢

Mistral重磅推出Voxtral：开源AI音频模型的新时代来临！

Vidu Q1 系列 API 正式开放同时上线文生音频模型

阶跃星辰Step-1o Audio千亿参数端到端语音大模型上线将接入跃问App

Qwen2-Audio：千问系列的音频多模态模型无需文字即可语音交互

Stability AI开源音频生成模型Stable Audio Open:可生成47秒的立体声音频

阿里巴巴发布新语音模型 Qwen2-Audio，实力超越 OpenAI Whisper

摩尔线程宣布开源音频理解大模型MooER

腾讯出品！AI音频模型 EzAudio AI，让文本秒变逼真声音

全新开源音频模型Hertz-Dev:超低延迟，实现AI实时对话

首个会话音频开源模型Hertz-dev 120毫秒超低延迟惊艳全网

Meta最新音频大模型SPIRIT LM，让AI不止能说会道，还能“声情并茂”！

英伟达出品！AI音频模型Fugatto：输入文本、音频可生成音乐、音效

推荐阅读

上云服务

- 上云资讯 -

Meta发布SAM Audio：全球首个支持“点击分离声音”的多模态音频模型，一键提取吉他声、人声或狗叫

​腾讯ARC开源音频模型 AudioStory：用大语言模型生成长音频

微软开源 VibeVoice-1.5B 模型：90 分钟超长语音合成新突破

昆仑万维推出音乐模型Mureka V7、音频模型Mureka TTS V1

AI日报：字节将发布AI编程工具TRAE2.0版本；Mistral重磅推出音频模型Voxtral；月之暗面回应Kimi K2 API速度慢

Mistral重磅推出Voxtral：开源AI音频模型的新时代来临！

Vidu Q1 系列 API 正式开放 同时上线文生音频模型

阶跃星辰Step-1o Audio千亿参数端到端语音大模型上线 将接入跃问App

Qwen2-Audio：千问系列的音频多模态模型 无需文字即可语音交互

Stability AI开源音频生成模型Stable Audio Open:可生成47秒的立体声音频

阿里巴巴发布新语音模型 Qwen2-Audio，实力超越 OpenAI Whisper

摩尔线程宣布开源音频理解大模型MooER

腾讯出品！AI音频模型 EzAudio AI，让文本秒变逼真声音

全新开源音频模型Hertz-Dev:超低延迟，实现AI实时对话

首个会话音频开源模型Hertz-dev 120毫秒超低延迟惊艳全网

Meta最新音频大模型SPIRIT LM，让AI不止能说会道，还能“声情并茂”！

英伟达出品！AI音频模型Fugatto：输入文本、音频可生成音乐、音效

推荐阅读

上云服务

腾讯ARC开源音频模型 AudioStory：用大语言模型生成长音频

Vidu Q1 系列 API 正式开放同时上线文生音频模型

阶跃星辰Step-1o Audio千亿参数端到端语音大模型上线将接入跃问App

Qwen2-Audio：千问系列的音频多模态模型无需文字即可语音交互