上云资讯 - 来上云吧，企业上云一站式服务

2025-12-16 15:13:13 202人关注

阿里推出新语音模型“百聆”：三秒录音实现多语言与情感切换

阿里巴巴通义大模型宣布，其 “百聆” 系列语音模型迎来了重大升级，并正式开源。此次更新的两款语音模型，能够在仅需三秒的录音后，实现无缝切换至多达九种语言和十八种方言，包括普通话、粤语、日语、英语等，同时还可以模拟多种情感如开心和愤怒。

AI

2025-12-12 09:13:15 340人关注

AI日报：AI动画神器Seko 2.0上线；超强语音模型Qwen3-TTS发布；2025 年度字词候选公布

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

AI

2025-12-06 12:44:38 336人关注

微软开源实时语音模型VibeVoice-Realtime-0.5B，300ms实时开声，90分钟长音频都不喘！

微软悄然开源了一枚“黑马级”实时语音模型:VibeVoice-Realtime-0.5B。这可能是目前全球延迟最低、表现最接近真人的开源文本转语音（TTS）模型之一，话还没说完，声音就已经开始了!

AI

2025-11-12 12:44:18 214人关注

全新开源语音模型 Maya1：实现实时、富有表现力的文本转语音

Maya Research 最近发布了 Maya1，这是一个具有30亿参数的文本转语音模型。它能够将文本和简短描述转化为可控、富有表现力的语音，并能在单个 GPU 上实时运行。Maya1的核心功能在于能够捕捉真实人类情感以及精确的声音设计。

AI

2025-10-30 09:10:14 379人关注

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

AI

2025-10-29 16:35:21 724人关注

Soul语音模型SoulX-Podcast震撼发布：90分钟无中断播客生成，AI语音革命再升级

近日，AI语音领域迎来重大创新——Soul推出的SoulX-Podcast语音模型，以其革命性功能迅速成为行业焦点。该模型专为播客式内容设计，实现了高真实度的语音生成，支持长时段、多说话人、多语种交互，标志着AI在自然对话模拟上的又一里程碑。

AI

2025-09-16 13:45:13 184人关注

OpenAI Evals 新增原生音频评估功能，简化语音模型测试

OpenAI 正在进一步拓展其 Evals 工具的功能，为开发者带来了原生音频输入和音频评分支持。这项更新意味着，现在可以直接评估模型的音频响应，而无需先进行文本转录。这一新功能极大地简化了语音识别和语音生成模型的评估流程。

AI

2025-09-11 17:15:19 680人关注

B 站开源文本转语音模型IndexTTS-2.0，情感与时长可控

近日，哔哩哔哩（B 站）Index 团队宣布全面开源其自主研发的文本转语音(TTS)系统 ——IndexTTS-2.0。该系统具有情感可控和时长可调的特点，标志着零样本 TTS 技术的实用化迈出了重要一步。

IndexTTS-2.0开源零样本TTS技术情感可控语音合成时长可调TTS系统哔哩哔哩Index团队文本转语音开源项目

2025-09-01 16:11:21 807人关注

开源语音大模型 “Step-Audio 2 mini” 发布！听得清楚、说得自然

近日，阶跃星辰正式推出了最新的开源端到端语音大模型 ——Step-Audio2mini。这款模型在多个国际基准测试中表现优异，获得了 SOTA（最先进技术）成绩，令人瞩目。Step-Audio2mini 不仅在语音理解和音频生成方面能力强大，还首次将音频推理和生成统一建模，为语音识别、跨语言翻译和情感解析等多种应用场景提供了出色的解决方案。

Step-Audio2mini 语音大模型端到端语音模型音频推理与生成语音识别技术跨语言翻译模型情感解析AI

2025-08-30 11:35:24 445人关注

OpenAI放大招！GPT-Realtime语音模型上线，支持图像输入，AI交互要逆天了！

OpenAI正式推出其最新语音模型GPT-Realtime，这款多模态语音Agent模型以其强大的推理能力、图像输入支持以及优化的指令遵循功能引发行业热议。AIbase从最新信息中获悉，GPT-Realtime不仅在语音交互上实现突破，还通过集成图像输入、远程MCP和SIP电话呼叫等功能，为开发者提供更智能、更灵活的语音Agent解决方案。

GPT-Realtime语音模型多模态语音Agent 语音交互技术图像输入支持远程MCP集成 SIP电话呼叫功能

2025-08-30 08:18:16 987人关注

AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发布全新语音模型GPT-Realtime

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

AI技术趋势 AI开发者指南创新AI产品应用人工智能热点内容 AI日报栏目

2025-08-29 10:37:16 506人关注

OpenAI 发布全新语音模型 GPT-Realtime，专为语音AI Agent设计

OpenAI 在凌晨1点举行了技术直播，正式发布了其全新的语音模型 ——GPT-Realtime。这一多模态模型专为语音 AI Agent 设计，旨在生成更加自然流畅的语音，能够模仿人类丰富多样的语调、情感和语速。GPT-Realtime 的应用场景广泛，涵盖了客服、教育、金融和医疗等多个领域，为打造智能语音助手提供了强大的支持。

GPT-Realtime OpenAI 语音模型多模态语音AI Agent 语音助手技术自然语音生成智能客服应用

2025-08-26 18:43:21 811人关注

微软开源VibeVoice TTS模型：90分钟超长语音，可4人对话，中文效果惊艳！

近日，微软推出了一款备受瞩目的开源文本转语音（TTS）模型——VibeVoice，引发了AI语音技术领域的高度关注。这款模型以其强大的功能和卓越的性能，为长篇语音生成、多人对话以及中文语音合成树立了新的标杆。以下，AIbase将为您详细解析VibeVoice的亮点与潜力。

开源TTS模型 VibeVoice语音合成微软AI语音技术文本转语音模型中文语音合成技术多人对话语音生成

2025-08-23 10:23:22 803人关注

阿里通义Fun-ASR语音模型升级垂直领域识别率跃升超15%

阿里通义正式推出新一代端到端语音识别大模型Fun-ASR，该模型通过强化上下文感知与高精度转写能力，在家装、保险等垂直行业场景中实现语音识别准确率超15%的突破性提升。实测数据显示，保险行业准确率较前代提升18%，家装、畜牧等领域增幅达15%-20%。

阿里通义Fun-ASR 语音识别大模型端到端语音识别上下文感知语音识别高精度语音转写垂直行业语音识别

2025-08-07 13:41:12 368人关注

MiniMax Speech 2.5语音生成模型上线：多语种表现力更强

MiniMax今日宣布推出新一代语音生成模型Speech2.5，这一升级版模型在全球语音技术领域再次树立了新的标杆，进一步巩固了其作为全球最强语音模型的地位。Speech2.5在多语种表现力、音色复刻以及语种覆盖范围等方面均实现了显著提升。

MiniMax语音模型 Speech2.5技术升级语音生成模型多语种语音技术音色复刻技术全球最强语音模型

2025-07-24 13:18:43 621人关注

李沐团队发布 Higgs Audio v2，开创语音合成新纪元

知名 AI 创业者李沐与他的团队 Boson.ai 最近推出了全新的开源文本转语音（TTS）大模型 ——Higgs Audio v2。这款模型不仅可以将文本转换为语音，还具备多语言对话生成、韵律自动调整和声音克隆等多种功能，堪称语音合成领域的一次重大突破。

开源文本转语音模型 Higgs Audio v2 功能语音合成技术突破多语言对话生成韵律自动调整声音克隆技术

2025-07-16 12:30:25 347人关注

Mistral重磅推出Voxtral：开源AI音频模型的新时代来临！

随着人工智能技术的飞速发展，语音正迅速成为我们与机器沟通的主要方式。法国初创企业 Mistral 近日正式发布了其首个开源音频模型 ——Voxtral，旨在打破大型企业封闭系统的垄断，为开发者提供一个更灵活且经济的替代方案。

开源语音模型 Mistral Voxtral 语音AI技术语音模型开源方案开发者语音工具经济型语音AI

2025-07-04 16:25:14 585人关注

开源革命！Kyutai TTS发布：超低延迟语音合成，AI语音新纪元来袭！

近日，法国AI实验室Kyutai宣布，其全新文本转语音模型 Kyutai TTS 正式开源，为全球开发者与研究者带来了一款高性能、低延迟的语音合成解决方案。这一突破性发布不仅推动了开源AI技术的发展，也为多语言语音交互应用开辟了新的可能性。AIbase为您独家解析这一技术亮点及其潜在影响。

Kyutai TTS 文本转语音模型开源语音合成 AI语音交互多语言语音合成 AI开源技术

2025-06-12 09:44:30 759人关注

字节火山引擎发布豆包·语音播客模型和豆包・实时语音模型

字节跳动火山引擎发布了两款全新的豆包语音大模型，旨在提升语音识别和语音生成的智能水平。这两款模型分别是豆包・语音播客模型和豆包・实时语音模型，均在多项技术指标上实现了显著的突破。

火山引擎抖音播客语音模型字节跳动AI技术语音合成技术

2025-06-04 16:25:12 487人关注

通义推出CoGenAV多模态语音表征模型可实现音画同步感知

近日，通义大模型发布CoGenAV，以音画同步理念创新语音识别技术，有效解决语音识别中噪声干扰的难题。

通义千问多模态语音模型语音模型技术通义千问应用场景多模态技术原理

- 上云资讯 -

阿里推出新语音模型“百聆”：三秒录音实现多语言与情感切换

AI日报：AI动画神器Seko 2.0上线；超强语音模型Qwen3-TTS发布；2025 年度字词候选公布

微软开源实时语音模型VibeVoice-Realtime-0.5B，300ms实时开声，90分钟长音频都不喘！

全新开源语音模型 Maya1：实现实时、富有表现力的文本转语音

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

Soul语音模型SoulX-Podcast震撼发布：90分钟无中断播客生成，AI语音革命再升级

OpenAI Evals 新增原生音频评估功能，简化语音模型测试

B 站开源文本转语音模型IndexTTS-2.0，情感与时长可控

开源语音大模型 “Step-Audio 2 mini” 发布！听得清楚、说得自然

OpenAI放大招！GPT-Realtime语音模型上线，支持图像输入，AI交互要逆天了！

AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发布全新语音模型GPT-Realtime

OpenAI 发布全新语音模型 GPT-Realtime，专为语音AI Agent设计

微软开源VibeVoice TTS模型：90分钟超长语音，可4人对话，中文效果惊艳！

阿里通义Fun-ASR语音模型升级垂直领域识别率跃升超15%

MiniMax Speech 2.5语音生成模型上线：多语种表现力更强

李沐团队发布 Higgs Audio v2，开创语音合成新纪元

Mistral重磅推出Voxtral：开源AI音频模型的新时代来临！

开源革命！Kyutai TTS发布：超低延迟语音合成，AI语音新纪元来袭！

字节火山引擎发布豆包·语音播客模型和豆包・实时语音模型

通义推出CoGenAV多模态语音表征模型可实现音画同步感知

推荐阅读

上云服务

- 上云资讯 -

​阿里推出新语音模型“百聆”：三秒录音实现多语言与情感切换

AI日报：AI动画神器Seko 2.0上线；超强语音模型Qwen3-TTS发布；2025 年度字词候选公布

微软开源实时语音模型VibeVoice-Realtime-0.5B，300ms实时开声，90分钟长音频都不喘！

全新开源语音模型 Maya1：实现实时、富有表现力的文本转语音

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

Soul语音模型SoulX-Podcast震撼发布：90分钟无中断播客生成，AI语音革命再升级

OpenAI Evals 新增原生音频评估功能，简化语音模型测试

​B 站开源文本转语音模型IndexTTS-2.0，情感与时长可控

开源语音大模型 “Step-Audio 2 mini” 发布！听得清楚、说得自然

OpenAI放大招！GPT-Realtime语音模型上线，支持图像输入，AI交互要逆天了！

AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发布全新语音模型GPT-Realtime

OpenAI 发布全新语音模型 GPT-Realtime，专为语音AI Agent设计

微软开源VibeVoice TTS模型：90分钟超长语音，可4人对话，中文效果惊艳！

阿里通义Fun-ASR语音模型升级 垂直领域识别率跃升超15%

MiniMax Speech 2.5语音生成模型上线：多语种表现力更强

李沐团队发布 Higgs Audio v2，开创语音合成新纪元

Mistral重磅推出Voxtral：开源AI音频模型的新时代来临！

开源革命！Kyutai TTS发布：超低延迟语音合成，AI语音新纪元来袭！

​字节火山引擎发布豆包·语音播客模型和豆包・实时语音模型

通义推出CoGenAV多模态语音表征模型 可实现音画同步感知

推荐阅读

上云服务

阿里推出新语音模型“百聆”：三秒录音实现多语言与情感切换

B 站开源文本转语音模型IndexTTS-2.0，情感与时长可控

阿里通义Fun-ASR语音模型升级垂直领域识别率跃升超15%

字节火山引擎发布豆包·语音播客模型和豆包・实时语音模型

通义推出CoGenAV多模态语音表征模型可实现音画同步感知