上云资讯 - 来上云吧，企业上云一站式服务

2025-12-11 14:34:17 223人关注

Qwen3-TTS 升级：多样化声音让语音合成更自然

近日，Qwen3-TTS 语音合成模型迎来了全面升级，凭借其出色的表现，成为了语音合成领域的一颗新星。此版本不仅支持多音色、多语种和多方言，还提升了语音生成的自然性和稳定性，用户可以通过 Qwen API 轻松访问这一强大功能。

2025-10-30 10:15:13 695人关注

延迟低于250毫秒！MiniMax Speech 2.6发布，Fluent LoRA一键复刻任意音色，语音合成迈入实时交互时代

当AI语音不仅能“像人说话”，还能“像你说话”，且快到几乎无感，语音交互的边界正在被彻底重构。 10 月 30 日凌晨，MiniMax稀宇科技正式发布其新一代语音合成模型——MiniMax Speech 2.6，以端到端延迟低于 250 毫秒的实时性能与革命性的Fluent LoRA音色复刻技术，将语音生成推向高自然度、低延迟、强个性化的全新阶段。

AI

2025-10-18 16:11:37 222人关注

巨人网络联手清华大学首创DiaMoE-TTS，开源多方言语音合成大模型框架

巨人网络AI Lab与清华大学电子工程系SATLab研究团队近日联合发布一项重大突破:首创多方言语音合成大模型框架DiaMoE-TTS，并宣布将数据、代码、方法全方位开源，旨在推动方言语音合成的公平与普惠。

AI

2025-10-16 18:27:21 185人关注

火山引擎发布四款强大大模型，语音合成与复刻功能再升级

在今天的 FORCE LINK AI 创新巡展武汉站活动中，火山引擎正式推出了四款全新或升级的豆包大模型。这些模型包括豆包大模型1.6的升级版、豆包大模型1.6lite，以及全新发布的豆包语音合成模型2.0和豆包声音复刻模型2.0。此次升级不仅提升了模型的智能化水平，也为企业用户提供了更灵活的选择。

AI

2025-09-11 17:15:19 680人关注

B 站开源文本转语音模型IndexTTS-2.0，情感与时长可控

近日，哔哩哔哩（B 站）Index 团队宣布全面开源其自主研发的文本转语音(TTS)系统 ——IndexTTS-2.0。该系统具有情感可控和时长可调的特点，标志着零样本 TTS 技术的实用化迈出了重要一步。

IndexTTS-2.0开源零样本TTS技术情感可控语音合成时长可调TTS系统哔哩哔哩Index团队文本转语音开源项目

2025-08-26 18:43:21 811人关注

微软开源VibeVoice TTS模型：90分钟超长语音，可4人对话，中文效果惊艳！

近日，微软推出了一款备受瞩目的开源文本转语音（TTS）模型——VibeVoice，引发了AI语音技术领域的高度关注。这款模型以其强大的功能和卓越的性能，为长篇语音生成、多人对话以及中文语音合成树立了新的标杆。以下，AIbase将为您详细解析VibeVoice的亮点与潜力。

开源TTS模型 VibeVoice语音合成微软AI语音技术文本转语音模型中文语音合成技术多人对话语音生成

2025-08-26 10:19:19 516人关注

微软开源 VibeVoice-1.5B 模型：90 分钟超长语音合成新突破

近日，微软研究院正式开源了其最新音频模型 ——VibeVoice-1.5B。该模型在语音合成技术上实现了多项重大突破，使得合成的语音更自然、时长更长、效果更优。

微软音频模型开源 VibeVoice-1.5B 语音合成技术突破自然语音合成长音频合成微软研究院音频模型

2025-08-09 14:45:35 388人关注

FlowSpeech：全球首个书面语转口语的 TTS

人工智能语音合成技术迎来新突破。一款名为FlowSpeech的AI文本转语音工具正式发布，其独特之处在于能够将书面文字转换为自然流畅的口语表达，为用户提供更贴近真实对话的语音合成体验。

AI语音合成 FlowSpeech 文本转语音工具自然流畅语音合成 AI口语表达技术

2025-08-01 18:14:43 451人关注

MOSS-TTSD震撼开源:百万小时训练打造AI播客新王者

由清华大学语音与语言实验室（Tencent AI Lab）联合上海创智学院、复旦大学和模思智能打造的MOSS-TTSD(Text to Spoken Dialogue)近日正式开源，标志着AI语音合成技术在对话场景中的重大突破。

AI语音合成语音对话技术 MOSS-TTSD开源清华大学语音与语言实验室 Tencent AI Lab 语音合成文本转语音对话系统

2025-07-24 13:18:43 621人关注

李沐团队发布 Higgs Audio v2，开创语音合成新纪元

知名 AI 创业者李沐与他的团队 Boson.ai 最近推出了全新的开源文本转语音（TTS）大模型 ——Higgs Audio v2。这款模型不仅可以将文本转换为语音，还具备多语言对话生成、韵律自动调整和声音克隆等多种功能，堪称语音合成领域的一次重大突破。

开源文本转语音模型 Higgs Audio v2 功能语音合成技术突破多语言对话生成韵律自动调整声音克隆技术

2025-07-04 16:25:14 584人关注

开源革命！Kyutai TTS发布：超低延迟语音合成，AI语音新纪元来袭！

近日，法国AI实验室Kyutai宣布，其全新文本转语音模型 Kyutai TTS 正式开源，为全球开发者与研究者带来了一款高性能、低延迟的语音合成解决方案。这一突破性发布不仅推动了开源AI技术的发展，也为多语言语音交互应用开辟了新的可能性。AIbase为您独家解析这一技术亮点及其潜在影响。

Kyutai TTS 文本转语音模型开源语音合成 AI语音交互多语言语音合成 AI开源技术

2025-07-01 16:32:16 803人关注

Qwen-TTS重磅发布：方言语音合成新突破，真实感媲美真人

昨日，阿里巴巴通义团队正式推出了Qwen-TTS模型，这款文本转语音（TTS）模型以其超高真实感和多方言支持引发行业热议。AIbase编辑团队整理最新信息，为您深入解析这款通过Qwen API提供服务的语音合成利器，及其在AI语音技术领域的突破性意义。

阿里巴巴通义 Qwen-TTS模型文本转语音技术 AI语音合成多方言TTS Qwen API服务

2025-07-01 10:14:21 481人关注

Qwen-TTS新版发布新增支持生成三种中文方言

近日，一款名为Qwen-TTS的语音合成模型有了新进展，其通过Qwen API完成了最新版本的更新，为用户带来了更加丰富的语音合成体验。

Qwen-TTS 语音合成模型 Qwen API 语音合成体验 Qwen-TTS最新版本

2025-06-12 09:44:30 759人关注

字节火山引擎发布豆包·语音播客模型和豆包・实时语音模型

字节跳动火山引擎发布了两款全新的豆包语音大模型，旨在提升语音识别和语音生成的智能水平。这两款模型分别是豆包・语音播客模型和豆包・实时语音模型，均在多项技术指标上实现了显著的突破。

火山引擎抖音播客语音模型字节跳动AI技术语音合成技术

2025-06-05 16:20:14 589人关注

腾讯混元开源语音数字人模型HunyuanVideo-Avatar:图+音频，让图中的主角说话唱。

腾讯发布了一款创新技术 ——HunyuanVideo-Avatar 语音数字人模型，并将其开源。这一技术能够仅凭一张图片和一段音频，生成自然、真实的数字人说话或唱歌视频，标志着短视频创作进入了全新阶段。

腾讯混元视频虚拟人语音合成虚拟人唱歌 AI虚拟人技术腾讯AI大模型应用

2025-06-04 12:17:30 885人关注

B站文本转语音模型IndexTTS ：支持拼音纠正汉字发音、精准控制停顿

B站的一款基于 XTTS 和 Tortoise 的 GPT 风格文本转语音（TTS）模型 IndexTTS 正式发布。该系统在处理中文文本时，具备独特的拼音纠正汉字发音能力，并能够通过标点符号在任意位置精准控制停顿。这一创新的技术使得文本转语音的效果更加自然流畅，受到了广泛关注。

bilibili文本转语音模型 IndexTTS 拼音校正技术语音合成技术文本转语音优化

2025-05-11 16:18:31 235人关注

Spotify与ElevenLabs合作推出AI朗读有声书选项

在周四，Spotify 宣布与 ElevenLabs 达成合作，正式接受使用该公司 AI 语音技术朗读的有声书。作为目前最受认可的 AI 音频提供商之一，这项新伙伴关系预计将显著增加平台上 AI 朗读有声书的数量。

Spotify ElevenLabs AI有声书 AI生成有声读物 Spotify AI音频技术 AI语音合成应用

2025-04-03 10:27:16 687人关注

字节跳动在Hugging Face发布MegaTTS3：轻量化语音合成新突破

北京——字节跳动（ByteDance）近日在人工智能开源社区Hugging Face上正式发布了其最新的文本转语音（TTS）模型MegaTTS3。这一发布迅速引起了全球AI研究者和开发者的关注，因其在轻量化设计和多语言支持方面的突破性表现。根据技术社区反馈和官方信息，MegaTTS3 被誉为语音合成领域的一次重要进步。

字节跳动 Hugging Face MegatTS3 AI大模型大模型技术大模型开源项目

2025-03-25 16:26:10 293人关注

ZyphraAI 开源 Zonos-TTS:支持实时语音克隆和多语言情感控制

ZyphraAI 近日发布了其最新的多语言文本到语音（TTS）模型 Zonos-TTS，该模型基于 Apache2.0许可证，完全开源且可商用。Zonos-TTS 不仅支持实时语音克隆功能，还经过20万小时的英语语音数据训练，表现出卓越的性能。

开源语音克隆实时语音克隆技术 ZYPHRAI开源项目 ZONOS TTS 语音合成技术

2025-03-15 10:12:14 593人关注

Sesame发布CSM模型：实时情感定制 AI语音合成迈向新高度

3月13日，Sesame公司推出其最新语音合成模型CSM，引发业界关注。据官方介绍，CSM采用端到端基于Transformer的多模态学习架构，能够理解上下文信息，生成自然且富有情感的语音，声音效果贴近真人，令人惊艳。

实时情绪AI 语音情感识别芝麻CSM模型 AI语音技术情感计算模型

- 上云资讯 -

Qwen3-TTS 升级：多样化声音让语音合成更自然

延迟低于250毫秒！MiniMax Speech 2.6发布，Fluent LoRA一键复刻任意音色，语音合成迈入实时交互时代

巨人网络联手清华大学首创DiaMoE-TTS，开源多方言语音合成大模型框架

火山引擎发布四款强大大模型，语音合成与复刻功能再升级

B 站开源文本转语音模型IndexTTS-2.0，情感与时长可控

微软开源VibeVoice TTS模型：90分钟超长语音，可4人对话，中文效果惊艳！

微软开源 VibeVoice-1.5B 模型：90 分钟超长语音合成新突破

FlowSpeech：全球首个书面语转口语的 TTS

MOSS-TTSD震撼开源:百万小时训练打造AI播客新王者

李沐团队发布 Higgs Audio v2，开创语音合成新纪元

开源革命！Kyutai TTS发布：超低延迟语音合成，AI语音新纪元来袭！

Qwen-TTS重磅发布：方言语音合成新突破，真实感媲美真人

Qwen-TTS新版发布新增支持生成三种中文方言

字节火山引擎发布豆包·语音播客模型和豆包・实时语音模型

腾讯混元开源语音数字人模型HunyuanVideo-Avatar:图+音频，让图中的主角说话唱。

B站文本转语音模型IndexTTS ：支持拼音纠正汉字发音、精准控制停顿

Spotify与ElevenLabs合作推出AI朗读有声书选项

字节跳动在Hugging Face发布MegaTTS3：轻量化语音合成新突破

ZyphraAI 开源 Zonos-TTS:支持实时语音克隆和多语言情感控制

Sesame发布CSM模型：实时情感定制 AI语音合成迈向新高度

推荐阅读

上云服务

- 上云资讯 -

Qwen3-TTS 升级：多样化声音让语音合成更自然

延迟低于250毫秒！MiniMax Speech 2.6发布，Fluent LoRA一键复刻任意音色，语音合成迈入实时交互时代

巨人网络联手清华大学首创DiaMoE-TTS，开源多方言语音合成大模型框架

火山引擎发布四款强大大模型，语音合成与复刻功能再升级

​B 站开源文本转语音模型IndexTTS-2.0，情感与时长可控

微软开源VibeVoice TTS模型：90分钟超长语音，可4人对话，中文效果惊艳！

微软开源 VibeVoice-1.5B 模型：90 分钟超长语音合成新突破

FlowSpeech：全球首个书面语转口语的 TTS

MOSS-TTSD震撼开源:百万小时训练打造AI播客新王者

李沐团队发布 Higgs Audio v2，开创语音合成新纪元

开源革命！Kyutai TTS发布：超低延迟语音合成，AI语音新纪元来袭！

Qwen-TTS重磅发布：方言语音合成新突破，真实感媲美真人

Qwen-TTS新版发布 新增支持生成三种中文方言

​字节火山引擎发布豆包·语音播客模型和豆包・实时语音模型

腾讯混元开源语音数字人模型HunyuanVideo-Avatar:图+音频，让图中的主角说话唱。

B站文本转语音模型IndexTTS ：支持拼音纠正汉字发音、精准控制停顿

Spotify与ElevenLabs合作 推出AI朗读有声书选项

字节跳动在Hugging Face发布MegaTTS3：轻量化语音合成新突破

ZyphraAI 开源 Zonos-TTS:支持实时语音克隆和多语言情感控制

Sesame发布CSM模型：实时情感定制 AI语音合成迈向新高度

推荐阅读

上云服务

B 站开源文本转语音模型IndexTTS-2.0，情感与时长可控

Qwen-TTS新版发布新增支持生成三种中文方言

字节火山引擎发布豆包·语音播客模型和豆包・实时语音模型

Spotify与ElevenLabs合作推出AI朗读有声书选项