上云资讯 - 来上云吧，企业上云一站式服务

2025-11-12 12:44:18 215人关注

全新开源语音模型 Maya1：实现实时、富有表现力的文本转语音

Maya Research 最近发布了 Maya1，这是一个具有30亿参数的文本转语音模型。它能够将文本和简短描述转化为可控、富有表现力的语音，并能在单个 GPU 上实时运行。Maya1的核心功能在于能够捕捉真实人类情感以及精确的声音设计。

AI

2025-09-11 17:15:19 681人关注

B 站开源文本转语音模型IndexTTS-2.0，情感与时长可控

近日，哔哩哔哩（B 站）Index 团队宣布全面开源其自主研发的文本转语音(TTS)系统 ——IndexTTS-2.0。该系统具有情感可控和时长可调的特点，标志着零样本 TTS 技术的实用化迈出了重要一步。

IndexTTS-2.0开源零样本TTS技术情感可控语音合成时长可调TTS系统哔哩哔哩Index团队文本转语音开源项目

2025-08-26 18:43:21 812人关注

微软开源VibeVoice TTS模型：90分钟超长语音，可4人对话，中文效果惊艳！

近日，微软推出了一款备受瞩目的开源文本转语音（TTS）模型——VibeVoice，引发了AI语音技术领域的高度关注。这款模型以其强大的功能和卓越的性能，为长篇语音生成、多人对话以及中文语音合成树立了新的标杆。以下，AIbase将为您详细解析VibeVoice的亮点与潜力。

开源TTS模型 VibeVoice语音合成微软AI语音技术文本转语音模型中文语音合成技术多人对话语音生成

2025-08-09 14:45:35 389人关注

FlowSpeech：全球首个书面语转口语的 TTS

人工智能语音合成技术迎来新突破。一款名为FlowSpeech的AI文本转语音工具正式发布，其独特之处在于能够将书面文字转换为自然流畅的口语表达，为用户提供更贴近真实对话的语音合成体验。

AI语音合成 FlowSpeech 文本转语音工具自然流畅语音合成 AI口语表达技术

2025-08-01 18:14:43 452人关注

MOSS-TTSD震撼开源:百万小时训练打造AI播客新王者

由清华大学语音与语言实验室（Tencent AI Lab）联合上海创智学院、复旦大学和模思智能打造的MOSS-TTSD(Text to Spoken Dialogue)近日正式开源，标志着AI语音合成技术在对话场景中的重大突破。

AI语音合成语音对话技术 MOSS-TTSD开源清华大学语音与语言实验室 Tencent AI Lab 语音合成文本转语音对话系统

2025-07-24 13:18:43 622人关注

李沐团队发布 Higgs Audio v2，开创语音合成新纪元

知名 AI 创业者李沐与他的团队 Boson.ai 最近推出了全新的开源文本转语音（TTS）大模型 ——Higgs Audio v2。这款模型不仅可以将文本转换为语音，还具备多语言对话生成、韵律自动调整和声音克隆等多种功能，堪称语音合成领域的一次重大突破。

开源文本转语音模型 Higgs Audio v2 功能语音合成技术突破多语言对话生成韵律自动调整声音克隆技术

2025-07-04 16:25:14 586人关注

开源革命！Kyutai TTS发布：超低延迟语音合成，AI语音新纪元来袭！

近日，法国AI实验室Kyutai宣布，其全新文本转语音模型 Kyutai TTS 正式开源，为全球开发者与研究者带来了一款高性能、低延迟的语音合成解决方案。这一突破性发布不仅推动了开源AI技术的发展，也为多语言语音交互应用开辟了新的可能性。AIbase为您独家解析这一技术亮点及其潜在影响。

Kyutai TTS 文本转语音模型开源语音合成 AI语音交互多语言语音合成 AI开源技术

2025-07-01 16:32:16 804人关注

Qwen-TTS重磅发布：方言语音合成新突破，真实感媲美真人

昨日，阿里巴巴通义团队正式推出了Qwen-TTS模型，这款文本转语音（TTS）模型以其超高真实感和多方言支持引发行业热议。AIbase编辑团队整理最新信息，为您深入解析这款通过Qwen API提供服务的语音合成利器，及其在AI语音技术领域的突破性意义。

阿里巴巴通义 Qwen-TTS模型文本转语音技术 AI语音合成多方言TTS Qwen API服务

2025-06-04 12:17:30 891人关注

B站文本转语音模型IndexTTS ：支持拼音纠正汉字发音、精准控制停顿

B站的一款基于 XTTS 和 Tortoise 的 GPT 风格文本转语音（TTS）模型 IndexTTS 正式发布。该系统在处理中文文本时，具备独特的拼音纠正汉字发音能力，并能够通过标点符号在任意位置精准控制停顿。这一创新的技术使得文本转语音的效果更加自然流畅，受到了广泛关注。

bilibili文本转语音模型 IndexTTS 拼音校正技术语音合成技术文本转语音优化

2025-02-27 10:18:22 301人关注

Hume推出革命性文本转语音系统Octave：能理解情感与上下文

在人工智能领域，Hume AI公司最近宣布推出其全新产品Octave，这一系统被称为首个由大型语言模型（LLM）驱动的文本转语音系统。Octave的创新之处在于其不仅能够生成自然的语音，还能理解上下文中的情感、语调、节奏和韵律，从而为用户提供更为生动和人性化的语音输出。

Hume AI 文本转语音技术 Octave模型语音合成革命 Hume AI应用场景 Hume AI技术突破

2025-01-17 22:27:44 286人关注

OpenAI在开发者Playground中添加了文本转语音 API

OpenAI将文本转语音 API 添加到了开发者Playground 中，这个更新让开发者的工作变得更加轻松，只需简单地输入文本消息，就能在六种预设的声音中选择，生成音频。

OpenAI文本转语音API OpenAI TTS API 文本转语音技术 OpenAI语音合成 OpenAI API应用

2025-01-15 10:23:38 1162人关注

小型文本转语音模型Kokoro-TTS，曾拿下TTS排行榜第一

在人工智能的快速发展中，语音合成技术正日益受到关注。近日，名为 Kokoro 的最新语音合成模型在 Hugging Face 平台上正式发布，该模型具有8200万参数，标志着语音合成领域的一个重要里程碑。

小文本语音模型 Kokoro TTS 语音合成技术小型TTS模型语音模型应用场景

2025-01-03 20:36:44 850人关注

Fish Speech 1.4发布:开源TTS模型迎来多语言突破

Fish Speech1.4版本的发布标志着这款开源文本转语音（TTS）模型在多语言支持和性能方面取得了重大突破。作为一个致力于提供高质量、自然流畅语音合成体验的创新解决方案，Fish Speech在这次更新中展现了其强大的技术实力和广阔的应用前景。

Fish Speech 1.4 多语言TTS 语音合成技术文本转语音更新 Fish Speech新版本

2025-01-02 21:21:33 322人关注

腾讯出品！AI音频模型 EzAudio AI，让文本秒变逼真声音

近日，约翰霍普金斯大学与腾讯 AI 实验室联合推出了一款名为 EzAudio 的新型文本到音频生成模型。这项技术承诺以空前的效率和高品质文本转换为声音，标志着人工智能和音频技术的重大飞跃。

腾讯EZAUDIO AI语音合成文本转语音技术 AI语音生成腾讯AI语音技术

2024-12-28 15:37:24 514人关注

告别繁琐对齐！F5-TTS 让文本转语音变得轻松自如！

最近，来自上海交通大学、剑桥大学和吉利汽车研究院的研究团队推出了一种全新的文本到语音（TTS）系统，名为 F5-TTS。这种系统的特别之处在于，它采用了一种无自回归的方法，结合了流匹配与扩散变换器(DiT)，成功简化了传统 TTS 模型中的复杂步骤。

F5 TTS 文本转语音技术 TTS技术应用 F5 TTS告别语音合成技术

2024-12-22 03:30:40 245人关注

超快速文本转语音模型Lightning：超低延迟， 100毫秒生成10秒音频

近日，总部位于美国加州旧金山的 AI 初创公司 smallest.ai 推出了其新产品 Lightning，一款能够在100毫秒内生成长达10秒音频的文本转语音（TTS）模型。此项技术的进步，使得全球开发者能够构建高仿真度的语音机器人应用，且延迟时间极短，降低了实施成本，提高了应用的可及性。

闪电文本转语音模型 100ms音频生成快速TTS模型文本转语音技术低延迟语音合成

2024-12-22 01:21:32 221人关注

OuteTTS-0.1-350M:一种新颖的文本转语音合成方法，具有零样本语音克隆功能

近日，Oute AI 发布了一种新颖的文本转语音合成方法，称为 OuteTTS-0.1-350M。这种方法利用纯语言建模，无需外部适配器或复杂架构，提供了一种简化的 TTS 方法。OuteTTS-0.1-350M 基于 LLaMa 架构，使用 WavTokenizer 直接生成音频标记，使得流程更加高效。

文本转语音零样本语音克隆 TTS技术语音合成 AI语音克隆 350M模型

- 上云资讯 -

全新开源语音模型 Maya1：实现实时、富有表现力的文本转语音

B 站开源文本转语音模型IndexTTS-2.0，情感与时长可控

微软开源VibeVoice TTS模型：90分钟超长语音，可4人对话，中文效果惊艳！

FlowSpeech：全球首个书面语转口语的 TTS

MOSS-TTSD震撼开源:百万小时训练打造AI播客新王者

李沐团队发布 Higgs Audio v2，开创语音合成新纪元

开源革命！Kyutai TTS发布：超低延迟语音合成，AI语音新纪元来袭！

Qwen-TTS重磅发布：方言语音合成新突破，真实感媲美真人

B站文本转语音模型IndexTTS ：支持拼音纠正汉字发音、精准控制停顿

Hume推出革命性文本转语音系统Octave：能理解情感与上下文

OpenAI在开发者Playground中添加了文本转语音 API

小型文本转语音模型Kokoro-TTS，曾拿下TTS排行榜第一

Fish Speech 1.4发布:开源TTS模型迎来多语言突破

腾讯出品！AI音频模型 EzAudio AI，让文本秒变逼真声音

告别繁琐对齐！F5-TTS 让文本转语音变得轻松自如！

超快速文本转语音模型Lightning：超低延迟， 100毫秒生成10秒音频

OuteTTS-0.1-350M:一种新颖的文本转语音合成方法，具有零样本语音克隆功能

推荐阅读

上云服务

- 上云资讯 -

全新开源语音模型 Maya1：实现实时、富有表现力的文本转语音

​B 站开源文本转语音模型IndexTTS-2.0，情感与时长可控

微软开源VibeVoice TTS模型：90分钟超长语音，可4人对话，中文效果惊艳！

FlowSpeech：全球首个书面语转口语的 TTS

MOSS-TTSD震撼开源:百万小时训练打造AI播客新王者

李沐团队发布 Higgs Audio v2，开创语音合成新纪元

开源革命！Kyutai TTS发布：超低延迟语音合成，AI语音新纪元来袭！

Qwen-TTS重磅发布：方言语音合成新突破，真实感媲美真人

B站文本转语音模型IndexTTS ：支持拼音纠正汉字发音、精准控制停顿

Hume推出革命性文本转语音系统Octave：能理解情感与上下文

OpenAI在开发者Playground中添加了文本转语音 API

小型文本转语音模型Kokoro-TTS，曾拿下TTS排行榜第一

Fish Speech 1.4发布:开源TTS模型迎来多语言突破

腾讯出品！AI音频模型 EzAudio AI，让文本秒变逼真声音

告别繁琐对齐！F5-TTS 让文本转语音变得轻松自如！

超快速文本转语音模型Lightning：超低延迟， 100毫秒生成10秒音频

OuteTTS-0.1-350M:一种新颖的文本转语音合成方法，具有零样本语音克隆功能

推荐阅读

上云服务

B 站开源文本转语音模型IndexTTS-2.0，情感与时长可控