上云资讯 - 来上云吧，企业上云一站式服务

2025-08-26 18:43:21 812人关注

微软开源VibeVoice TTS模型：90分钟超长语音，可4人对话，中文效果惊艳！

近日，微软推出了一款备受瞩目的开源文本转语音（TTS）模型——VibeVoice，引发了AI语音技术领域的高度关注。这款模型以其强大的功能和卓越的性能，为长篇语音生成、多人对话以及中文语音合成树立了新的标杆。以下，AIbase将为您详细解析VibeVoice的亮点与潜力。

开源TTS模型 VibeVoice语音合成微软AI语音技术文本转语音模型中文语音合成技术多人对话语音生成

2025-08-26 10:19:19 517人关注

微软开源 VibeVoice-1.5B 模型：90 分钟超长语音合成新突破

近日，微软研究院正式开源了其最新音频模型 ——VibeVoice-1.5B。该模型在语音合成技术上实现了多项重大突破，使得合成的语音更自然、时长更长、效果更优。

微软音频模型开源 VibeVoice-1.5B 语音合成技术突破自然语音合成长音频合成微软研究院音频模型

2025-07-24 13:18:43 622人关注

李沐团队发布 Higgs Audio v2，开创语音合成新纪元

知名 AI 创业者李沐与他的团队 Boson.ai 最近推出了全新的开源文本转语音（TTS）大模型 ——Higgs Audio v2。这款模型不仅可以将文本转换为语音，还具备多语言对话生成、韵律自动调整和声音克隆等多种功能，堪称语音合成领域的一次重大突破。

开源文本转语音模型 Higgs Audio v2 功能语音合成技术突破多语言对话生成韵律自动调整声音克隆技术

2025-06-12 09:44:30 759人关注

字节火山引擎发布豆包·语音播客模型和豆包・实时语音模型

字节跳动火山引擎发布了两款全新的豆包语音大模型，旨在提升语音识别和语音生成的智能水平。这两款模型分别是豆包・语音播客模型和豆包・实时语音模型，均在多项技术指标上实现了显著的突破。

火山引擎抖音播客语音模型字节跳动AI技术语音合成技术

2025-06-04 12:17:30 889人关注

B站文本转语音模型IndexTTS ：支持拼音纠正汉字发音、精准控制停顿

B站的一款基于 XTTS 和 Tortoise 的 GPT 风格文本转语音（TTS）模型 IndexTTS 正式发布。该系统在处理中文文本时，具备独特的拼音纠正汉字发音能力，并能够通过标点符号在任意位置精准控制停顿。这一创新的技术使得文本转语音的效果更加自然流畅，受到了广泛关注。

bilibili文本转语音模型 IndexTTS 拼音校正技术语音合成技术文本转语音优化

2025-03-25 16:26:10 293人关注

ZyphraAI 开源 Zonos-TTS:支持实时语音克隆和多语言情感控制

ZyphraAI 近日发布了其最新的多语言文本到语音（TTS）模型 Zonos-TTS，该模型基于 Apache2.0许可证，完全开源且可商用。Zonos-TTS 不仅支持实时语音克隆功能，还经过20万小时的英语语音数据训练，表现出卓越的性能。

开源语音克隆实时语音克隆技术 ZYPHRAI开源项目 ZONOS TTS 语音合成技术

2025-02-26 16:19:12 297人关注

ElevenLabs向所有作家开放AI有声读物出版计划，与Audible竞争

据TechCrunch消息，语音AI公司ElevenLabs现已允许作者在其阅读器应用上发布AI生成的有声读物，此前该公司与Spotify合作推出AI叙述有声读物。

ElevenLabs AI Audiobook publishing Audible competition AI有声书出版 AI语音合成技术

2025-01-15 10:23:38 1162人关注

小型文本转语音模型Kokoro-TTS，曾拿下TTS排行榜第一

在人工智能的快速发展中，语音合成技术正日益受到关注。近日，名为 Kokoro 的最新语音合成模型在 Hugging Face 平台上正式发布，该模型具有8200万参数，标志着语音合成领域的一个重要里程碑。

小文本语音模型 Kokoro TTS 语音合成技术小型TTS模型语音模型应用场景

2025-01-13 09:13:23 568人关注

未来已来!阿里新语音技术CosyVoice让AI说话更有人味儿

近日，阿里巴巴推出的最新语音合成模型CosyVoice，以其令人惊叹的逼真度和灵活性，为我们展示了未来人机交互的美好蓝图。

阿里云语音AI CosyVoice AI语音技术阿里云语音合成 AI语音合成技术阿里云语音AI应用场景

2025-01-10 19:42:39 1222人关注

机器人也能说地道方言！首个普通话方言混说TTS大模型Bailing-TTS来了

随着科技的不断进步，人工智能已经不仅仅是一个冷冰冰的机器，它正在变得越来越像我们人类。想象一下，当你的智能助手不仅能说一口流利的普通话，还能用你熟悉的家乡话与你交流，那将是一种多么亲切的体验。Bailing-TTS技术的出现，正在将想象变为现实。

百灵TTS 普通话方言模型 TTS模型语音合成技术方言语音合成百灵语音合成

2025-01-09 12:18:21 520人关注

ChatTTS-OpenVoice：一款开源的个性化语音生成项目

近日，一款名为ChatTTS-OpenVoice的个性化语音生成项目在互联网上引起了轰动。

OpenVoice TTS 语音合成技术 TTS项目 OpenVoice技术解析语音合成开源项目

2025-01-04 19:20:30 319人关注

Audible 推出 AI 生成有声读物，叙述者将训练并参与创作

亚马逊的有声读物业务Audible于周一宣布，将使用经过专业叙述者声音训练的人工智能技术生成新的有声读物录音。Audible计划从本周开始，邀请一批美国专业有声读物叙述者参与AI声音训练项目。

AI有声书 AI生成有声书 AI语音合成技术 AI有声书制作 AI语音合成应用场景

2025-01-04 17:42:39 357人关注

亚马逊推出新功能：让有声读物解说员用 AI “克隆” 自己

最近，亚马逊宣布将开始邀请一小部分 Audible 有声读物解说员参与一个新的测试项目，目的就是利用 AI 技术来快速制作有声书。

AI语音克隆亚马逊AI有声书 AI有声书旁白 AI语音合成技术 AI克隆技术应用

2025-01-03 20:36:44 850人关注

Fish Speech 1.4发布:开源TTS模型迎来多语言突破

Fish Speech1.4版本的发布标志着这款开源文本转语音（TTS）模型在多语言支持和性能方面取得了重大突破。作为一个致力于提供高质量、自然流畅语音合成体验的创新解决方案，Fish Speech在这次更新中展现了其强大的技术实力和广阔的应用前景。

Fish Speech 1.4 多语言TTS 语音合成技术文本转语音更新 Fish Speech新版本

2025-01-02 22:29:39 444人关注

巨人网络发布自研角色大模型GiantGPT、语音大模型BaiLing-TTS

在2024年云栖大会的开幕式上，巨人网络首次亮相并展出了其在“游戏+AI”领域的最新成果。该公司推出了两款自研的大模型应用——GiantGPT和BaiLing-TTS，同时展示了AI数字人和AI绘画平台巨人摹境等新技术。

巨量网络 GiantGPT 百灵TTS AI大模型语音合成技术

2024-12-28 15:37:24 514人关注

告别繁琐对齐！F5-TTS 让文本转语音变得轻松自如！

最近，来自上海交通大学、剑桥大学和吉利汽车研究院的研究团队推出了一种全新的文本到语音（TTS）系统，名为 F5-TTS。这种系统的特别之处在于，它采用了一种无自回归的方法，结合了流匹配与扩散变换器(DiT)，成功简化了传统 TTS 模型中的复杂步骤。

F5 TTS 文本转语音技术 TTS技术应用 F5 TTS告别语音合成技术

2024-12-24 20:18:20 437人关注

告别配音演员？字节跳动PersonaTalk让AI精准配音，连表情细节都完美还原！

近日，字节跳动开发了一款名为PersonaTalk的AI模型，该模型可以为视频精准配音。

字节跳动AI配音 AI语音合成技术 AI配音应用场景字节跳动AI技术 AI语音生成

2024-12-23 17:18:22 221人关注

OpenAI 重磅升级实时 API：除了降价超50%，还推五种新语音

今天，OpenAI 宣布对其实时 API 进行更新，目前该 API 仍处于测试阶段。这次更新的亮点在于推出了五种新的语音选项，专为语音到语音应用而设计，同时还降低了相关的缓存费用，让开发者在使用时更加经济实惠。

OpenAI API升级 OpenAI新语音功能 AI语音技术更新 API新特性语音合成技术

2024-12-20 08:20:20 243人关注

对标谷歌NotebookLM！语音生成模型PlayDialog：可生成对话播客、旁白

近日，Play AI 正式推出其最具雄心的产品 ——PlayDialog beta版本，能生成对话式的播客音频。

语音生成模型 PlayDialog模型语音合成技术 AI语音生成语音模型应用

2024-12-19 09:29:28 275人关注

微信公众号悄然推出AI音色克隆功能，尚未全量上线

据AI自媒体 “数字生命卡兹克”消息，微信公众号悄然上线了一项新功能 ——AI 音色克隆，旨在提升用户的阅读体验。

微信AI语音克隆公众号AI语音克隆 AI语音克隆技术微信语音克隆应用 AI语音合成技术

- 上云资讯 -

微软开源VibeVoice TTS模型：90分钟超长语音，可4人对话，中文效果惊艳！

微软开源 VibeVoice-1.5B 模型：90 分钟超长语音合成新突破

李沐团队发布 Higgs Audio v2，开创语音合成新纪元

字节火山引擎发布豆包·语音播客模型和豆包・实时语音模型

B站文本转语音模型IndexTTS ：支持拼音纠正汉字发音、精准控制停顿

ZyphraAI 开源 Zonos-TTS:支持实时语音克隆和多语言情感控制

ElevenLabs向所有作家开放AI有声读物出版计划，与Audible竞争

小型文本转语音模型Kokoro-TTS，曾拿下TTS排行榜第一

未来已来!阿里新语音技术CosyVoice让AI说话更有人味儿

机器人也能说地道方言！首个普通话方言混说TTS大模型Bailing-TTS来了

ChatTTS-OpenVoice：一款开源的个性化语音生成项目

Audible 推出 AI 生成有声读物，叙述者将训练并参与创作

亚马逊推出新功能：让有声读物解说员用 AI “克隆” 自己

Fish Speech 1.4发布:开源TTS模型迎来多语言突破

巨人网络发布自研角色大模型GiantGPT、语音大模型BaiLing-TTS

告别繁琐对齐！F5-TTS 让文本转语音变得轻松自如！

告别配音演员？字节跳动PersonaTalk让AI精准配音，连表情细节都完美还原！

OpenAI 重磅升级实时 API：除了降价超50%，还推五种新语音

对标谷歌NotebookLM！语音生成模型PlayDialog：可生成对话播客、旁白

微信公众号悄然推出AI音色克隆功能，尚未全量上线

推荐阅读

上云服务

- 上云资讯 -

微软开源VibeVoice TTS模型：90分钟超长语音，可4人对话，中文效果惊艳！

微软开源 VibeVoice-1.5B 模型：90 分钟超长语音合成新突破

李沐团队发布 Higgs Audio v2，开创语音合成新纪元

​字节火山引擎发布豆包·语音播客模型和豆包・实时语音模型

B站文本转语音模型IndexTTS ：支持拼音纠正汉字发音、精准控制停顿

ZyphraAI 开源 Zonos-TTS:支持实时语音克隆和多语言情感控制

ElevenLabs向所有作家开放AI有声读物出版计划，与Audible竞争

小型文本转语音模型Kokoro-TTS，曾拿下TTS排行榜第一

未来已来!阿里新语音技术CosyVoice让AI说话更有人味儿

机器人也能说地道方言！首个普通话方言混说TTS大模型Bailing-TTS来了

ChatTTS-OpenVoice：一款开源的个性化语音生成项目

Audible 推出 AI 生成有声读物，叙述者将训练并参与创作

亚马逊推出新功能：让有声读物解说员用 AI “克隆” 自己

Fish Speech 1.4发布:开源TTS模型迎来多语言突破

巨人网络发布自研角色大模型GiantGPT、语音大模型BaiLing-TTS

告别繁琐对齐！F5-TTS 让文本转语音变得轻松自如！

告别配音演员？字节跳动PersonaTalk让AI精准配音，连表情细节都完美还原！

OpenAI 重磅升级实时 API：除了降价超50%，还推五种新语音

对标谷歌NotebookLM！语音生成模型PlayDialog：可生成对话播客、旁白

​微信公众号悄然推出AI音色克隆功能，尚未全量上线

推荐阅读

上云服务

字节火山引擎发布豆包·语音播客模型和豆包・实时语音模型

微信公众号悄然推出AI音色克隆功能，尚未全量上线