- 上云资讯 -
2025-09-11 17:15:19 51人关注
B 站开源文本转语音模型IndexTTS-2.0,情感与时长可控
近日,哔哩哔哩(B 站)Index 团队宣布全面开源其自主研发的文本转语音(TTS)系统 ——IndexTTS-2.0。该系统具有情感可控和时长可调的特点,标志着零样本 TTS 技术的实用化迈出了重要一步。
IndexTTS-2.0开源 零样本TTS技术 情感可控语音合成 时长可调TTS系统 哔哩哔哩Index团队 文本转语音开源项目
2025-08-09 14:45:35 96人关注
FlowSpeech:全球首个书面语转口语的 TTS
人工智能语音合成技术迎来新突破。一款名为FlowSpeech的AI文本转语音工具正式发布,其独特之处在于能够将书面文字转换为自然流畅的口语表达,为用户提供更贴近真实对话的语音合成体验。
2025-08-01 18:14:43 134人关注
MOSS-TTSD震撼开源:百万小时训练打造AI播客新王者
由清华大学语音与语言实验室(Tencent AI Lab)联合上海创智学院、复旦大学和模思智能打造的MOSS-TTSD(Text to Spoken Dialogue)近日正式开源,标志着AI语音合成技术在对话场景中的重大突破。
AI语音合成 语音对话技术 MOSS-TTSD开源 清华大学语音与语言实验室 Tencent AI Lab 语音合成 文本转语音对话系统
2025-07-01 16:32:16 368人关注
Qwen-TTS重磅发布:方言语音合成新突破,真实感媲美真人
昨日,阿里巴巴通义团队正式推出了Qwen-TTS模型,这款文本转语音(TTS)模型以其超高真实感和多方言支持引发行业热议。AIbase编辑团队整理最新信息,为您深入解析这款通过Qwen API提供服务的语音合成利器,及其在AI语音技术领域的突破性意义。
2025-07-01 10:14:21 263人关注
Qwen-TTS新版发布 新增支持生成三种中文方言
近日,一款名为Qwen-TTS的语音合成模型有了新进展,其通过Qwen API完成了最新版本的更新,为用户带来了更加丰富的语音合成体验。
2025-06-04 12:17:30 344人关注
B站文本转语音模型IndexTTS :支持拼音纠正汉字发音、精准控制停顿
B站的一款基于 XTTS 和 Tortoise 的 GPT 风格文本转语音(TTS)模型 IndexTTS 正式发布。该系统在处理中文文本时,具备独特的拼音纠正汉字发音能力,并能够通过标点符号在任意位置精准控制停顿。这一创新的技术使得文本转语音的效果更加自然流畅,受到了广泛关注。
2025-05-11 16:18:31 109人关注
Spotify与ElevenLabs合作 推出AI朗读有声书选项
在周四,Spotify 宣布与 ElevenLabs 达成合作,正式接受使用该公司 AI 语音技术朗读的有声书。作为目前最受认可的 AI 音频提供商之一,这项新伙伴关系预计将显著增加平台上 AI 朗读有声书的数量。
2025-03-25 16:26:10 162人关注
ZyphraAI 开源 Zonos-TTS:支持实时语音克隆和多语言情感控制
ZyphraAI 近日发布了其最新的多语言文本到语音(TTS)模型 Zonos-TTS,该模型基于 Apache2.0许可证,完全开源且可商用。Zonos-TTS 不仅支持实时语音克隆功能,还经过20万小时的英语语音数据训练,表现出卓越的性能。
2025-02-27 10:18:22 147人关注
Hume推出革命性文本转语音系统Octave:能理解情感与上下文
在人工智能领域,Hume AI公司最近宣布推出其全新产品Octave,这一系统被称为首个由大型语言模型(LLM)驱动的文本转语音系统。Octave的创新之处在于其不仅能够生成自然的语音,还能理解上下文中的情感、语调、节奏和韵律,从而为用户提供更为生动和人性化的语音输出。
2025-02-26 16:19:12 156人关注
ElevenLabs向所有作家开放AI有声读物出版计划,与Audible竞争
据TechCrunch消息,语音AI公司ElevenLabs现已允许作者在其阅读器应用上发布AI生成的有声读物,此前该公司与Spotify合作推出AI叙述有声读物。
ElevenLabs AI Audiobook publishing Audible competition AI有声书出版 AI语音合成技术
2025-01-23 12:22:13 195人关注
闪速!ElevenLabs推Flash语音对话模型:仅75毫秒延迟 支持32种语言
ElevenLabs 于近日正式推出其最新的人声合成模型 Flash,声称这是迄今为止最快的文本转语音(TTS)解决方案,生成语音的延迟仅为75毫秒(加上应用和网络延迟)。Flash 特别适合低延迟的对话式语音助手,用户可以在 ElevenLabs 的对话 AI 平台上立即体验这一新功能。