- 上云资讯 -
2025-06-04 12:17:30 42人关注
B站文本转语音模型IndexTTS :支持拼音纠正汉字发音、精准控制停顿
B站的一款基于 XTTS 和 Tortoise 的 GPT 风格文本转语音(TTS)模型 IndexTTS 正式发布。该系统在处理中文文本时,具备独特的拼音纠正汉字发音能力,并能够通过标点符号在任意位置精准控制停顿。这一创新的技术使得文本转语音的效果更加自然流畅,受到了广泛关注。
2025-05-11 16:18:31 41人关注
Spotify与ElevenLabs合作 推出AI朗读有声书选项
在周四,Spotify 宣布与 ElevenLabs 达成合作,正式接受使用该公司 AI 语音技术朗读的有声书。作为目前最受认可的 AI 音频提供商之一,这项新伙伴关系预计将显著增加平台上 AI 朗读有声书的数量。
2025-03-25 16:26:10 58人关注
ZyphraAI 开源 Zonos-TTS:支持实时语音克隆和多语言情感控制
ZyphraAI 近日发布了其最新的多语言文本到语音(TTS)模型 Zonos-TTS,该模型基于 Apache2.0许可证,完全开源且可商用。Zonos-TTS 不仅支持实时语音克隆功能,还经过20万小时的英语语音数据训练,表现出卓越的性能。
2025-02-27 10:18:22 82人关注
Hume推出革命性文本转语音系统Octave:能理解情感与上下文
在人工智能领域,Hume AI公司最近宣布推出其全新产品Octave,这一系统被称为首个由大型语言模型(LLM)驱动的文本转语音系统。Octave的创新之处在于其不仅能够生成自然的语音,还能理解上下文中的情感、语调、节奏和韵律,从而为用户提供更为生动和人性化的语音输出。
2025-02-26 16:19:12 61人关注
ElevenLabs向所有作家开放AI有声读物出版计划,与Audible竞争
据TechCrunch消息,语音AI公司ElevenLabs现已允许作者在其阅读器应用上发布AI生成的有声读物,此前该公司与Spotify合作推出AI叙述有声读物。
ElevenLabs AI Audiobook publishing Audible competition AI有声书出版 AI语音合成技术
2025-01-23 12:22:13 100人关注
闪速!ElevenLabs推Flash语音对话模型:仅75毫秒延迟 支持32种语言
ElevenLabs 于近日正式推出其最新的人声合成模型 Flash,声称这是迄今为止最快的文本转语音(TTS)解决方案,生成语音的延迟仅为75毫秒(加上应用和网络延迟)。Flash 特别适合低延迟的对话式语音助手,用户可以在 ElevenLabs 的对话 AI 平台上立即体验这一新功能。
2025-01-15 10:23:38 434人关注
小型文本转语音模型Kokoro-TTS,曾拿下TTS排行榜第一
在人工智能的快速发展中,语音合成技术正日益受到关注。近日,名为 Kokoro 的最新语音合成模型在 Hugging Face 平台上正式发布,该模型具有8200万参数,标志着语音合成领域的一个重要里程碑。
2024-12-22 01:21:32 43人关注
OuteTTS-0.1-350M:一种新颖的文本转语音合成方法,具有零样本语音克隆功能
近日,Oute AI 发布了一种新颖的文本转语音合成方法,称为 OuteTTS-0.1-350M。这种方法利用纯语言建模,无需外部适配器或复杂架构,提供了一种简化的 TTS 方法。OuteTTS-0.1-350M 基于 LLaMa 架构,使用 WavTokenizer 直接生成音频标记,使得流程更加高效。
2024-12-09 16:14:10 2797人关注
海螺AI海外版上线超强AI语音克隆功能 60秒内复刻你的声音
最近,中文 AI 语音克隆技术迎来了一个突破性进展。海螺 AI 海外版推出的音频克隆模块,只需10到60秒的音频样本,便能完美复刻用户的声音。