- 上云资讯 -
2025-06-04 12:17:30 206人关注
B站文本转语音模型IndexTTS :支持拼音纠正汉字发音、精准控制停顿
B站的一款基于 XTTS 和 Tortoise 的 GPT 风格文本转语音(TTS)模型 IndexTTS 正式发布。该系统在处理中文文本时,具备独特的拼音纠正汉字发音能力,并能够通过标点符号在任意位置精准控制停顿。这一创新的技术使得文本转语音的效果更加自然流畅,受到了广泛关注。
2025-04-08 16:14:30 185人关注
ElevenLabs推出MCP服务器:AI语音能力无缝整合到智能助手
ElevenLabs最新推出的MCP(Multi-modal Communication Protocol)服务器为AI生态系统带来重大升级。这项服务允许用户通过简单的文本提示,让AI助手(如Claude、Cursor、Windsurf等)直接访问ElevenLabs的完整AI音频平台能力。
2025-04-06 08:21:25 96人关注
OpenAI 承诺不审查 AI 模型,捍卫思想自由
在最近的一次声明中,OpenAI 正式更新了其模型规范,强调其人工智能模型将不再回避敏感话题,也不会排斥某些观点。这一高层次的规则旨在引导 OpenAI 模型的行为,确保其在处理各种话题时保持开放性。
2025-01-23 12:22:13 153人关注
闪速!ElevenLabs推Flash语音对话模型:仅75毫秒延迟 支持32种语言
ElevenLabs 于近日正式推出其最新的人声合成模型 Flash,声称这是迄今为止最快的文本转语音(TTS)解决方案,生成语音的延迟仅为75毫秒(加上应用和网络延迟)。Flash 特别适合低延迟的对话式语音助手,用户可以在 ElevenLabs 的对话 AI 平台上立即体验这一新功能。
2025-01-22 01:43:32 407人关注
阿里通义实验室语音生成大模型CosyVoice升级2.0版本
阿里巴巴通义实验室语音团队宣布,其开源的语音生成大模型CosyVoice已升级至2.0版本,这一升级标志着语音生成技术在准确性、稳定性和自然体验方面的显著进步。CosyVoice2.0通过采用离线和流式一体化建模的语音生成大模型技术,实现了双向流式语音合成,首包合成延迟可达到150ms,显著提升了语音合成的响应速度。
2025-01-16 08:42:41 89人关注
ElevenLabs发布Turbo 2.5模型:速度提升3倍,覆盖中文等32种语言
在人工智能的世界里,语言的界限正在被不断打破。ElevenLabs最新推出的Turbo2.5模型,以其卓越的性能和多语言支持,再次证明了这一点。
2025-01-15 10:23:38 589人关注
小型文本转语音模型Kokoro-TTS,曾拿下TTS排行榜第一
在人工智能的快速发展中,语音合成技术正日益受到关注。近日,名为 Kokoro 的最新语音合成模型在 Hugging Face 平台上正式发布,该模型具有8200万参数,标志着语音合成领域的一个重要里程碑。
2025-01-15 04:12:15 114人关注
媲美GPT-4o!复旦推语音模型SpeechGPT2 能听懂你的喜怒哀乐
在人工智能的世界里,大型语言模型(LLM)已经成为推动自然语言处理(NLP)任务的关键力量。然而,要让这些模型真正理解并生成跨模态内容,如语音和文本,我们还有很长的路要走。复旦大学的研究团队在论文"SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities"中提出了一种创新的解决方案——SpeechGPT。