- 上云资讯 -
2025-10-30 09:10:14 47人关注
AI日报:豆包推全自动多人配音系统;Adobe Firefly Image 5重磅升级;Soul语音模型SoulX-Podcast发布
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
2025-10-29 16:35:21 160人关注
Soul语音模型SoulX-Podcast震撼发布:90分钟无中断播客生成,AI语音革命再升级
近日,AI语音领域迎来重大创新——Soul推出的SoulX-Podcast语音模型,以其革命性功能迅速成为行业焦点。该模型专为播客式内容设计,实现了高真实度的语音生成,支持长时段、多说话人、多语种交互,标志着AI在自然对话模拟上的又一里程碑。
2025-09-16 13:45:13 77人关注
OpenAI Evals 新增原生音频评估功能,简化语音模型测试
OpenAI 正在进一步拓展其 Evals 工具的功能,为开发者带来了原生音频输入和音频评分支持。这项更新意味着,现在可以直接评估模型的音频响应,而无需先进行文本转录。这一新功能极大地简化了语音识别和语音生成模型的评估流程。
2025-09-11 17:15:19 221人关注
B 站开源文本转语音模型IndexTTS-2.0,情感与时长可控
近日,哔哩哔哩(B 站)Index 团队宣布全面开源其自主研发的文本转语音(TTS)系统 ——IndexTTS-2.0。该系统具有情感可控和时长可调的特点,标志着零样本 TTS 技术的实用化迈出了重要一步。
IndexTTS-2.0开源 零样本TTS技术 情感可控语音合成 时长可调TTS系统 哔哩哔哩Index团队 文本转语音开源项目
2025-08-30 11:35:24 258人关注
OpenAI放大招!GPT-Realtime语音模型上线,支持图像输入,AI交互要逆天了!
OpenAI正式推出其最新语音模型GPT-Realtime,这款多模态语音Agent模型以其强大的推理能力、图像输入支持以及优化的指令遵循功能引发行业热议。AIbase从最新信息中获悉,GPT-Realtime不仅在语音交互上实现突破,还通过集成图像输入、远程MCP和SIP电话呼叫等功能,为开发者提供更智能、更灵活的语音Agent解决方案。
2025-08-29 10:37:16 317人关注
OpenAI 发布全新语音模型 GPT-Realtime,专为语音AI Agent设计
OpenAI 在凌晨1点举行了技术直播,正式发布了其全新的语音模型 ——GPT-Realtime。这一多模态模型专为语音 AI Agent 设计,旨在生成更加自然流畅的语音,能够模仿人类丰富多样的语调、情感和语速。GPT-Realtime 的应用场景广泛,涵盖了客服、教育、金融和医疗等多个领域,为打造智能语音助手提供了强大的支持。
2025-08-07 13:41:12 157人关注
MiniMax Speech 2.5语音生成模型上线:多语种表现力更强
MiniMax今日宣布推出新一代语音生成模型Speech2.5,这一升级版模型在全球语音技术领域再次树立了新的标杆,进一步巩固了其作为全球最强语音模型的地位。Speech2.5在多语种表现力、音色复刻以及语种覆盖范围等方面均实现了显著提升。
2025-06-04 12:17:30 488人关注
B站文本转语音模型IndexTTS :支持拼音纠正汉字发音、精准控制停顿
B站的一款基于 XTTS 和 Tortoise 的 GPT 风格文本转语音(TTS)模型 IndexTTS 正式发布。该系统在处理中文文本时,具备独特的拼音纠正汉字发音能力,并能够通过标点符号在任意位置精准控制停顿。这一创新的技术使得文本转语音的效果更加自然流畅,受到了广泛关注。
2025-04-08 16:14:30 287人关注
ElevenLabs推出MCP服务器:AI语音能力无缝整合到智能助手
ElevenLabs最新推出的MCP(Multi-modal Communication Protocol)服务器为AI生态系统带来重大升级。这项服务允许用户通过简单的文本提示,让AI助手(如Claude、Cursor、Windsurf等)直接访问ElevenLabs的完整AI音频平台能力。
