- 上云资讯 -
2025-09-16 13:45:13 21人关注
OpenAI Evals 新增原生音频评估功能,简化语音模型测试
OpenAI 正在进一步拓展其 Evals 工具的功能,为开发者带来了原生音频输入和音频评分支持。这项更新意味着,现在可以直接评估模型的音频响应,而无需先进行文本转录。这一新功能极大地简化了语音识别和语音生成模型的评估流程。
2025-09-11 17:15:19 51人关注
B 站开源文本转语音模型IndexTTS-2.0,情感与时长可控
近日,哔哩哔哩(B 站)Index 团队宣布全面开源其自主研发的文本转语音(TTS)系统 ——IndexTTS-2.0。该系统具有情感可控和时长可调的特点,标志着零样本 TTS 技术的实用化迈出了重要一步。
IndexTTS-2.0开源 零样本TTS技术 情感可控语音合成 时长可调TTS系统 哔哩哔哩Index团队 文本转语音开源项目
2025-08-30 11:35:24 204人关注
OpenAI放大招!GPT-Realtime语音模型上线,支持图像输入,AI交互要逆天了!
OpenAI正式推出其最新语音模型GPT-Realtime,这款多模态语音Agent模型以其强大的推理能力、图像输入支持以及优化的指令遵循功能引发行业热议。AIbase从最新信息中获悉,GPT-Realtime不仅在语音交互上实现突破,还通过集成图像输入、远程MCP和SIP电话呼叫等功能,为开发者提供更智能、更灵活的语音Agent解决方案。
2025-08-29 10:37:16 249人关注
OpenAI 发布全新语音模型 GPT-Realtime,专为语音AI Agent设计
OpenAI 在凌晨1点举行了技术直播,正式发布了其全新的语音模型 ——GPT-Realtime。这一多模态模型专为语音 AI Agent 设计,旨在生成更加自然流畅的语音,能够模仿人类丰富多样的语调、情感和语速。GPT-Realtime 的应用场景广泛,涵盖了客服、教育、金融和医疗等多个领域,为打造智能语音助手提供了强大的支持。
2025-08-07 13:41:12 75人关注
MiniMax Speech 2.5语音生成模型上线:多语种表现力更强
MiniMax今日宣布推出新一代语音生成模型Speech2.5,这一升级版模型在全球语音技术领域再次树立了新的标杆,进一步巩固了其作为全球最强语音模型的地位。Speech2.5在多语种表现力、音色复刻以及语种覆盖范围等方面均实现了显著提升。
2025-06-04 12:17:30 344人关注
B站文本转语音模型IndexTTS :支持拼音纠正汉字发音、精准控制停顿
B站的一款基于 XTTS 和 Tortoise 的 GPT 风格文本转语音(TTS)模型 IndexTTS 正式发布。该系统在处理中文文本时,具备独特的拼音纠正汉字发音能力,并能够通过标点符号在任意位置精准控制停顿。这一创新的技术使得文本转语音的效果更加自然流畅,受到了广泛关注。
2025-04-08 16:14:30 250人关注
ElevenLabs推出MCP服务器:AI语音能力无缝整合到智能助手
ElevenLabs最新推出的MCP(Multi-modal Communication Protocol)服务器为AI生态系统带来重大升级。这项服务允许用户通过简单的文本提示,让AI助手(如Claude、Cursor、Windsurf等)直接访问ElevenLabs的完整AI音频平台能力。
2025-04-06 08:21:25 141人关注
OpenAI 承诺不审查 AI 模型,捍卫思想自由
在最近的一次声明中,OpenAI 正式更新了其模型规范,强调其人工智能模型将不再回避敏感话题,也不会排斥某些观点。这一高层次的规则旨在引导 OpenAI 模型的行为,确保其在处理各种话题时保持开放性。