- 上云资讯 -
2025-06-02 12:22:14 26人关注
Hugging Face 推出 FastRTC:实时语音视频应用开发变得轻而易举
AI 初创公司 Hugging Face 宣布推出 FastRTC,这是一个开源的 Python 库,旨在消除开发人员在构建实时音频和视频 AI 应用时面临的重大障碍。
2025-03-25 16:26:10 59人关注
ZyphraAI 开源 Zonos-TTS:支持实时语音克隆和多语言情感控制
ZyphraAI 近日发布了其最新的多语言文本到语音(TTS)模型 Zonos-TTS,该模型基于 Apache2.0许可证,完全开源且可商用。Zonos-TTS 不仅支持实时语音克隆功能,还经过20万小时的英语语音数据训练,表现出卓越的性能。
2025-01-23 12:22:13 100人关注
闪速!ElevenLabs推Flash语音对话模型:仅75毫秒延迟 支持32种语言
ElevenLabs 于近日正式推出其最新的人声合成模型 Flash,声称这是迄今为止最快的文本转语音(TTS)解决方案,生成语音的延迟仅为75毫秒(加上应用和网络延迟)。Flash 特别适合低延迟的对话式语音助手,用户可以在 ElevenLabs 的对话 AI 平台上立即体验这一新功能。
2025-01-17 05:43:32 50人关注
谷歌开发实时语音转换系统StreamVC 不改变语调情况下改变音色
在实时通信的世界里,无论是电话还是视频会议,声音都是我们表达自我的重要工具。但你有没有想过,如果我们能在不影响语言内容和韵律的情况下,实时改变说话者的声音音色,那会怎样?StreamVC技术的出现,让我们能够做到这一点。
2025-01-11 12:44:31 538人关注
字节跳动豆包大模型支持实时语音通话:可随时打断、实时秒回
今日,字节跳动旗下云服务平台火山引擎宣布,豆包大模型已支持实时语音通话新功能。
2025-01-11 00:41:35 60人关注
利用 OpenAI 实时语音 API 构建智能语音应用的全新指南
在人工智能技术飞速发展的当下,OpenAI 于2023年10月1日推出了其最新的实时 API,旨在为开发者提供构建智能语音应用的强大工具。此 API 的发布受到了广泛关注,尤其是在 OpenAI DevDay 新加坡站上,Daily.co 的工程师分享了他们在使用这一 API 过程中获得的经验和教训。该工程师们不仅借助实时 API 搭建产品,还积极参与了开源项目 Pipecat 的开发,旨在为更多开发者提供便利。
2024-12-22 06:32:37 28人关注
Fish Audio发布Fish Agent V0.1 3B 实时语音克隆
近日,Fish Audio公司发布了全新的语音处理模型Fish Agent V0.13B,这款语音到语音模型能够高效、精确地生成和处理语音,尤其擅长模拟或克隆不同的声音。这意味着,我们距离拥有一个声音自然、反应迅速的AI语音助手又近了一步。
2024-12-18 22:37:11 107人关注
昆仑万维推出「天工大模型4.0」4o版 实时语音助手Skyo即将上线
昆仑万维科技股份有限公司近期宣布推出其最新产品「天工大模型4.0」4o版(Skywork4o)以及实时语音对话助手Skyo。这一进展标志着公司在人工智能领域的深入发展,致力于提供更优质的用户体验。