- 上云资讯 -
2025-07-01 18:33:34 113人关注
TEN VAD震撼开源:企业级语音检测神器,打造超智能AI语音助手!
近日,TEN Agent团队宣布将其企业级实时语音活动检测器(TEN VAD)正式开源,这一突破性举措引发行业热议。TEN VAD以帧级精度的语音检测能力和优于WebRTC VAD及Silero VAD的性能表现,成为构建实时对话语音助手的强力引擎。
TEN VAD开源 实时语音活动检测器 帧级精度语音检测 WebRTC VAD对比 TEN VAD性能优势 实时对话语音助手
2025-06-02 12:22:14 72人关注
Hugging Face 推出 FastRTC:实时语音视频应用开发变得轻而易举
AI 初创公司 Hugging Face 宣布推出 FastRTC,这是一个开源的 Python 库,旨在消除开发人员在构建实时音频和视频 AI 应用时面临的重大障碍。
2025-03-25 16:26:10 114人关注
ZyphraAI 开源 Zonos-TTS:支持实时语音克隆和多语言情感控制
ZyphraAI 近日发布了其最新的多语言文本到语音(TTS)模型 Zonos-TTS,该模型基于 Apache2.0许可证,完全开源且可商用。Zonos-TTS 不仅支持实时语音克隆功能,还经过20万小时的英语语音数据训练,表现出卓越的性能。
2025-01-23 12:22:13 153人关注
闪速!ElevenLabs推Flash语音对话模型:仅75毫秒延迟 支持32种语言
ElevenLabs 于近日正式推出其最新的人声合成模型 Flash,声称这是迄今为止最快的文本转语音(TTS)解决方案,生成语音的延迟仅为75毫秒(加上应用和网络延迟)。Flash 特别适合低延迟的对话式语音助手,用户可以在 ElevenLabs 的对话 AI 平台上立即体验这一新功能。
2025-01-17 05:43:32 94人关注
谷歌开发实时语音转换系统StreamVC 不改变语调情况下改变音色
在实时通信的世界里,无论是电话还是视频会议,声音都是我们表达自我的重要工具。但你有没有想过,如果我们能在不影响语言内容和韵律的情况下,实时改变说话者的声音音色,那会怎样?StreamVC技术的出现,让我们能够做到这一点。
Google StreamVC 语音转换技术 实时语音转换 Google语音技术 StreamVC应用场景 语音转换算法
2025-01-11 00:41:35 114人关注
利用 OpenAI 实时语音 API 构建智能语音应用的全新指南
在人工智能技术飞速发展的当下,OpenAI 于2023年10月1日推出了其最新的实时 API,旨在为开发者提供构建智能语音应用的强大工具。此 API 的发布受到了广泛关注,尤其是在 OpenAI DevDay 新加坡站上,Daily.co 的工程师分享了他们在使用这一 API 过程中获得的经验和教训。该工程师们不仅借助实时 API 搭建产品,还积极参与了开源项目 Pipecat 的开发,旨在为更多开发者提供便利。
2025-01-02 04:16:24 150人关注
Deepgram推出实时智能对话API,颠覆人机交互体验
Deepgram日前发布了一款革命性的AI语音代理API,为企业和开发者带来了前所未有的自然对话体验。这款API整合了先进的语音识别和合成技术,支持实时对话理解和生成,为构建高效语音助手开辟了新天地,尤其适用于客户支持和订单处理等场景。
2024-12-22 06:32:37 68人关注
Fish Audio发布Fish Agent V0.1 3B 实时语音克隆
近日,Fish Audio公司发布了全新的语音处理模型Fish Agent V0.13B,这款语音到语音模型能够高效、精确地生成和处理语音,尤其擅长模拟或克隆不同的声音。这意味着,我们距离拥有一个声音自然、反应迅速的AI语音助手又近了一步。
2024-12-18 22:37:11 136人关注
昆仑万维推出「天工大模型4.0」4o版 实时语音助手Skyo即将上线
昆仑万维科技股份有限公司近期宣布推出其最新产品「天工大模型4.0」4o版(Skywork4o)以及实时语音对话助手Skyo。这一进展标志着公司在人工智能领域的深入发展,致力于提供更优质的用户体验。