- 上云资讯 -
2025-01-11 00:41:35 115人关注
利用 OpenAI 实时语音 API 构建智能语音应用的全新指南
在人工智能技术飞速发展的当下,OpenAI 于2023年10月1日推出了其最新的实时 API,旨在为开发者提供构建智能语音应用的强大工具。此 API 的发布受到了广泛关注,尤其是在 OpenAI DevDay 新加坡站上,Daily.co 的工程师分享了他们在使用这一 API 过程中获得的经验和教训。该工程师们不仅借助实时 API 搭建产品,还积极参与了开源项目 Pipecat 的开发,旨在为更多开发者提供便利。
2025-01-06 15:13:25 133人关注
NVIDIA推全新视觉语音模型NVEagle,可以看图跟你聊天
最近,NVIDIA 联合 Georgia Tech、UMD 和 HKPU 的研究团队推出了全新的视觉语言模型 ——NVEagle。它能看懂图片还能跟你聊天,这相当于一个会看会说的超级助手。
2024-12-11 11:10:43 174人关注
去除背景噪声 阿里通义实验室开源语音处理技术ClearerVoice-Studio
阿里巴巴达摩院的通义实验室近期宣布开源一项名为ClearerVoice-Studio的语音处理技术,旨在提升语音质量和可懂度。随着语音技术的广泛应用,语音质量受到越来越多人的关注,尤其是在环境噪声、混响和设备拾音等情况下,语音处理技术的需求日益迫切。