- 上云资讯 -
2025-05-31 16:16:18 22人关注
ElevenLabs 发布 Scribe 语音转文本模型,准确率创新高、英语达 96.7%
ElevenLabs 是一家备受瞩目的人工智能语音克隆与生成初创公司,近日推出了其最新的语音转文本模型 ——Scribe v1。该模型声称在多种语言中都达到了最高的准确性,用户可以通过其官网进行体验。
2025-01-06 15:13:25 98人关注
NVIDIA推全新视觉语音模型NVEagle,可以看图跟你聊天
最近,NVIDIA 联合 Georgia Tech、UMD 和 HKPU 的研究团队推出了全新的视觉语言模型 ——NVEagle。它能看懂图片还能跟你聊天,这相当于一个会看会说的超级助手。
2024-12-23 10:22:10 58人关注
清华大学推出突破性音源仿真平台SonicSim AI语音处理要起飞了?
清华大学的研究团队近日发布了名为 SonicSim 的移动音源仿真平台,旨在解决当前语音处理领域在移动声源场景下数据缺乏的难题。