LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-01-23 20:18:34 212人关注

AI终于迈过这道槛!Livekit 开源模型精准识别“你是否说完”!

在人机对话的世界里,最让人头疼的莫过于——“你到底说完没”! 这句话看似简单,却成了无数语音助手和客服机器人迈不过去的一道坎儿。 你是不是也经常遇到这种情况:你只是停顿了一下,想思考接下来要说什么,结果 AI 就迫不及待地蹦出来回应;或者你明明已经讲完了,AI 却还在傻傻地等着,直到你忍不住再说一句“我讲完了”它才反应过来, 这体验简直让人抓狂。

AI语音识别 AI实时语音处理 LiveKit技术 语音识别技术 AI语音处理应用

2025-01-20 08:22:44 121人关注

Resemble AI 发布下一代深度伪造检测模型 Detect-2B:准确率高达94%

Resemble AI,一家领先的语音克隆公司,近日宣布发布了其下一代深度伪造检测模型 Detect-2B。这款新模型在检测 AI 生成的音频方面表现出了约94%的高准确率,标志着深度伪造检测技术的又一重要进步。

Resemble AI AI语音检测 AI检测准确率 AI技术突破 AI语音识别技术

2025-01-15 02:29:43 250人关注

武汉大学联合中国移动九天人工智能团队开源音视频说话人识别数据集 VoxBlink2

武汉大学联合中国移动九天人工智能团队和昆山杜克大学基于YouTube数据开源了超过11万小时的音视频说话人识别数据集VoxBlink2。该数据集包含9904382个高质量音频片段及其相应的视频片段,来自YouTube上的111284名用户,是目前最大的公开可用的音视频说话人识别数据集。数据集的发布旨在丰富开源语音语料库,支持训练声纹大模型。

武汉大学 VoxBlink2数据集 语音数据集 AI语音识别 语音识别技术

2025-01-12 10:18:26 154人关注

以色列公司推出速度提升50%的开源语音识别模型Whisper Medusa

以色列人工智能公司 aiOla 近日在语音识别技术领域取得重大突破,推出了名为 Whisper Medusa 的开源语音识别模型。这款新模型的处理速度比 OpenAI 的 Whisper 模型快50%,引起了业界广泛关注。

以色列公司 Faster Whisper Medusa AI语音识别 语音转文本技术

2024-12-24 18:44:32 70人关注

AI语音转录工具Whisper被曝存在严重“幻觉” ,时常瞎编胡造

最近,一款由 OpenAI 的 Whisper 技术驱动的 AI 转录工具在医疗行业广受欢迎。许多医生和医疗机构都在使用这个工具来记录和总结与患者的会面。

AI语音转录 Whisper模型 语音转录幻觉问题 AI语音识别技术 Whisper模型应用场景

2024-12-23 22:41:36 76人关注

Claude APP新增语音功能:Anthropic小范围测试最长10分钟语音听写

据悉,人工智能公司 Anthropic 正在对其 Claude 应用程序进行新功能测试。有消息称,该公司正在小范围内测试语音听写功能,用户可以进行长达 10 分钟的语音录制,由 Claude 进行转录。

Claude App 语音听写测试 Claude 语音功能 Claude 应用评测 AI语音识别技术

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10