上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-06-20 09:12:15 371人关注

OpenAI 推出 ChatGPT Record：实时录音、转录与摘要的新功能

近日，OpenAI 在其 macOS 桌面应用中推出了一项名为 “ChatGPT Record” 的新功能。该功能专为 Pro、Team、Enterprise 和 Edu 用户设计，能够实现录音、转录以及音频摘要的功能。用户在每个会话中最多可以录制120分钟的音频，并且录音将自动生成结构化的摘要内容。

OpenAI ChatGPT Record 录音转录功能音频摘要技术 AI语音处理 OpenAI桌面应用新功能企业级AI工具

2025-05-31 16:16:18 398人关注

ElevenLabs 发布 Scribe 语音转文本模型，准确率创新高、英语达 96.7%

ElevenLabs 是一家备受瞩目的人工智能语音克隆与生成初创公司，近日推出了其最新的语音转文本模型 ——Scribe v1。该模型声称在多种语言中都达到了最高的准确性，用户可以通过其官网进行体验。

ElevenLabs Scribe 语音转文本模型文本模型准确率语音识别技术 AI语音处理

2025-01-23 20:18:34 546人关注

AI终于迈过这道槛！Livekit 开源模型精准识别“你是否说完”！

在人机对话的世界里，最让人头疼的莫过于——“你到底说完没”! 这句话看似简单，却成了无数语音助手和客服机器人迈不过去的一道坎儿。你是不是也经常遇到这种情况:你只是停顿了一下，想思考接下来要说什么，结果 AI 就迫不及待地蹦出来回应;或者你明明已经讲完了，AI 却还在傻傻地等着，直到你忍不住再说一句“我讲完了”它才反应过来，这体验简直让人抓狂。

AI语音识别 AI实时语音处理 LiveKit技术语音识别技术 AI语音处理应用

2025-01-09 06:15:14 953人关注

字节跳动自动语音识别模型Seed-ASR,各种口音和方言统统能听懂！

语音识别技术一直是人工智能发展的重点领域之一。而如今，字节跳动推出的Seed-ASR引擎，正在彻底打破语言和方言的壁垒，为这项技术注入全新活力。

字节跳动 Seed ASR 口音识别方言识别语音识别技术 AI语音处理

2025-01-06 15:13:25 311人关注

NVIDIA推全新视觉语音模型NVEagle，可以看图跟你聊天

最近，NVIDIA 联合 Georgia Tech、UMD 和 HKPU 的研究团队推出了全新的视觉语言模型 ——NVEagle。它能看懂图片还能跟你聊天，这相当于一个会看会说的超级助手。

NVIDIA视觉语音模型视觉语音模型技术 NVEagle应用场景语音模型创新 AI语音处理技术

2024-12-23 10:22:10 250人关注

清华大学推出突破性音源仿真平台SonicSim AI语音处理要起飞了？

清华大学的研究团队近日发布了名为 SonicSim 的移动音源仿真平台，旨在解决当前语音处理领域在移动声源场景下数据缺乏的难题。

清华AI语音平台 SonicSim AI语音技术 AI语音合成语音模拟技术清华声学仿真平台

- 上云资讯 -

OpenAI 推出 ChatGPT Record：实时录音、转录与摘要的新功能

ElevenLabs 发布 Scribe 语音转文本模型，准确率创新高、英语达 96.7%

AI终于迈过这道槛！Livekit 开源模型精准识别“你是否说完”！

字节跳动自动语音识别模型Seed-ASR,各种口音和方言统统能听懂！

NVIDIA推全新视觉语音模型NVEagle，可以看图跟你聊天

清华大学推出突破性音源仿真平台SonicSim AI语音处理要起飞了？

推荐阅读

上云服务

- 上云资讯 -

OpenAI 推出 ChatGPT Record：实时录音、转录与摘要的新功能

​ElevenLabs 发布 Scribe 语音转文本模型，准确率创新高、英语达 96.7%

AI终于迈过这道槛！Livekit 开源模型精准识别“你是否说完”！

字节跳动自动语音识别模型Seed-ASR,各种口音和方言统统能听懂！

​NVIDIA推全新视觉语音模型NVEagle，可以看图跟你聊天

清华大学推出突破性音源仿真平台SonicSim AI语音处理要起飞了？

推荐阅读

上云服务

ElevenLabs 发布 Scribe 语音转文本模型，准确率创新高、英语达 96.7%

NVIDIA推全新视觉语音模型NVEagle，可以看图跟你聊天