上云资讯 - 来上云吧，企业上云一站式服务

2025-12-06 12:44:38 336人关注

微软开源实时语音模型VibeVoice-Realtime-0.5B，300ms实时开声，90分钟长音频都不喘！

微软悄然开源了一枚“黑马级”实时语音模型:VibeVoice-Realtime-0.5B。这可能是目前全球延迟最低、表现最接近真人的开源文本转语音（TTS）模型之一，话还没说完，声音就已经开始了!

2025-09-20 16:43:10 150人关注

Deepdub 推出 Lightning 2.5：实时语音 AI 模型引领行业变革

近日，Deepdub 宣布推出其最新的语音 AI 模型 Lightning2.5。这款模型被称为公司迄今为止最快、最具可扩展性的语音解决方案，专为实时生产级语音体验而设计。Lightning2.5在多语言 AI 代理、呼叫中心自动化、实时内容本地化以及个性化媒体和游戏等应用场景中展现了卓越的支持能力。

AI

2025-08-29 10:20:11 391人关注

OpenAI 推出“实时 API”:让AI语音助手像真人一样沟通

OpenAI 正式发布了其面向生产环境的“实时 API”，标志着公司在语音交互技术领域迈出了重要一步。该 API 主要面向为客户支持、教育或个人生产力等实际应用构建语音助手的公司和开发者，其核心组件是全新的 GPT-Realtime 模型。该模型能够直接生成和处理语音，无需传统的文本转换步骤，从而实现更快、更自然的对话。

OpenAI实时API GPT-Realtime模型语音交互技术语音助手开发实时语音生成客户支持语音AI

2025-07-01 18:33:34 613人关注

TEN VAD震撼开源：企业级语音检测神器，打造超智能AI语音助手！

近日，TEN Agent团队宣布将其企业级实时语音活动检测器（TEN VAD）正式开源，这一突破性举措引发行业热议。TEN VAD以帧级精度的语音检测能力和优于WebRTC VAD及Silero VAD的性能表现，成为构建实时对话语音助手的强力引擎。

TEN VAD开源实时语音活动检测器帧级精度语音检测 WebRTC VAD对比 TEN VAD性能优势实时对话语音助手

2025-06-12 09:44:30 759人关注

字节火山引擎发布豆包·语音播客模型和豆包・实时语音模型

字节跳动火山引擎发布了两款全新的豆包语音大模型，旨在提升语音识别和语音生成的智能水平。这两款模型分别是豆包・语音播客模型和豆包・实时语音模型，均在多项技术指标上实现了显著的突破。

火山引擎抖音播客语音模型字节跳动AI技术语音合成技术

2025-06-02 12:22:14 265人关注

Hugging Face 推出 FastRTC：实时语音视频应用开发变得轻而易举

AI 初创公司 Hugging Face 宣布推出 FastRTC，这是一个开源的 Python 库，旨在消除开发人员在构建实时音频和视频 AI 应用时面临的重大障碍。

Hugging Face FastRTC 实时视频应用开发实时视频技术视频应用开发框架

2025-05-16 12:35:45 767人关注

Grok 3上线实时语音功能一共支持10种模式

近日，由xAI开发的Grok APP推出了实时语音模式，支持 10 种模式，用户可通过语音与AI互动，进一步提升使用体验。然而，一名X平台用户发现，该应用还新增了Unhinged和Sexy模式，引发广泛关注。

Grok-3 实时语音语音模式 AI语音技术 Grok-3应用场景多模式语音交互

2025-03-25 16:26:10 293人关注

ZyphraAI 开源 Zonos-TTS:支持实时语音克隆和多语言情感控制

ZyphraAI 近日发布了其最新的多语言文本到语音（TTS）模型 Zonos-TTS，该模型基于 Apache2.0许可证，完全开源且可商用。Zonos-TTS 不仅支持实时语音克隆功能，还经过20万小时的英语语音数据训练，表现出卓越的性能。

开源语音克隆实时语音克隆技术 ZYPHRAI开源项目 ZONOS TTS 语音合成技术

2025-01-28 08:39:31 837人关注

豆包发布实时语音大模型中文一流，双商在线

近日，豆包公司宣布推出其全新的实时语音大模型，号称在中文对话方面实现了 “断崖式领先”，标志着 AI 对话能力的显著提升。这一模型在豆包 App（版本号7.2.0新春版）中全量开放，为用户带来了更为丰富和真实的语音交流体验。

豆包实时语音模型中文语音模型实时语音技术语音AI模型豆包AI技术

2025-01-23 20:18:34 543人关注

AI终于迈过这道槛！Livekit 开源模型精准识别“你是否说完”！

在人机对话的世界里，最让人头疼的莫过于——“你到底说完没”! 这句话看似简单，却成了无数语音助手和客服机器人迈不过去的一道坎儿。你是不是也经常遇到这种情况:你只是停顿了一下，想思考接下来要说什么，结果 AI 就迫不及待地蹦出来回应;或者你明明已经讲完了，AI 却还在傻傻地等着，直到你忍不住再说一句“我讲完了”它才反应过来，这体验简直让人抓狂。

AI语音识别 AI实时语音处理 LiveKit技术语音识别技术 AI语音处理应用

2025-01-23 12:22:13 465人关注

闪速！ElevenLabs推Flash语音对话模型：仅75毫秒延迟支持32种语言

ElevenLabs 于近日正式推出其最新的人声合成模型 Flash，声称这是迄今为止最快的文本转语音（TTS）解决方案，生成语音的延迟仅为75毫秒(加上应用和网络延迟)。Flash 特别适合低延迟的对话式语音助手，用户可以在 ElevenLabs 的对话 AI 平台上立即体验这一新功能。

ElevenLabs语音模型 75ms延迟语音合成 32种语言支持实时语音技术 AI语音合成进展

2025-01-17 05:43:32 347人关注

谷歌开发实时语音转换系统StreamVC 不改变语调情况下改变音色

在实时通信的世界里，无论是电话还是视频会议，声音都是我们表达自我的重要工具。但你有没有想过，如果我们能在不影响语言内容和韵律的情况下，实时改变说话者的声音音色，那会怎样?StreamVC技术的出现，让我们能够做到这一点。

Google StreamVC 语音转换技术实时语音转换 Google语音技术 StreamVC应用场景语音转换算法

2025-01-11 12:44:31 1775人关注

字节跳动豆包大模型支持实时语音通话：可随时打断、实时秒回

今日，字节跳动旗下云服务平台火山引擎宣布，豆包大模型已支持实时语音通话新功能。

字节跳动豆包AI 实时语音技术 AI语音助手大模型应用

2025-01-11 00:41:35 282人关注

利用 OpenAI 实时语音 API 构建智能语音应用的全新指南

在人工智能技术飞速发展的当下，OpenAI 于2023年10月1日推出了其最新的实时 API，旨在为开发者提供构建智能语音应用的强大工具。此 API 的发布受到了广泛关注，尤其是在 OpenAI DevDay 新加坡站上，Daily.co 的工程师分享了他们在使用这一 API 过程中获得的经验和教训。该工程师们不仅借助实时 API 搭建产品，还积极参与了开源项目 Pipecat 的开发，旨在为更多开发者提供便利。

OpenAI实时语音API 智能应用开发指南 OpenAI API应用场景语音API技术解析实时语音处理技术

2025-01-02 04:16:24 381人关注

Deepgram推出实时智能对话API，颠覆人机交互体验

Deepgram日前发布了一款革命性的AI语音代理API，为企业和开发者带来了前所未有的自然对话体验。这款API整合了先进的语音识别和合成技术，支持实时对话理解和生成，为构建高效语音助手开辟了新天地，尤其适用于客户支持和订单处理等场景。

Deepgram实时对话API 实时语音识别API Deepgram API应用场景语音转文本技术实时对话系统开发

2024-12-22 06:32:37 207人关注

Fish Audio发布Fish Agent V0.1 3B 实时语音克隆

近日，Fish Audio公司发布了全新的语音处理模型Fish Agent V0.13B，这款语音到语音模型能够高效、精确地生成和处理语音，尤其擅长模拟或克隆不同的声音。这意味着，我们距离拥有一个声音自然、反应迅速的AI语音助手又近了一步。

fish-audio fish-agent-v01-3b AI语音模型音频处理技术智能语音代理

2024-12-18 22:37:11 265人关注

昆仑万维推出「天工大模型4.0」4o版实时语音助手Skyo即将上线

昆仑万维科技股份有限公司近期宣布推出其最新产品「天工大模型4.0」4o版（Skywork4o）以及实时语音对话助手Skyo。这一进展标志着公司在人工智能领域的深入发展，致力于提供更优质的用户体验。

昆仑天工模型4.0 昆仑天工SkyO发布昆仑天工模型4.0技术解析昆仑天工SkyO应用场景昆仑天工大模型技术

- 上云资讯 -

微软开源实时语音模型VibeVoice-Realtime-0.5B，300ms实时开声，90分钟长音频都不喘！

Deepdub 推出 Lightning 2.5：实时语音 AI 模型引领行业变革

OpenAI 推出“实时 API”:让AI语音助手像真人一样沟通

TEN VAD震撼开源：企业级语音检测神器，打造超智能AI语音助手！

字节火山引擎发布豆包·语音播客模型和豆包・实时语音模型

Hugging Face 推出 FastRTC：实时语音视频应用开发变得轻而易举

Grok 3上线实时语音功能一共支持10种模式

ZyphraAI 开源 Zonos-TTS:支持实时语音克隆和多语言情感控制

豆包发布实时语音大模型中文一流，双商在线

AI终于迈过这道槛！Livekit 开源模型精准识别“你是否说完”！

闪速！ElevenLabs推Flash语音对话模型：仅75毫秒延迟支持32种语言

谷歌开发实时语音转换系统StreamVC 不改变语调情况下改变音色

字节跳动豆包大模型支持实时语音通话：可随时打断、实时秒回

利用 OpenAI 实时语音 API 构建智能语音应用的全新指南

Deepgram推出实时智能对话API，颠覆人机交互体验

Fish Audio发布Fish Agent V0.1 3B 实时语音克隆

昆仑万维推出「天工大模型4.0」4o版实时语音助手Skyo即将上线

推荐阅读

上云服务

- 上云资讯 -

微软开源实时语音模型VibeVoice-Realtime-0.5B，300ms实时开声，90分钟长音频都不喘！

​Deepdub 推出 Lightning 2.5：实时语音 AI 模型引领行业变革

OpenAI 推出“实时 API”:让AI语音助手像真人一样沟通

TEN VAD震撼开源：企业级语音检测神器，打造超智能AI语音助手！

​字节火山引擎发布豆包·语音播客模型和豆包・实时语音模型

Hugging Face 推出 FastRTC：实时语音视频应用开发变得轻而易举

Grok 3上线实时语音功能 一共支持10种模式

ZyphraAI 开源 Zonos-TTS:支持实时语音克隆和多语言情感控制

豆包发布实时语音大模型 中文一流，双商在线

AI终于迈过这道槛！Livekit 开源模型精准识别“你是否说完”！

闪速！ElevenLabs推Flash语音对话模型：仅75毫秒延迟 支持32种语言

谷歌开发实时语音转换系统StreamVC 不改变语调情况下改变音色

字节跳动豆包大模型支持实时语音通话：可随时打断、实时秒回

利用 OpenAI 实时语音 API 构建智能语音应用的全新指南

Deepgram推出实时智能对话API，颠覆人机交互体验

Fish Audio发布Fish Agent V0.1 3B 实时语音克隆

昆仑万维推出「天工大模型4.0」4o版 实时语音助手Skyo即将上线

推荐阅读

上云服务

Deepdub 推出 Lightning 2.5：实时语音 AI 模型引领行业变革

字节火山引擎发布豆包·语音播客模型和豆包・实时语音模型

Grok 3上线实时语音功能一共支持10种模式

豆包发布实时语音大模型中文一流，双商在线

闪速！ElevenLabs推Flash语音对话模型：仅75毫秒延迟支持32种语言

昆仑万维推出「天工大模型4.0」4o版实时语音助手Skyo即将上线