LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-07-01 18:33:34 113人关注

TEN VAD震撼开源:企业级语音检测神器,打造超智能AI语音助手!

近日,TEN Agent团队宣布将其企业级实时语音活动检测器(TEN VAD)正式开源,这一突破性举措引发行业热议。TEN VAD以帧级精度的语音检测能力和优于WebRTC VAD及Silero VAD的性能表现,成为构建实时对话语音助手的强力引擎。

TEN VAD开源 实时语音活动检测器 帧级精度语音检测 WebRTC VAD对比 TEN VAD性能优势 实时对话语音助手

2025-06-12 09:44:30 317人关注

​字节火山引擎发布豆包·语音播客模型和豆包・实时语音模型

字节跳动火山引擎发布了两款全新的豆包语音大模型,旨在提升语音识别和语音生成的智能水平。这两款模型分别是豆包・语音播客模型和豆包・实时语音模型,均在多项技术指标上实现了显著的突破。

火山引擎 抖音播客 语音模型 字节跳动AI技术 语音合成技术

2025-06-02 12:22:14 72人关注

Hugging Face 推出 FastRTC:实时语音视频应用开发变得轻而易举

AI 初创公司 Hugging Face 宣布推出 FastRTC,这是一个开源的 Python 库,旨在消除开发人员在构建实时音频和视频 AI 应用时面临的重大障碍。

Hugging Face FastRTC 实时视频应用开发 实时视频技术 视频应用开发框架

2025-05-16 12:35:45 133人关注

Grok 3上线实时语音功能 一共支持10种模式

近日,由xAI开发的Grok APP推出了实时语音模式,支持 10 种模式 ,用户可通过语音与AI互动,进一步提升使用体验。然而,一名X平台用户发现,该应用还新增了Unhinged和Sexy模式,引发广泛关注。

Grok-3 实时语音 语音模式 AI语音技术 Grok-3应用场景 多模式语音交互

2025-03-25 16:26:10 114人关注

ZyphraAI 开源 Zonos-TTS:支持实时语音克隆和多语言情感控制

ZyphraAI 近日发布了其最新的多语言文本到语音(TTS)模型 Zonos-TTS,该模型基于 Apache2.0许可证,完全开源且可商用。Zonos-TTS 不仅支持实时语音克隆功能,还经过20万小时的英语语音数据训练,表现出卓越的性能。

开源语音克隆 实时语音克隆技术 ZYPHRAI开源项目 ZONOS TTS 语音合成技术

2025-01-28 08:39:31 353人关注

豆包发布实时语音大模型 中文一流,双商在线

近日,豆包公司宣布推出其全新的实时语音大模型,号称在中文对话方面实现了 “断崖式领先”,标志着 AI 对话能力的显著提升。这一模型在豆包 App(版本号7.2.0新春版)中全量开放,为用户带来了更为丰富和真实的语音交流体验。

豆包实时语音模型 中文语音模型 实时语音技术 语音AI模型 豆包AI技术

2025-01-23 20:18:34 212人关注

AI终于迈过这道槛!Livekit 开源模型精准识别“你是否说完”!

在人机对话的世界里,最让人头疼的莫过于——“你到底说完没”! 这句话看似简单,却成了无数语音助手和客服机器人迈不过去的一道坎儿。 你是不是也经常遇到这种情况:你只是停顿了一下,想思考接下来要说什么,结果 AI 就迫不及待地蹦出来回应;或者你明明已经讲完了,AI 却还在傻傻地等着,直到你忍不住再说一句“我讲完了”它才反应过来, 这体验简直让人抓狂。

AI语音识别 AI实时语音处理 LiveKit技术 语音识别技术 AI语音处理应用

2025-01-23 12:22:13 153人关注

闪速!ElevenLabs推Flash语音对话模型:仅75毫秒延迟 支持32种语言

ElevenLabs 于近日正式推出其最新的人声合成模型 Flash,声称这是迄今为止最快的文本转语音(TTS)解决方案,生成语音的延迟仅为75毫秒(加上应用和网络延迟)。Flash 特别适合低延迟的对话式语音助手,用户可以在 ElevenLabs 的对话 AI 平台上立即体验这一新功能。

ElevenLabs语音模型 75ms延迟语音合成 32种语言支持 实时语音技术 AI语音合成进展

2025-01-17 05:43:32 94人关注

谷歌开发实时语音转换系统StreamVC 不改变语调情况下改变音色

在实时通信的世界里,无论是电话还是视频会议,声音都是我们表达自我的重要工具。但你有没有想过,如果我们能在不影响语言内容和韵律的情况下,实时改变说话者的声音音色,那会怎样?StreamVC技术的出现,让我们能够做到这一点。

Google StreamVC 语音转换技术 实时语音转换 Google语音技术 StreamVC应用场景 语音转换算法

2025-01-11 12:44:31 670人关注

字节跳动豆包大模型支持实时语音通话:可随时打断、实时秒回

今日,字节跳动旗下云服务平台火山引擎宣布,豆包大模型已支持实时语音通话新功能。

字节跳动 豆包AI 实时语音技术 AI语音助手 大模型应用

2025-01-11 00:41:35 114人关注

利用 OpenAI 实时语音 API 构建智能语音应用的全新指南

在人工智能技术飞速发展的当下,OpenAI 于2023年10月1日推出了其最新的实时 API,旨在为开发者提供构建智能语音应用的强大工具。此 API 的发布受到了广泛关注,尤其是在 OpenAI DevDay 新加坡站上,Daily.co 的工程师分享了他们在使用这一 API 过程中获得的经验和教训。该工程师们不仅借助实时 API 搭建产品,还积极参与了开源项目 Pipecat 的开发,旨在为更多开发者提供便利。

OpenAI实时语音API 智能应用开发指南 OpenAI API应用场景 语音API技术解析 实时语音处理技术

2025-01-02 04:16:24 150人关注

Deepgram推出实时智能对话API,颠覆人机交互体验

Deepgram日前发布了一款革命性的AI语音代理API,为企业和开发者带来了前所未有的自然对话体验。这款API整合了先进的语音识别和合成技术,支持实时对话理解和生成,为构建高效语音助手开辟了新天地,尤其适用于客户支持和订单处理等场景。

Deepgram实时对话API 实时语音识别API Deepgram API应用场景 语音转文本技术 实时对话系统开发

2024-12-22 06:32:37 68人关注

Fish Audio发布Fish Agent V0.1 3B 实时语音克隆

近日,Fish Audio公司发布了全新的语音处理模型Fish Agent V0.13B,这款语音到语音模型能够高效、精确地生成和处理语音,尤其擅长模拟或克隆不同的声音。这意味着,我们距离拥有一个声音自然、反应迅速的AI语音助手又近了一步。

fish-audio fish-agent-v01-3b AI语音模型 音频处理技术 智能语音代理

2024-12-18 22:37:11 136人关注

昆仑万维推出「天工大模型4.0」4o版 实时语音助手Skyo即将上线

昆仑万维科技股份有限公司近期宣布推出其最新产品「天工大模型4.0」4o版(Skywork4o)以及实时语音对话助手Skyo。这一进展标志着公司在人工智能领域的深入发展,致力于提供更优质的用户体验。

昆仑天工模型4.0 昆仑天工SkyO发布 昆仑天工模型4.0技术解析 昆仑天工SkyO应用场景 昆仑天工大模型技术

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10