上云资讯 - 来上云吧，企业上云一站式服务

2025-08-29 10:37:16 505人关注

OpenAI 发布全新语音模型 GPT-Realtime，专为语音AI Agent设计

OpenAI 在凌晨1点举行了技术直播，正式发布了其全新的语音模型 ——GPT-Realtime。这一多模态模型专为语音 AI Agent 设计，旨在生成更加自然流畅的语音，能够模仿人类丰富多样的语调、情感和语速。GPT-Realtime 的应用场景广泛，涵盖了客服、教育、金融和医疗等多个领域，为打造智能语音助手提供了强大的支持。

GPT-Realtime OpenAI 语音模型多模态语音AI Agent 语音助手技术自然语音生成智能客服应用

2025-08-29 10:20:11 390人关注

OpenAI 推出“实时 API”:让AI语音助手像真人一样沟通

OpenAI 正式发布了其面向生产环境的“实时 API”，标志着公司在语音交互技术领域迈出了重要一步。该 API 主要面向为客户支持、教育或个人生产力等实际应用构建语音助手的公司和开发者，其核心组件是全新的 GPT-Realtime 模型。该模型能够直接生成和处理语音，无需传统的文本转换步骤，从而实现更快、更自然的对话。

OpenAI实时API GPT-Realtime模型语音交互技术语音助手开发实时语音生成客户支持语音AI

2025-08-23 09:33:28 410人关注

特斯拉语音助手接入火山引擎与DeepSeek大模型智能座舱体验全面升级

AIbase报道特斯拉正为其车辆语音助手功能引入更强AI能力。根据特斯拉中国官网最新更新的《特斯拉车机语音助手使用条款》，官方首次明确其语音助手将接入外部大模型技术，合作伙伴包括字节跳动旗下的火山引擎和人工智能公司DeepSeek。

特斯拉AI语音助手升级火山引擎大模型 DeepSeek AI技术特斯拉语音助手合作伙伴车机语音AI技术应用

2025-07-16 12:30:25 346人关注

Mistral重磅推出Voxtral：开源AI音频模型的新时代来临！

随着人工智能技术的飞速发展，语音正迅速成为我们与机器沟通的主要方式。法国初创企业 Mistral 近日正式发布了其首个开源音频模型 ——Voxtral，旨在打破大型企业封闭系统的垄断，为开发者提供一个更灵活且经济的替代方案。

开源语音模型 Mistral Voxtral 语音AI技术语音模型开源方案开发者语音工具经济型语音AI

2025-07-09 14:43:16 416人关注

阿里通义开源支持链式推理的音频生成模型ThinkSound

近日，阿里语音AI团队宣布开源全球首个支持链式推理的音频生成模型ThinkSound，该模型通过引入思维链（Chain-of-Thought）技术，突破传统视频转音频技术对画面动态捕捉的局限，实现高保真、强同步的空间音频生成。这一突破标志着AI音频技术从“看图配音”向“结构化理解画面”的跨越式发展。

阿里语音AI ThinkSound模型链式推理音频生成 AI音频技术空间音频生成思维链技术

2025-07-01 17:20:39 921人关注

TEN Agent开源TEN VAD与Turn Detection，助力语音AI超低延迟

TEN Agent团队近日宣布，其核心模型**TEN Voice Activity Detection （VAD）**和**TEN Turn Detection**正式开源，为构建实时、多模态的语音AI代理提供了强大的技术支持。

TEN Agent开源模型 TEN Voice Activity Detection TEN Turn Detection 语音AI代理技术实时多模态语音处理

2025-06-25 13:20:26 576人关注

Wispr Flow获3000万美元A轮融资，语音AI挑战键盘霸权

语音输入技术初创公司Wispr Flow宣布完成3000万美元的A轮融资，由Menlo Ventures领投，NEA、8VC、Opal CEO Kenneth Schlenker、Pinterest创始人Evan Sharp、Carta CEO Henry Ward及Lindy CEO Flo Crivelli等知名投资者跟投。Wispr Flow累计融资金额已达5600万美元。这一轮融资将助力Wispr Flow扩展其AI驱动的语音输入技术，进一步挑战传统键盘输入方式，开启人机交互的新篇章。AIbase为您深入解析这一融资事件及其背后意义。

语音输入技术 Wispr Flow融资 AI驱动语音输入人机交互技术初创公司融资案例 AIbase融资解析

2025-06-25 13:12:16 291人关注

年增长15倍!语音AI客服平台Synthflow完成2000万美元融资，挑战Sierra和Bland AI

总部位于柏林的语音AI初创公司Synthflow AI宣布完成2000万美元A轮融资，由知名风投机构Accel领投，现有投资者Atlantic Labs和Singular跟投。该公司专注于为企业提供无代码语音AI客服解决方案，正值对话式AI市场迎来爆发式增长。

语音AI客服解决方案无代码语音AI客服 Synthflow AI融资对话式AI市场增长 Accel领投AI初创公司

2025-06-24 13:34:34 232人关注

ElevenLabs隆重推出AI语音助理11ai：语音优先并支持集成MCP

ElevenLabs正式发布其全新语音优先AI个人助理11ai，标志着语音AI技术在生产力工具领域的又一重大突破。作为一家以创新文本转语音和对话AI技术闻名的公司，ElevenLabs此次推出的11ai不仅集成了前沿的语音交互功能，还通过多工具集成和自定义MCP（多通道协议）支持，为用户提供了高度个性化的工作流体验。

语音AI技术 AI个人助理 11ai功能特点 ElevenLabs创新技术 MCP多通道协议语音交互生产力工具

2025-04-22 16:23:31 360人关注

语音AI“一步到位”！阶跃开源 130B 统治级语音模型，实时对话+情感克隆，炸裂来袭

语音交互领域迎来里程碑式突破!国内AI公司阶跃（Step Audio）近日震撼开源了一款 1300亿参数的超大型语音模型，引发业界高度关注。这款被誉为“统治级”的强大模型，是业界首个集语音理解与生成控制于一体的产品级开源实时语音对话系统，其功能的全面性和技术的先进性令人惊叹，预示着语音AI技术发展或将“一步到位”迈向新高度。

语音AI 实时情感克隆 AI语音技术情感克隆技术 130亿参数大模型

2025-01-28 08:39:31 837人关注

豆包发布实时语音大模型中文一流，双商在线

近日，豆包公司宣布推出其全新的实时语音大模型，号称在中文对话方面实现了 “断崖式领先”，标志着 AI 对话能力的显著提升。这一模型在豆包 App（版本号7.2.0新春版）中全量开放，为用户带来了更为丰富和真实的语音交流体验。

豆包实时语音模型中文语音模型实时语音技术语音AI模型豆包AI技术

2025-01-28 06:15:10 655人关注

MiniMax海螺语音全球同步上线包含T2A-01-Turbo等模型

2025年1月20日，上海稀宇科技有限公司旗下的MiniMax宣布其全新升级的T2A-01系列语音模型全球同步上线，并推出海螺语音产品。T2A-01系列包含T2A-01-HD，T2A-01-Turbo两款模型供用户使用，API服务已同步上线MiniMax开放平台，企业可以根据音频质量与生成速度的需求重点来选择。

Minimax Conch Voice T2A-01 Turbo 全球发布语音AI技术

2025-01-25 10:23:24 399人关注

AI语音独角兽ElevenLabs完成2.5亿美元C轮融资，估值突破30亿

人工智能语音公司ElevenLabs再次引发关注，该公司刚刚完成了一轮高达2.5亿美元的C轮融资，估值在30亿至33亿美元之间。本次融资由ICONIQ Growth领投，显示出市场对AI语音技术的强烈信心。仅在一年之前，ElevenLabs刚刚完成了一笔8000万美元的B轮融资，当时的估值仅为现在的三分之一，可见该公司发展之迅猛。

AI语音独角兽 ElevenLabs估值 30亿美元估值 AI语音技术语音AI创业公司

2025-01-14 21:11:45 563人关注

确认！ChatGPT高级语音模式将于下周对ChatGPT Plus订阅用户开放

OpenAI 的旗舰模型 GPT-4o（"o" 代表 "omni"）在五月份发布时，其音频理解能力备受瞩目。GPT-4o 模型能够以平均320毫秒的速度回应音频输入，这与人类在典型对话中的反应时间相似。

ChatGPT高级语音模式 Plus订阅者新功能语音AI技术更新 ChatGPT下周更新 AI语音助手升级

2025-01-13 09:13:23 566人关注

未来已来!阿里新语音技术CosyVoice让AI说话更有人味儿

近日，阿里巴巴推出的最新语音合成模型CosyVoice，以其令人惊叹的逼真度和灵活性，为我们展示了未来人机交互的美好蓝图。

阿里云语音AI CosyVoice AI语音技术阿里云语音合成 AI语音合成技术阿里云语音AI应用场景

2025-01-12 23:22:40 231人关注

Meta计划为AI助手引入名人声音或于9月发布

据多家媒体报道，社交媒体巨头Meta正在积极洽谈，计划为其人工智能产品引入多位知名演员和网红的声音。这项新功能可能最快将于今年9月的Meta Connect大会上亮相。

Meta AI 语音助手名人语音AI AI语音助手技术 Meta AI 9月发布 Meta AI 语音助手应用场景

2025-01-08 09:36:15 200人关注

端到端语音大模型新秀:心辰Lingo开放内测预约

西湖心辰近日推出了国内首个端到端语音大模型——心辰Lingo，并已开启内测预约。这一创新模型被誉为国内首个能力追平GPT-4语音能力的AI系统，标志着中国在语音AI领域取得重大突破。

端到端语音模型 Lingo Beta 注册语音模型技术语音AI应用语音模型测试

2024-12-16 14:42:15 246人关注

语音AI的颠覆者！PlayAI：用声音重塑数字交互的边界

从一个简单的Chrome扩展，到如今估值超2000万美元的AI语音帝国，PlayAI正用声音技术重新定义人机交互的想象边界。创始人Hammad Syed和Mahmoud Felfel用代码和算法编织出一个充满可能性的声音世界。

AI语音交互 PlayAI技术数字交互创新语音AI应用场景 PlayAI重新定义数字互动

- 上云资讯 -

OpenAI 发布全新语音模型 GPT-Realtime，专为语音AI Agent设计

OpenAI 推出“实时 API”:让AI语音助手像真人一样沟通

特斯拉语音助手接入火山引擎与DeepSeek大模型智能座舱体验全面升级

Mistral重磅推出Voxtral：开源AI音频模型的新时代来临！

阿里通义开源支持链式推理的音频生成模型ThinkSound

TEN Agent开源TEN VAD与Turn Detection，助力语音AI超低延迟

Wispr Flow获3000万美元A轮融资，语音AI挑战键盘霸权

年增长15倍!语音AI客服平台Synthflow完成2000万美元融资，挑战Sierra和Bland AI

ElevenLabs隆重推出AI语音助理11ai：语音优先并支持集成MCP

语音AI“一步到位”！阶跃开源 130B 统治级语音模型，实时对话+情感克隆，炸裂来袭

豆包发布实时语音大模型中文一流，双商在线

MiniMax海螺语音全球同步上线包含T2A-01-Turbo等模型

AI语音独角兽ElevenLabs完成2.5亿美元C轮融资，估值突破30亿

确认！ChatGPT高级语音模式将于下周对ChatGPT Plus订阅用户开放

未来已来!阿里新语音技术CosyVoice让AI说话更有人味儿

Meta计划为AI助手引入名人声音或于9月发布

端到端语音大模型新秀:心辰Lingo开放内测预约

语音AI的颠覆者！PlayAI：用声音重塑数字交互的边界

推荐阅读

上云服务

- 上云资讯 -

OpenAI 发布全新语音模型 GPT-Realtime，专为语音AI Agent设计

OpenAI 推出“实时 API”:让AI语音助手像真人一样沟通

特斯拉语音助手接入火山引擎与DeepSeek大模型 智能座舱体验全面升级

Mistral重磅推出Voxtral：开源AI音频模型的新时代来临！

阿里通义开源支持链式推理的音频生成模型ThinkSound

TEN Agent开源TEN VAD与Turn Detection，助力语音AI超低延迟

Wispr Flow获3000万美元A轮融资，语音AI挑战键盘霸权

年增长15倍!语音AI客服平台Synthflow完成2000万美元融资，挑战Sierra和Bland AI

ElevenLabs隆重推出AI语音助理11ai：语音优先并支持集成MCP

语音AI“一步到位”！阶跃开源 130B 统治级语音模型，实时对话+情感克隆，炸裂来袭

豆包发布实时语音大模型 中文一流，双商在线

MiniMax海螺语音全球同步上线 包含T2A-01-Turbo等模型

AI语音独角兽ElevenLabs完成2.5亿美元C轮融资，估值突破30亿

确认！ChatGPT高级语音模式将于下周对ChatGPT Plus订阅用户开放

未来已来!阿里新语音技术CosyVoice让AI说话更有人味儿

Meta计划为AI助手引入名人声音 或于9月发布

端到端语音大模型新秀:心辰Lingo开放内测预约

语音AI的颠覆者！PlayAI：用声音重塑数字交互的边界

推荐阅读

上云服务

特斯拉语音助手接入火山引擎与DeepSeek大模型智能座舱体验全面升级

豆包发布实时语音大模型中文一流，双商在线

MiniMax海螺语音全球同步上线包含T2A-01-Turbo等模型

Meta计划为AI助手引入名人声音或于9月发布