LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-07-16 12:30:25 92人关注

Mistral重磅推出Voxtral:开源AI音频模型的新时代来临!

随着人工智能技术的飞速发展,语音正迅速成为我们与机器沟通的主要方式。法国初创企业 Mistral 近日正式发布了其首个开源音频模型 ——Voxtral,旨在打破大型企业封闭系统的垄断,为开发者提供一个更灵活且经济的替代方案。

开源语音模型 Mistral Voxtral 语音AI技术 语音模型开源方案 开发者语音工具 经济型语音AI

2025-07-09 14:43:16 209人关注

阿里通义开源支持链式推理的音频生成模型ThinkSound

近日,阿里语音AI团队宣布开源全球首个支持链式推理的音频生成模型ThinkSound,该模型通过引入思维链(Chain-of-Thought)技术,突破传统视频转音频技术对画面动态捕捉的局限,实现高保真、强同步的空间音频生成。这一突破标志着AI音频技术从“看图配音”向“结构化理解画面”的跨越式发展。

阿里语音AI ThinkSound模型 链式推理音频生成 AI音频技术 空间音频生成 思维链技术

2025-07-01 17:20:39 241人关注

TEN Agent开源TEN VAD与Turn Detection,助力语音AI超低延迟

TEN Agent团队近日宣布,其核心模型**TEN Voice Activity Detection (VAD)**和**TEN Turn Detection**正式开源,为构建实时、多模态的语音AI代理提供了强大的技术支持。

TEN Agent开源模型 TEN Voice Activity Detection TEN Turn Detection 语音AI代理技术 实时多模态语音处理

2025-06-25 13:20:26 85人关注

Wispr Flow获3000万美元A轮融资,语音AI挑战键盘霸权

语音输入技术初创公司Wispr Flow宣布完成3000万美元的A轮融资,由Menlo Ventures领投,NEA、8VC、Opal CEO Kenneth Schlenker、Pinterest创始人Evan Sharp、Carta CEO Henry Ward及Lindy CEO Flo Crivelli等知名投资者跟投。Wispr Flow累计融资金额已达5600万美元。这一轮融资将助力Wispr Flow扩展其AI驱动的语音输入技术,进一步挑战传统键盘输入方式,开启人机交互的新篇章。AIbase为您深入解析这一融资事件及其背后意义。

语音输入技术 Wispr Flow融资 AI驱动语音输入 人机交互技术 初创公司融资案例 AIbase融资解析

2025-06-25 13:12:16 76人关注

年增长15倍!语音AI客服平台Synthflow完成2000万美元融资,挑战Sierra和Bland AI

总部位于柏林的语音AI初创公司Synthflow AI宣布完成2000万美元A轮融资,由知名风投机构Accel领投,现有投资者Atlantic Labs和Singular跟投。该公司专注于为企业提供无代码语音AI客服解决方案,正值对话式AI市场迎来爆发式增长。

语音AI客服解决方案 无代码语音AI客服 Synthflow AI融资 对话式AI市场增长 Accel领投AI初创公司

2025-06-24 13:34:34 77人关注

ElevenLabs隆重推出AI语音助理11ai:语音优先并支持集成MCP

ElevenLabs正式发布其全新语音优先AI个人助理11ai,标志着语音AI技术在生产力工具领域的又一重大突破。作为一家以创新文本转语音和对话AI技术闻名的公司,ElevenLabs此次推出的11ai不仅集成了前沿的语音交互功能,还通过多工具集成和自定义MCP(多通道协议)支持,为用户提供了高度个性化的工作流体验。

语音AI技术 AI个人助理 11ai功能特点 ElevenLabs创新技术 MCP多通道协议 语音交互生产力工具

2025-04-22 16:23:31 199人关注

语音AI“一步到位”!阶跃开源 130B 统治级语音模型,实时对话+情感克隆,炸裂来袭

语音交互领域迎来里程碑式突破!国内AI公司阶跃(Step Audio)近日震撼开源了一款 1300亿参数的超大型语音模型,引发业界高度关注。这款被誉为“统治级”的强大模型,是业界首个集语音理解与生成控制于一体的产品级开源实时语音对话系统,其功能的全面性和技术的先进性令人惊叹,预示着语音AI技术发展或将“一步到位”迈向新高度。

语音AI 实时情感克隆 AI语音技术 情感克隆技术 130亿参数大模型

2025-01-28 08:39:31 353人关注

豆包发布实时语音大模型 中文一流,双商在线

近日,豆包公司宣布推出其全新的实时语音大模型,号称在中文对话方面实现了 “断崖式领先”,标志着 AI 对话能力的显著提升。这一模型在豆包 App(版本号7.2.0新春版)中全量开放,为用户带来了更为丰富和真实的语音交流体验。

豆包实时语音模型 中文语音模型 实时语音技术 语音AI模型 豆包AI技术

2025-01-28 06:15:10 416人关注

MiniMax海螺语音全球同步上线 包含T2A-01-Turbo等模型

2025年1月20日,上海稀宇科技有限公司旗下的MiniMax宣布其全新升级的T2A-01系列语音模型全球同步上线,并推出海螺语音产品。T2A-01系列包含T2A-01-HD,T2A-01-Turbo两款模型供用户使用,API服务已同步上线MiniMax开放平台,企业可以根据音频质量与生成速度的需求重点来选择。

Minimax Conch Voice T2A-01 Turbo 全球发布 语音AI技术

2025-01-25 10:23:24 138人关注

AI语音独角兽ElevenLabs完成2.5亿美元C轮融资,估值突破30亿

人工智能语音公司ElevenLabs再次引发关注,该公司刚刚完成了一轮高达2.5亿美元的C轮融资,估值在30亿至33亿美元之间。本次融资由ICONIQ Growth领投,显示出市场对AI语音技术的强烈信心。仅在一年之前,ElevenLabs刚刚完成了一笔8000万美元的B轮融资,当时的估值仅为现在的三分之一,可见该公司发展之迅猛。

AI语音独角兽 ElevenLabs估值 30亿美元估值 AI语音技术 语音AI创业公司

2025-01-14 21:11:45 313人关注

确认!ChatGPT高级语音模式将于下周对ChatGPT Plus订阅用户开放

OpenAI 的旗舰模型 GPT-4o("o" 代表 "omni")在五月份发布时,其音频理解能力备受瞩目。GPT-4o 模型能够以平均320毫秒的速度回应音频输入,这与人类在典型对话中的反应时间相似。

ChatGPT高级语音模式 Plus订阅者新功能 语音AI技术更新 ChatGPT下周更新 AI语音助手升级

2025-01-13 09:13:23 276人关注

未来已来!阿里新语音技术CosyVoice让AI说话更有人味儿

近日,阿里巴巴推出的最新语音合成模型CosyVoice,以其令人惊叹的逼真度和灵活性,为我们展示了未来人机交互的美好蓝图。

阿里云语音AI CosyVoice AI语音技术 阿里云语音合成 AI语音合成技术 阿里云语音AI应用场景

2025-01-12 23:22:40 88人关注

Meta计划为AI助手引入名人声音 或于9月发布

据多家媒体报道,社交媒体巨头Meta正在积极洽谈,计划为其人工智能产品引入多位知名演员和网红的声音。这项新功能可能最快将于今年9月的Meta Connect大会上亮相。

Meta AI 语音助手 名人语音AI AI语音助手技术 Meta AI 9月发布 Meta AI 语音助手应用场景

2025-01-08 09:36:15 70人关注

端到端语音大模型新秀:心辰Lingo开放内测预约

西湖心辰近日推出了国内首个端到端语音大模型——心辰Lingo,并已开启内测预约。这一创新模型被誉为国内首个能力追平GPT-4语音能力的AI系统,标志着中国在语音AI领域取得重大突破。

端到端语音模型 Lingo Beta 注册 语音模型技术 语音AI应用 语音模型测试

2024-12-16 14:42:15 93人关注

语音AI的颠覆者!PlayAI:用声音重塑数字交互的边界

从一个简单的Chrome扩展,到如今估值超2000万美元的AI语音帝国,PlayAI正用声音技术重新定义人机交互的想象边界。创始人Hammad Syed和Mahmoud Felfel用代码和算法编织出一个充满可能性的声音世界。

AI语音交互 PlayAI技术 数字交互创新 语音AI应用场景 PlayAI重新定义数字互动

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10