上云资讯 - 来上云吧，企业上云一站式服务

2025-11-21 08:18:19 303人关注

MOSS-Speech开源：国内首个语音到语音大模型，告别文本中介

复旦大学MOSS团队推出MOSS-Speech，首次实现端到端Speech-to-Speech对话，模型已上线Hugging Face Demo并同步开源权重与代码。MOSS-Speech采用“层拆分”架构:冻结原MOSS文本大模型参数，新增语音理解、语义对齐与神经声码器三层，可一次性完成语音问答、情绪模仿与笑声生成，无需ASR→LLM→TTS三段流水线。

AI

2025-09-20 09:11:33 440人关注

AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-Animate正式开源；Suno v5即将上线

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

AI

2025-09-16 16:32:20 233人关注

逻辑智能发布全球首个开源语音大模型框架 LLaSO

在人工智能的快速发展浪潮中，北京深度逻辑智能科技有限公司于近日推出了一项令人瞩目的创新 ——LLaSO。这一开创性的研究框架被称为全球首个完全开放、端到端的语音语言模型，标志着语音识别和处理技术的新高度。

AI

2025-09-02 08:26:22 951人关注

AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

AI日报人工智能热点 AI技术趋势 AI开发者指南创新AI产品应用 AI领域洞见

2025-09-01 16:11:21 809人关注

开源语音大模型 “Step-Audio 2 mini” 发布！听得清楚、说得自然

近日，阶跃星辰正式推出了最新的开源端到端语音大模型 ——Step-Audio2mini。这款模型在多个国际基准测试中表现优异，获得了 SOTA（最先进技术）成绩，令人瞩目。Step-Audio2mini 不仅在语音理解和音频生成方面能力强大，还首次将音频推理和生成统一建模，为语音识别、跨语言翻译和情感解析等多种应用场景提供了出色的解决方案。

Step-Audio2mini 语音大模型端到端语音模型音频推理与生成语音识别技术跨语言翻译模型情感解析AI

2025-07-02 11:11:10 263人关注

荣耀打响 AI 语音技术新战役，全球首个端侧语音大模型即将上线！

荣耀官方微博@MagicOS宣布，荣耀成功实现全球首个端侧语音大模型的部署。这项技术的进步不仅是荣耀的一次突破，更被誉为 “AI 语音技术再升级”。这项重磅成果将在即将发布的荣耀 Magic V5海外版中首发亮相。

荣耀Magic V5 端侧语音大模型 AI语音技术荣耀MagicOS 全球首个端侧语音大模型荣耀Magic V5海外版

2025-05-21 16:34:19 630人关注

腾讯混元宣布模型矩阵全面升级，新推视觉推理模型T1-Vision和语音通话模型混元Voice

今日，腾讯混元正式宣布其模型矩阵的全面升级，包括旗舰快思考模型混元TurboS、深度思考模型混元T1升级，并基于TurboS基座，新推出视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice。

腾讯混元大模型大模型升级多模态大模型视觉语音大模型腾讯AI技术进展

2025-04-01 10:34:35 446人关注

百度文小言全面升级，推出多模型融合调度与新语音大模型

在刚刚结束的百度 AI DAY 上，百度文小言正式宣布了品牌焕新和功能升级的消息。此次升级不仅包括全新的视觉形象，更重要的是引入了多模型融合调度技术，这将极大增强其语音识别和图片问答的能力。

百度文心大模型升级语音模型优化文心大模型最新进展百度AI技术更新语音模型功能增强

2025-01-28 08:39:31 839人关注

豆包发布实时语音大模型中文一流，双商在线

近日，豆包公司宣布推出其全新的实时语音大模型，号称在中文对话方面实现了 “断崖式领先”，标志着 AI 对话能力的显著提升。这一模型在豆包 App（版本号7.2.0新春版）中全量开放，为用户带来了更为丰富和真实的语音交流体验。

豆包实时语音模型中文语音模型实时语音技术语音AI模型豆包AI技术

2025-01-27 10:17:26 366人关注

科大讯飞星火同传语音大模型发布：达到人类专家译员水平

今日，科大讯飞正式发布了其最新研发的星火同传语音大模型，标志着国内首个具备端到端语音同传能力的大模型正式面世。这一创新技术相较于讯飞此前的翻译技术，实现了全场景翻译效果的显著提升，并大幅缩短了端到端的响应时间。

科大讯飞 Spark翻译模型翻译模型人类水平翻译 AI翻译技术讯飞翻译技术

2025-01-21 22:11:29 604人关注

阶跃星辰Step-1o Audio千亿参数端到端语音大模型上线将接入跃问App

阶跃星辰近日宣布推出Step系列模型矩阵的新成员——Step-1o端到端语音大模型，据称这是国内首个千亿参数端到端语音大模型。这一新模型的发布标志着语音技术领域的一大进步，它通过端到端的语音方案，能够实现语音理解和生成的一体化，从而提升模型智商和情商的上限，并实现超自然、高质量的交流体验。

音频模型语音模型 Step 1O模型语音识别技术音频处理技术

2025-01-18 18:32:42 545人关注

阿里通义音频生成大模型 FunAudioLLM 开源支持情绪语音对话、有声读物等场景

阿里通义实验室最近开源了名为FunAudioLLM的音频生成大模型项目，旨在提升人类与大型语言模型（LLMs）间的自然语音交互体验。该项目由两个核心模型组成:SenseVoice和CosyVoice。

通义FunAudioLLM 阿里语音大模型音频生成技术大模型语音合成语音生成AI

2025-01-09 20:43:20 380人关注

8月30日上线！科大讯飞星火语音大模型更新“极速超拟人交互”

科大讯飞星火语音大模型迎来了全新的升级，推出了名为“星火极速超拟人交互”的新一代交互体验。这一升级在多个方面进行了优化和增强，旨在为用户提供更加自然、流畅和富有情感的对话体验。

科大讯飞 Spark语音大模型语音模型更新 AI语音技术大模型升级

2025-01-08 09:36:15 201人关注

端到端语音大模型新秀:心辰Lingo开放内测预约

西湖心辰近日推出了国内首个端到端语音大模型——心辰Lingo，并已开启内测预约。这一创新模型被誉为国内首个能力追平GPT-4语音能力的AI系统，标志着中国在语音AI领域取得重大突破。

端到端语音模型 Lingo Beta 注册语音模型技术语音AI应用语音模型测试

2025-01-05 16:28:11 508人关注

Soul语音大模型重磅升级：实时端到端语音通话真人和AI虚拟人傻傻分不清楚！

在国内“AI+社交”这条赛道上，Soul App即将利用AI注入了新的活力!

Soul Voice模型升级实时AI通话 AI语音模型语音技术升级 AI通话技术

2025-01-05 04:33:14 375人关注

国内首个端到端通用语音大模型「心辰Lingo」正式发布

西湖心辰科技有限公司近日在外滩大会上正式发布了国内首个端到端通用语音大模型——心辰Lingo。该模型自8月1日问世以来，经过内测预约，于9月5日向公众展示了其先进的语音处理能力。心辰Lingo能够直接理解语音，捕捉语气、节奏和情绪，并进行语音回复，减少了信息处理过程中的损失，使机器更能理解人类语言的细微差别。

中文语音模型端到端语音模型新晨灵构语音模型技术语音模型应用场景

2025-01-02 22:29:39 443人关注

巨人网络发布自研角色大模型GiantGPT、语音大模型BaiLing-TTS

在2024年云栖大会的开幕式上，巨人网络首次亮相并展出了其在“游戏+AI”领域的最新成果。该公司推出了两款自研的大模型应用——GiantGPT和BaiLing-TTS，同时展示了AI数字人和AI绘画平台巨人摹境等新技术。

巨量网络 GiantGPT 百灵TTS AI大模型语音合成技术

2025-01-01 06:26:39 438人关注

西湖心辰开源中文情感端到端语音大模型Westlake-Omni

西湖心辰宣布开源其研发的Westlake-Omni模型。作为全球首个开源的中文情感端到端语音交互大模型，Westlake-Omni采用了离散表示法来统一文本和语音模态，特别注重实时性，能够快速响应并提供几乎零延迟的体验。

西湖大学中文情感分析语音情感模型 Omni模型情感语音识别中文语音处理

- 上云资讯 -

MOSS-Speech开源：国内首个语音到语音大模型，告别文本中介

AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-Animate正式开源；Suno v5即将上线

逻辑智能发布全球首个开源语音大模型框架 LLaSO

AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

开源语音大模型 “Step-Audio 2 mini” 发布！听得清楚、说得自然

荣耀打响 AI 语音技术新战役，全球首个端侧语音大模型即将上线！

腾讯混元宣布模型矩阵全面升级，新推视觉推理模型T1-Vision和语音通话模型混元Voice

百度文小言全面升级，推出多模型融合调度与新语音大模型

豆包发布实时语音大模型中文一流，双商在线

科大讯飞星火同传语音大模型发布：达到人类专家译员水平

阶跃星辰Step-1o Audio千亿参数端到端语音大模型上线将接入跃问App

阿里通义音频生成大模型 FunAudioLLM 开源支持情绪语音对话、有声读物等场景

8月30日上线！科大讯飞星火语音大模型更新“极速超拟人交互”

端到端语音大模型新秀:心辰Lingo开放内测预约

Soul语音大模型重磅升级：实时端到端语音通话真人和AI虚拟人傻傻分不清楚！

国内首个端到端通用语音大模型「心辰Lingo」正式发布

巨人网络发布自研角色大模型GiantGPT、语音大模型BaiLing-TTS

西湖心辰开源中文情感端到端语音大模型Westlake-Omni

推荐阅读

上云服务

- 上云资讯 -

MOSS-Speech开源：国内首个语音到语音大模型，告别文本中介

AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-Animate正式开源；Suno v5即将上线

逻辑智能发布全球首个开源语音大模型框架 LLaSO

AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

开源语音大模型 “Step-Audio 2 mini” 发布！听得清楚、说得自然

荣耀打响 AI 语音技术新战役，全球首个端侧语音大模型即将上线！

腾讯混元宣布模型矩阵全面升级，新推视觉推理模型T1-Vision和语音通话模型混元Voice

百度文小言全面升级，推出多模型融合调度与新语音大模型

豆包发布实时语音大模型 中文一流，双商在线

科大讯飞星火同传语音大模型发布：达到人类专家译员水平

阶跃星辰Step-1o Audio千亿参数端到端语音大模型上线 将接入跃问App

阿里通义音频生成大模型 FunAudioLLM 开源 支持情绪语音对话、有声读物等场景

8月30日上线！科大讯飞星火语音大模型更新“极速超拟人交互”

端到端语音大模型新秀:心辰Lingo开放内测预约

Soul语音大模型重磅升级：实时端到端语音通话 真人和AI虚拟人傻傻分不清楚！

国内首个端到端通用语音大模型「心辰Lingo」正式发布

巨人网络发布自研角色大模型GiantGPT、语音大模型BaiLing-TTS

西湖心辰开源中文情感端到端语音大模型Westlake-Omni

推荐阅读

上云服务

豆包发布实时语音大模型中文一流，双商在线

阶跃星辰Step-1o Audio千亿参数端到端语音大模型上线将接入跃问App

阿里通义音频生成大模型 FunAudioLLM 开源支持情绪语音对话、有声读物等场景

Soul语音大模型重磅升级：实时端到端语音通话真人和AI虚拟人傻傻分不清楚！