上云资讯 - 来上云吧，企业上云一站式服务

2025-09-01 16:11:21 807人关注

开源语音大模型 “Step-Audio 2 mini” 发布！听得清楚、说得自然

近日，阶跃星辰正式推出了最新的开源端到端语音大模型 ——Step-Audio2mini。这款模型在多个国际基准测试中表现优异，获得了 SOTA（最先进技术）成绩，令人瞩目。Step-Audio2mini 不仅在语音理解和音频生成方面能力强大，还首次将音频推理和生成统一建模，为语音识别、跨语言翻译和情感解析等多种应用场景提供了出色的解决方案。

Step-Audio2mini 语音大模型端到端语音模型音频推理与生成语音识别技术跨语言翻译模型情感解析AI

2025-06-16 12:37:29 370人关注

字节火山引擎澄清与老凤祥 AI 智能眼镜合作传闻

近日，有关字节跳动旗下的火山引擎与中国珠宝品牌老凤祥合作开发 AI 智能眼镜的消息引发关注。根据6月11日的报道，一些知情人士透露，老凤祥即将推出多款搭载字节豆包大模型的 AI 眼镜，预计将在七月正式发布。这些产品主要针对老年群体，具备视觉理解、语音对话、语义识别、电话接听等多种功能。

AI智能眼镜字节豆包大模型应用老凤祥AI眼镜老年智能眼镜功能 AI眼镜语音识别技术

2025-05-31 16:16:18 398人关注

ElevenLabs 发布 Scribe 语音转文本模型，准确率创新高、英语达 96.7%

ElevenLabs 是一家备受瞩目的人工智能语音克隆与生成初创公司，近日推出了其最新的语音转文本模型 ——Scribe v1。该模型声称在多种语言中都达到了最高的准确性，用户可以通过其官网进行体验。

ElevenLabs Scribe 语音转文本模型文本模型准确率语音识别技术 AI语音处理

2025-02-12 10:37:25 1446人关注

小红书开源的语音识别模型FireRedASR，中文识别准确率优越

在语音识别领域，中文识别的技术发展一直备受关注。近日，小红书的 FireRed 团队发布了一个全新的开源语音识别模型 ——FireRedASR。这个基于大模型的语音识别系统在多个标准测试集上取得了优异的成绩，标志着中文语音识别技术的一次重大突破。

小红书飞书妙记中文语音识别语音识别技术 ASR技术语音转文字

2025-01-23 20:18:34 544人关注

AI终于迈过这道槛！Livekit 开源模型精准识别“你是否说完”！

在人机对话的世界里，最让人头疼的莫过于——“你到底说完没”! 这句话看似简单，却成了无数语音助手和客服机器人迈不过去的一道坎儿。你是不是也经常遇到这种情况:你只是停顿了一下，想思考接下来要说什么，结果 AI 就迫不及待地蹦出来回应;或者你明明已经讲完了，AI 却还在傻傻地等着，直到你忍不住再说一句“我讲完了”它才反应过来，这体验简直让人抓狂。

AI语音识别 AI实时语音处理 LiveKit技术语音识别技术 AI语音处理应用

2025-01-21 22:11:29 603人关注

阶跃星辰Step-1o Audio千亿参数端到端语音大模型上线将接入跃问App

阶跃星辰近日宣布推出Step系列模型矩阵的新成员——Step-1o端到端语音大模型，据称这是国内首个千亿参数端到端语音大模型。这一新模型的发布标志着语音技术领域的一大进步，它通过端到端的语音方案，能够实现语音理解和生成的一体化，从而提升模型智商和情商的上限，并实现超自然、高质量的交流体验。

音频模型语音模型 Step 1O模型语音识别技术音频处理技术

2025-01-20 08:22:44 379人关注

Resemble AI 发布下一代深度伪造检测模型 Detect-2B:准确率高达94%

Resemble AI，一家领先的语音克隆公司，近日宣布发布了其下一代深度伪造检测模型 Detect-2B。这款新模型在检测 AI 生成的音频方面表现出了约94%的高准确率，标志着深度伪造检测技术的又一重要进步。

Resemble AI AI语音检测 AI检测准确率 AI技术突破 AI语音识别技术

2025-01-19 09:35:28 224人关注

GroqCloud 静悄悄推出 Whisper V3 Large，开发者们快来体验吧！

近日，GroqCloud 静悄悄地推出了 Whisper V3 Large。赶紧尝试吧，现在已经内置在 GroqChat 中，让每个人都能体验。

GroqCloud Whisper V3 Large AI大模型语音识别技术云端AI服务 AI模型优化

2025-01-15 02:29:43 727人关注

武汉大学联合中国移动九天人工智能团队开源音视频说话人识别数据集 VoxBlink2

武汉大学联合中国移动九天人工智能团队和昆山杜克大学基于YouTube数据开源了超过11万小时的音视频说话人识别数据集VoxBlink2。该数据集包含9904382个高质量音频片段及其相应的视频片段，来自YouTube上的111284名用户，是目前最大的公开可用的音视频说话人识别数据集。数据集的发布旨在丰富开源语音语料库，支持训练声纹大模型。

武汉大学 VoxBlink2数据集语音数据集 AI语音识别语音识别技术

2025-01-14 16:22:39 309人关注

Intron Health宣布获得160万美元融资支持非洲口音识别

Intron Health，一家专注于临床语音识别的初创公司，宣布获得了160万美元的种子轮融资。该公司由Tobi Olatunji创立，他曾是一名在尼日利亚接受培训并执业的医生，亲眼目睹了医疗系统的低效率，包括繁琐的文书工作和追踪这些文件的困难。

Intron Health 非洲口音识别医疗科技融资 1.6M美元融资非洲医疗AI 语音识别技术

2025-01-09 06:15:14 951人关注

字节跳动自动语音识别模型Seed-ASR,各种口音和方言统统能听懂！

语音识别技术一直是人工智能发展的重点领域之一。而如今，字节跳动推出的Seed-ASR引擎，正在彻底打破语言和方言的壁垒，为这项技术注入全新活力。

字节跳动 Seed ASR 口音识别方言识别语音识别技术 AI语音处理

2024-12-27 20:30:35 439人关注

突破性语音识别技术:FunASR推出多语种离线转录利器

近日，FunASR推出了一款功能强大的多语言离线文件转录软件包，为用户提供了高效、精准的语音转文本解决方案。

FunASR 多语言语音识别离线语音转录语音识别技术 FunASR应用场景

2024-12-27 14:19:44 209人关注

Gladia语音识别API获1600万美元A轮融资，挑战亚马逊、微软和谷歌

法国初创公司Gladia提供了一种语音识别应用程序编程接口（API），在A轮融资中筹集了1600万美元。本质上，Gladia的API能够将任何音频文件以高准确度和低延迟转换成文本。

Gladia语音识别API 语音识别API融资 Gladia融资1600万语音识别技术融资 Gladia API应用场景

2024-12-24 18:44:32 234人关注

AI语音转录工具Whisper被曝存在严重“幻觉” ，时常瞎编胡造

最近，一款由 OpenAI 的 Whisper 技术驱动的 AI 转录工具在医疗行业广受欢迎。许多医生和医疗机构都在使用这个工具来记录和总结与患者的会面。

AI语音转录 Whisper模型语音转录幻觉问题 AI语音识别技术 Whisper模型应用场景

2024-12-23 22:41:36 212人关注

Claude APP新增语音功能：Anthropic小范围测试最长10分钟语音听写

据悉，人工智能公司 Anthropic 正在对其 Claude 应用程序进行新功能测试。有消息称，该公司正在小范围内测试语音听写功能，用户可以进行长达 10 分钟的语音录制，由 Claude 进行转录。

Claude App 语音听写测试 Claude 语音功能 Claude 应用评测 AI语音识别技术

2024-12-22 10:38:37 348人关注

新开源语音识别模型Moonshine：速度比OpenAI Whisper快五倍

美国初创公司 Useful Sensors 推出了一款名为 Moonshine 的开源语音识别模型。Moonshine 的设计旨在更高效地处理音频数据，相比于 OpenAI 的 Whisper，它在计算资源的使用上更为经济，处理速度快五倍。这一新模型专为在资源有限的硬件上实现实时应用而打造，具有灵活的架构。

开源语音识别模型 Moonshine 语音识别语音识别技术开源语音模型 Moonshine 模型应用

- 上云资讯 -

开源语音大模型 “Step-Audio 2 mini” 发布！听得清楚、说得自然

字节火山引擎澄清与老凤祥 AI 智能眼镜合作传闻

ElevenLabs 发布 Scribe 语音转文本模型，准确率创新高、英语达 96.7%

小红书开源的语音识别模型FireRedASR，中文识别准确率优越

AI终于迈过这道槛！Livekit 开源模型精准识别“你是否说完”！

阶跃星辰Step-1o Audio千亿参数端到端语音大模型上线将接入跃问App

Resemble AI 发布下一代深度伪造检测模型 Detect-2B:准确率高达94%

GroqCloud 静悄悄推出 Whisper V3 Large，开发者们快来体验吧！

武汉大学联合中国移动九天人工智能团队开源音视频说话人识别数据集 VoxBlink2

Intron Health宣布获得160万美元融资支持非洲口音识别

字节跳动自动语音识别模型Seed-ASR,各种口音和方言统统能听懂！

突破性语音识别技术:FunASR推出多语种离线转录利器

Gladia语音识别API获1600万美元A轮融资，挑战亚马逊、微软和谷歌

AI语音转录工具Whisper被曝存在严重“幻觉” ，时常瞎编胡造

Claude APP新增语音功能：Anthropic小范围测试最长10分钟语音听写

新开源语音识别模型Moonshine：速度比OpenAI Whisper快五倍

推荐阅读

上云服务

- 上云资讯 -

开源语音大模型 “Step-Audio 2 mini” 发布！听得清楚、说得自然

​字节火山引擎澄清与老凤祥 AI 智能眼镜合作传闻

​ElevenLabs 发布 Scribe 语音转文本模型，准确率创新高、英语达 96.7%

小红书开源的语音识别模型FireRedASR，中文识别准确率优越

AI终于迈过这道槛！Livekit 开源模型精准识别“你是否说完”！

阶跃星辰Step-1o Audio千亿参数端到端语音大模型上线 将接入跃问App

Resemble AI 发布下一代深度伪造检测模型 Detect-2B:准确率高达94%

GroqCloud 静悄悄推出 Whisper V3 Large，开发者们快来体验吧！

武汉大学联合中国移动九天人工智能团队开源音视频说话人识别数据集 VoxBlink2

Intron Health宣布获得160万美元融资 支持非洲口音识别

字节跳动自动语音识别模型Seed-ASR,各种口音和方言统统能听懂！

突破性语音识别技术:FunASR推出多语种离线转录利器

Gladia语音识别API获1600万美元A轮融资，挑战亚马逊、微软和谷歌

AI语音转录工具Whisper被曝存在严重“幻觉” ，时常瞎编胡造

Claude APP新增语音功能：Anthropic小范围测试最长10分钟语音听写

​新开源语音识别模型Moonshine：速度比OpenAI Whisper快五倍

推荐阅读

上云服务

字节火山引擎澄清与老凤祥 AI 智能眼镜合作传闻

ElevenLabs 发布 Scribe 语音转文本模型，准确率创新高、英语达 96.7%

阶跃星辰Step-1o Audio千亿参数端到端语音大模型上线将接入跃问App

Intron Health宣布获得160万美元融资支持非洲口音识别

新开源语音识别模型Moonshine：速度比OpenAI Whisper快五倍