- 上云资讯 -



2025-06-04 12:17:30 41人关注

B站文本转语音模型IndexTTS :支持拼音纠正汉字发音、精准控制停顿

B站的一款基于 XTTS 和 Tortoise 的 GPT 风格文本转语音(TTS)模型 IndexTTS 正式发布。该系统在处理中文文本时,具备独特的拼音纠正汉字发音能力,并能够通过标点符号在任意位置精准控制停顿。这一创新的技术使得文本转语音的效果更加自然流畅,受到了广泛关注。

2025-04-22 16:23:31 31人关注

语音AI“一步到位”!阶跃开源 130B 统治级语音模型,实时对话+情感克隆,炸裂来袭

语音交互领域迎来里程碑式突破!国内AI公司阶跃(Step Audio)近日震撼开源了一款 1300亿参数的超大型语音模型,引发业界高度关注。这款被誉为“统治级”的强大模型,是业界首个集语音理解与生成控制于一体的产品级开源实时语音对话系统,其功能的全面性和技术的先进性令人惊叹,预示着语音AI技术发展或将“一步到位”迈向新高度。

2025-01-28 02:30:22 198人关注

海螺AI海外版发布新语音模型T2A-01-HD 生成音频质量更高

继2024年底海螺AI海外版上线AI语音克隆功能后,日前Hailuo AI又上线了新语音模型T2A-01-HD。T2A-01-HD新语音模型同样支持语音克隆,能生成情感丰富的语音。

2025-01-15 10:23:38 434人关注

小型文本转语音模型Kokoro-TTS,曾拿下TTS排行榜第一

在人工智能的快速发展中,语音合成技术正日益受到关注。近日,名为 Kokoro 的最新语音合成模型在 Hugging Face 平台上正式发布,该模型具有8200万参数,标志着语音合成领域的一个重要里程碑。

2025-01-15 04:12:15 53人关注

媲美GPT-4o!复旦推语音模型SpeechGPT2 能听懂你的喜怒哀乐

在人工智能的世界里,大型语言模型(LLM)已经成为推动自然语言处理(NLP)任务的关键力量。然而,要让这些模型真正理解并生成跨模态内容,如语音和文本,我们还有很长的路要走。复旦大学的研究团队在论文"SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities"中提出了一种创新的解决方案——SpeechGPT。

2025-01-12 14:28:15 105人关注

上交大携手字节跳动推出LSLM:AI语音模型实现"边听边说"突破

近日,上交大LANCE实验室和字节跳动联手推出了一款名为LSLM的新型交互式语音模型。据称,这款模型可以边听边说,效果非常好,接近人类自然的对话方式。

2025-01-11 15:37:19 68人关注

字节、上海交大联合推全新语音模型LSLM 可边听边说

上海交通大学X-LANCE人工智能实验室与字节跳动联手打造的LSLM(Listen-Speak Language Model)全双工语言模型,让AI助手能够在对话中边说边听,实现真正的实时交互。

2025-01-11 10:11:16 198人关注

阿里巴巴发布新语音模型 Qwen2-Audio,实力超越 OpenAI Whisper

近日,阿里巴巴在其 Qwen-Audio 的基础上,推出了全新的开源语音模型 Qwen2-Audio。这款模型不仅在语音识别、翻译和音频分析方面表现出色,更是在功能和性能上实现了显著提升。Qwen2-Audio 提供了基础版和指令微调版,用户可以通过语音对音频模型提问,并识别和分析内容。

2025-01-09 01:25:19 416人关注

字节豆包语音模型和视觉模型再升级 综合能力提升20.3%

在2024年8月21日举办的火山引擎AI创新巡展上海站上,火山引擎展示了其豆包大模型的全面升级,以及对话式AI实时交互解决方案的增强。

2025-01-06 15:13:25 96人关注

​NVIDIA推全新视觉语音模型NVEagle,可以看图跟你聊天

最近,NVIDIA 联合 Georgia Tech、UMD 和 HKPU 的研究团队推出了全新的视觉语言模型 ——NVEagle。它能看懂图片还能跟你聊天,这相当于一个会看会说的超级助手。

2025-01-01 17:23:17 99人关注

研究发现,AI语音模型在归纳推理中表现出色,在演绎任务中“碰壁”

最近,加州大学洛杉矶分校和亚马逊的研究人员对大型语言模型(LLMs)的推理能力进行了深入分析。他们首次系统地区分了归纳推理和演绎推理这两种能力,探讨了这两者对 AI 系统的挑战程度。

2024-12-25 17:15:19 86人关注

AI专家谭旭加盟月之暗面,负责研发端到端语音模型

据媒体报道,微软亚洲研究院前首席研究经理谭旭已于8月加入大模型创业公司月之暗面,主要负责研发端到端语音模型。谭旭加入后,其中一项重要目标是为该公司打造类似GPT-4o的语音体验。

2024-12-22 03:30:40 32人关注

超快速文本转语音模型Lightning:超低延迟, 100毫秒生成10秒音频

近日,总部位于美国加州旧金山的 AI 初创公司 smallest.ai 推出了其新产品 Lightning,一款能够在100毫秒内生成长达10秒音频的文本转语音(TTS)模型。此项技术的进步,使得全球开发者能够构建高仿真度的语音机器人应用,且延迟时间极短,降低了实施成本,提高了应用的可及性。