- 上云资讯 -
2025-05-10 16:14:28 34人关注
Vidu Q1 系列 API 正式开放 同时上线文生音频模型
近日, Vidu Q1系列 API 已正式面向全球开放。开发者与企业用户可借此契机,通过调用 API 体验 Vidu Q1模型所具备的多样化功能。
2025-01-16 00:35:39 85人关注
Stability AI开源音频生成模型Stable Audio Open:可生成47秒的立体声音频
最近,Stability AI 团队推出了一款全新的开源音频生成模型,名为 Stable Audio Open。这款模型的特别之处在于,它能够从文本提示生成时长可达47秒的立体声音频,采样率高达44.1kHz。
Stability AI Stable Audio AI音频生成 AI音频技术 Stability AI新闻 音频模型开源
2025-01-11 10:11:16 200人关注
阿里巴巴发布新语音模型 Qwen2-Audio,实力超越 OpenAI Whisper
近日,阿里巴巴在其 Qwen-Audio 的基础上,推出了全新的开源语音模型 Qwen2-Audio。这款模型不仅在语音识别、翻译和音频分析方面表现出色,更是在功能和性能上实现了显著提升。Qwen2-Audio 提供了基础版和指令微调版,用户可以通过语音对音频模型提问,并识别和分析内容。
2025-01-08 06:40:38 71人关注
摩尔线程宣布开源音频理解大模型MooER
摩尔线程近日宣布开源其音频理解大模型MooER(摩耳),成为业界首个基于国产全功能GPU训练和推理的大型开源语音模型。MooER不仅支持中英文语音识别,还具备中译英的语音翻译能力,展现了强大的多语言处理能力。
2024-12-22 16:14:17 59人关注
全新开源音频模型Hertz-Dev:超低延迟,实现AI实时对话
在当今科技的浪潮中,对话式人工智能(AI)已经成为我们生活中的重要组成部分。然而,快速、高效和实时的互动仍然是一个不小的挑战。尤其是延迟问题,指的是输入与响应之间的时间差,常常让客服机器人和虚拟助手的体验变得缓慢,影响用户的使用感受。
2024-12-17 13:21:36 59人关注
Meta最新音频大模型SPIRIT LM,让AI不止能说会道,还能“声情并茂”!
Meta AI近日重磅开源了名为SPIRIT LM的基础多模态语言模型,该模型能够自由混合文本和语音,为音频和文本的多模态任务打开了新的可能性。
2024-12-16 16:10:31 50人关注
英伟达出品!AI音频模型Fugatto:输入文本、音频可生成音乐、音效
在音乐和声音创作领域,技术与创意的结合总是面临诸多挑战。现有的 AI 模型往往只擅长特定的任务,缺乏广泛的适应性,这使得 AI 在音乐制作中的辅助作用受限。为了让 AI 更好地服务于音乐与音频生产,亟需一款能够灵活应对各种创作需求的通用模型。为此,NVIDIA 推出了 Fugatto,这是一款拥有25亿参数的音频生成与处理模型。