上云资讯 - 来上云吧，企业上云一站式服务

2025-06-02 10:27:25 406人关注

通义大模型发布OmniAudio 可从 360° 视频生成空间音频

近日，通义实验室语音团队在空间音频生成领域取得里程碑式成果，推出OmniAudio技术，该技术可直接从360°视频生成FOA（First-order Ambisonics）音频，为虚拟现实和沉浸式娱乐带来全新可能。

2025-03-25 10:19:20 346人关注

3月11日，通义实验室团队宣布开源R1-Omni模型，为全模态模型的发展带来了新的突破。该模型结合了强化学习与可验证奖励（RLVR）方法，专注于提升多模态情感识别任务中的推理能力和泛化性能。

2025-01-22 05:14:45 296人关注

国内人工智能公司无问芯穹宣布开源其最新研发的端侧全模态理解 AI 模型 ——Megrez-3B-Omni。这一模型是全球首个此类开源项目，标志着该公司在 AI 领域的创新发展。与此同时，无问芯穹还推出了纯语言版本的模型 Megrez-3B-Instruct，以进一步丰富其产品线。

2025-01-05 01:23:26 605人关注

在人工智能快速发展的今天，一款名为Mini-Omni的开源多模态大型语言模型正在引领语音交互技术的革新。这个由多个先进技术集成而成的AI系统，不仅能够实现实时的语音输入和输出，还具备"边思考边说话"的独特能力，为用户带来前所未有的自然交互体验。

2025-01-01 06:26:39 438人关注

西湖心辰宣布开源其研发的Westlake-Omni模型。作为全球首个开源的中文情感端到端语音交互大模型，Westlake-Omni采用了离散表示法来统一文本和语音模态，特别注重实时性，能够快速响应并提供几乎零延迟的体验。