上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-05-09 08:19:30 270人关注

西北工业大学开源语音理解模型OSUM，结合Whisper和Qwen2，支持8种语音理解任务

在人工智能领域，语言模型的快速发展引发了语音理解语言模型（SULMs）的广泛关注。近日，西北工业大学 ASLP 实验室发布了开放语音理解模型 OSUM，旨在探索在学术资源有限的情况下，如何有效训练和利用语音理解模型，以推动学术界的研究与创新。

NWPU OSUM Whisper Qwen2-8 语音任务语音处理技术

2025-01-27 11:12:23 423人关注

OpenBMB发布多模态模型MiniCPM-o2.6 手机也能进行视觉和语音处理

近年来，人工智能技术取得了显著进展，但在计算效率与多功能性之间仍然存在挑战。许多先进的多模态模型，如 GPT-4，通常需要大量的计算资源，这限制了它们在高端服务器上的使用，导致智能技术难以在智能手机和平板电脑等边缘设备上得到有效利用。此外，实时处理视频分析或语音转文本等任务仍面临技术障碍，突显出对高效、灵活的 AI 模型的需求，以便在有限的硬件条件下实现无缝运作。

OpenBMB MiniCPM O26 移动端视觉处理语音处理技术大模型应用

2025-01-11 00:41:35 283人关注

利用 OpenAI 实时语音 API 构建智能语音应用的全新指南

在人工智能技术飞速发展的当下，OpenAI 于2023年10月1日推出了其最新的实时 API，旨在为开发者提供构建智能语音应用的强大工具。此 API 的发布受到了广泛关注，尤其是在 OpenAI DevDay 新加坡站上，Daily.co 的工程师分享了他们在使用这一 API 过程中获得的经验和教训。该工程师们不仅借助实时 API 搭建产品，还积极参与了开源项目 Pipecat 的开发，旨在为更多开发者提供便利。

OpenAI实时语音API 智能应用开发指南 OpenAI API应用场景语音API技术解析实时语音处理技术

2025-01-06 15:13:25 311人关注

NVIDIA推全新视觉语音模型NVEagle，可以看图跟你聊天

最近，NVIDIA 联合 Georgia Tech、UMD 和 HKPU 的研究团队推出了全新的视觉语言模型 ——NVEagle。它能看懂图片还能跟你聊天，这相当于一个会看会说的超级助手。

NVIDIA视觉语音模型视觉语音模型技术 NVEagle应用场景语音模型创新 AI语音处理技术

2024-12-11 11:10:43 524人关注

去除背景噪声阿里通义实验室开源语音处理技术ClearerVoice-Studio

阿里巴巴达摩院的通义实验室近期宣布开源一项名为ClearerVoice-Studio的语音处理技术，旨在提升语音质量和可懂度。随着语音技术的广泛应用，语音质量受到越来越多人的关注，尤其是在环境噪声、混响和设备拾音等情况下，语音处理技术的需求日益迫切。

清除背景噪音 ClearerVoice Studio 音频降噪工具背景噪音消除语音清晰度提升

- 上云资讯 -

西北工业大学开源语音理解模型OSUM，结合Whisper和Qwen2，支持8种语音理解任务

OpenBMB发布多模态模型MiniCPM-o2.6 手机也能进行视觉和语音处理

利用 OpenAI 实时语音 API 构建智能语音应用的全新指南

NVIDIA推全新视觉语音模型NVEagle，可以看图跟你聊天

去除背景噪声阿里通义实验室开源语音处理技术ClearerVoice-Studio

推荐阅读

上云服务

- 上云资讯 -

西北工业大学开源语音理解模型OSUM，结合Whisper和Qwen2，支持8种语音理解任务

OpenBMB发布多模态模型MiniCPM-o2.6 手机也能进行视觉和语音处理

利用 OpenAI 实时语音 API 构建智能语音应用的全新指南

​NVIDIA推全新视觉语音模型NVEagle，可以看图跟你聊天

去除背景噪声 阿里通义实验室开源语音处理技术ClearerVoice-Studio

推荐阅读

上云服务

NVIDIA推全新视觉语音模型NVEagle，可以看图跟你聊天

去除背景噪声阿里通义实验室开源语音处理技术ClearerVoice-Studio