上云资讯 - 来上云吧，企业上云一站式服务

2024-12-26 14:18:20 237人关注

智源发布原生多模态世界模型Emu3：仅靠下一个token预测实现文本、图像和视频理解和生成

智源研究院正式发布了他们的新一代多模态世界模型 Emu3，该模型的最大亮点在于，它仅依靠下一个 token 的预测能力，就能在文本、图像和视频这三种不同模态中进行理解和生成。

2024-12-25 01:41:41 236人关注

最近，Salesforce AI 研究团队推出了一款全新的多模态语言模型 ——BLIP-3-Video。随着视频内容的快速增加，如何高效处理视频数据成为了一个亟待解决的问题。这款模型的出现，旨在提升视频理解的效率和效果，适用于从自动驾驶到娱乐等各个行业。

2024-12-19 21:38:27 931人关注

科大讯飞公司近日宣布，其最新研发的讯飞星火多模态交互大模型正式投入运营。这一技术突破标志着科大讯飞从单一的语音交互技术拓展到音视频流实时多模态交互的新阶段。新模型集成了语音、视觉和数字人交互功能，用户可通过一键调用，实现三者的无缝结合。