上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2024-12-26 16:13:14 271人关注

重新定义多模态AI！智源发布原生多模态世界模型Emu3

北京智源人工智能研究院宣布推出原生多模态世界模型Emu3。这一模型基于下一个token预测技术，无需依赖扩散模型或组合方法，就能够完成文本、图像、视频三种模态数据的理解和生成。Emu3在图像生成、视频生成、视觉语言理解等任务中超过了现有的知名开源模型，如SDXL、LLaVA、OpenSora等，展现了卓越的性能。

多模态AI 智源Emu3 AI大模型多模态技术 AI技术前沿人工智能创新

2024-12-26 14:18:20 238人关注

智源发布原生多模态世界模型Emu3：仅靠下一个token预测实现文本、图像和视频理解和生成

智源研究院正式发布了他们的新一代多模态世界模型 Emu3，该模型的最大亮点在于，它仅依靠下一个 token 的预测能力，就能在文本、图像和视频这三种不同模态中进行理解和生成。

多模态世界模型 Emu3 Token预测大模型技术 AI多模态技术 Emu3应用场景

- 上云资讯 -

重新定义多模态AI！智源发布原生多模态世界模型Emu3

智源发布原生多模态世界模型Emu3：仅靠下一个token预测实现文本、图像和视频理解和生成

推荐阅读

上云服务