LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2024-12-26 14:18:20 78人关注

智源发布原生多模态世界模型Emu3:仅靠下一个token预测实现文本、图像和视频理解和生成

智源研究院正式发布了他们的新一代多模态世界模型 Emu3,该模型的最大亮点在于,它仅依靠下一个 token 的预测能力,就能在文本、图像和视频这三种不同模态中进行理解和生成。

多模态世界模型 Emu3 Token预测 大模型技术 AI多模态技术 Emu3应用场景

2024-12-25 01:41:41 77人关注

Salesforce AI研究推全新多模态模型BLIP-3-Video:低成本搞定视频理解

最近,Salesforce AI 研究团队推出了一款全新的多模态语言模型 ——BLIP-3-Video。随着视频内容的快速增加,如何高效处理视频数据成为了一个亟待解决的问题。这款模型的出现,旨在提升视频理解的效率和效果,适用于从自动驾驶到娱乐等各个行业。

Salesforce BLIP-3 多模态模型 视频理解 AI多模态技术 Salesforce AI模型 BLIP-3应用场景

2024-12-19 21:38:27 281人关注

科大讯飞星火多模态交互大模型上线 实现“语音、视觉、数字人交互”三合一

科大讯飞公司近日宣布,其最新研发的讯飞星火多模态交互大模型正式投入运营。这一技术突破标志着科大讯飞从单一的语音交互技术拓展到音视频流实时多模态交互的新阶段。新模型集成了语音、视觉和数字人交互功能,用户可通过一键调用,实现三者的无缝结合。

讯飞星火多模态模型 多模态大模型 讯飞星火模型发布 AI多模态技术 大模型应用场景

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10