LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-07-30 16:42:22 54人关注

​昆仑万维开源多模态统一预训练模型 Skywork UniPic,融合图片生成与理解能力

昆仑万维正式推出了自回归路线的「多模态统一预训练模型 Skywork UniPic」,并将其开源。这款模型在一个系统中集成了图像理解、文本生成图像(T2I)和图像编辑三大核心功能,标志着人工智能技术的进一步发展。

昆仑万维 多模态统一预训练模型 Skywork UniPic 图像理解技术 文本生成图像模型 图像编辑AI

2025-05-11 10:38:20 137人关注

腾讯元宝「混元+DeepSeek」双模聚合 推出「图像理解」技能

近日,腾讯元宝APP迎来了一次重要升级,新增了“看图说话”功能。这一功能的加入,标志着腾讯元宝在图像理解领域取得了显著进展。

腾讯元宝 混元大模型 DeepSeek 图像理解技术 大模型应用场景

2025-01-26 17:32:37 176人关注

一体化 AI 框架​Sa2VA:实现图像与视频的深度理解

在多模态大语言模型(MLLMs)的推动下,图像和视频相关的任务取得了革命性的进展,包括视觉问答、叙述生成和交互式编辑等。然而,实现细粒度的视频内容理解仍然面临重大挑战。这一挑战涉及像素级的分割、带有语言描述的跟踪,以及在特定视频提示上进行视觉问答等任务。

AI框架 SA2VA框架 图像理解技术 视频理解技术 AI大模型应用

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10