上云资讯 - 来上云吧，企业上云一站式服务

2025-07-30 16:42:22 272人关注

昆仑万维开源多模态统一预训练模型 Skywork UniPic，融合图片生成与理解能力

昆仑万维正式推出了自回归路线的「多模态统一预训练模型 Skywork UniPic」，并将其开源。这款模型在一个系统中集成了图像理解、文本生成图像（T2I）和图像编辑三大核心功能，标志着人工智能技术的进一步发展。

2025-05-11 10:38:20 630人关注

近日，腾讯元宝APP迎来了一次重要升级，新增了“看图说话”功能。这一功能的加入，标志着腾讯元宝在图像理解领域取得了显著进展。

2025-01-26 17:32:37 389人关注

在多模态大语言模型（MLLMs）的推动下，图像和视频相关的任务取得了革命性的进展，包括视觉问答、叙述生成和交互式编辑等。然而，实现细粒度的视频内容理解仍然面临重大挑战。这一挑战涉及像素级的分割、带有语言描述的跟踪，以及在特定视频提示上进行视觉问答等任务。