上云资讯 - 来上云吧，企业上云一站式服务

2025-12-19 12:39:34 161人关注

苹果发布全新多模态 AI 模型 UniGen 1.5，实现图像理解、生成与编辑三合一

近日，苹果研究团队推出了最新的多模态 AI 模型 UniGen1.5，标志着图像处理技术的一次重要突破。该模型不仅能够理解图像，还能生成和编辑图像，这三大功能被成功整合在一个系统中，显著提升了工作效率。

AI

2025-07-30 16:42:22 271人关注

昆仑万维开源多模态统一预训练模型 Skywork UniPic，融合图片生成与理解能力

昆仑万维正式推出了自回归路线的「多模态统一预训练模型 Skywork UniPic」，并将其开源。这款模型在一个系统中集成了图像理解、文本生成图像（T2I）和图像编辑三大核心功能，标志着人工智能技术的进一步发展。

昆仑万维多模态统一预训练模型 Skywork UniPic 图像理解技术文本生成图像模型图像编辑AI

2025-07-30 13:26:14 265人关注

昆仑万维开源多模态统一预训练模型 Skywork UniPic

7月30日，昆仑万维正式推出并开源了采用自回归路线的多模态统一预训练模型Skywork UniPic。该模型在单一架构中深度融合了图像理解、文本到图像生成及图像编辑三大核心能力，基于大规模高质量数据端到端预训练，展现了优异的通用性与可迁移性。

昆仑万维Skywork UniPic 多模态统一预训练模型自回归多模态模型图像理解与生成技术端到端预训练模型 Skywork UniPic开源

2025-05-11 10:38:20 627人关注

腾讯元宝「混元+DeepSeek」双模聚合推出「图像理解」技能

近日，腾讯元宝APP迎来了一次重要升级，新增了“看图说话”功能。这一功能的加入，标志着腾讯元宝在图像理解领域取得了显著进展。

腾讯元宝混元大模型 DeepSeek 图像理解技术大模型应用场景

2025-01-27 12:13:41 1052人关注

月之暗面Kimi多模态图片理解模型 API 发布

2025年1月15日，北京月之暗面科技有限公司宣布全新多模态图片理解模型moonshot-v1-vision-preview正式发布，该模型完善了moonshot-v1模型系列的多模态能力，助力Kimi更好地理解世界。

Kimi多模态API 多模态图像理解API Kimi API应用场景多模态技术解析 Kimi API使用指南

2025-01-26 17:32:37 388人关注

一体化 AI 框架Sa2VA:实现图像与视频的深度理解

在多模态大语言模型（MLLMs）的推动下，图像和视频相关的任务取得了革命性的进展，包括视觉问答、叙述生成和交互式编辑等。然而，实现细粒度的视频内容理解仍然面临重大挑战。这一挑战涉及像素级的分割、带有语言描述的跟踪，以及在特定视频提示上进行视觉问答等任务。

AI框架 SA2VA框架图像理解技术视频理解技术 AI大模型应用

2024-12-28 16:42:11 203人关注

苹果的 “多模态炼丹炉” 又升级！MM1.5增强文本密集、多图理解

苹果公司最近为其多模态人工智能模型MM1推出了重大更新，将其升级为MM1.5版本。这次升级不仅仅是简单的版本号变更，而是全方位的能力提升，使得模型在各个领域都展现出了更强大的性能。

Apple MM1 多模态模型文本图像理解 Apple AI技术 MM1-5模型

2024-12-24 07:33:43 486人关注

xAI为Grok添加图像理解功能还能看懂梗图的幽默

马斯克旗下xAI公司近日为其AI模型Grok增添了图像理解功能，X平台付费用户现可向AI助手上传图片并进行相关提问。这项更新已经由xAI员工和Grok官方发言人在X平台正式确认。

xAI Grok 图像理解幽默识别 AI大模型新闻资讯

2024-12-20 06:24:36 268人关注

DeepSeek AI 发布图像理解与生成的统一 AI 框架JanusFlow，性能超越SDXL

在人工智能驱动的图像生成与理解领域，尽管取得了快速进展，但仍存在显著挑战，阻碍了一个无缝、统一的方法的发展。

DeepSeek AI JanusFlow 图像理解图像生成 AI大模型 DeepSeek AI新闻

2024-12-19 18:28:36 258人关注

微软发布 LLM2CLIP:新 AI 技术使语言模型助力图像理解

在当今科技领域，CLIP（Contrastive Language-Image Pre-training）是一个重要的多模态基础模型。它通过在大规模图像 - 文本对上使用对比学习损失，将视觉信号和文本信号结合到一个共享的特征空间中。

Microsoft LLM2Clip AI语言模型图像识别技术多模态AI AI语言与图像转换大模型应用场景

2024-12-13 07:28:13 1673人关注

能看懂图了！字节跳动 AI 助手豆包上线图片理解功能

字节跳动公司近期推出了豆包应用的新功能——图片理解，豆包APP和PC端新增了照片及相机按钮，用户可以通过上传图片让系统识别图片内容。豆包的图片理解功能不仅限于文字识别，还能解析图像内容，甚至能理解并解释笑话。

字节跳动AI豆包 AI图像理解 AI大模型应用字节跳动AI技术 AI图像识别技术

- 上云资讯 -

苹果发布全新多模态 AI 模型 UniGen 1.5，实现图像理解、生成与编辑三合一

昆仑万维开源多模态统一预训练模型 Skywork UniPic，融合图片生成与理解能力

昆仑万维开源多模态统一预训练模型 Skywork UniPic

腾讯元宝「混元+DeepSeek」双模聚合推出「图像理解」技能

月之暗面Kimi多模态图片理解模型 API 发布

一体化 AI 框架Sa2VA:实现图像与视频的深度理解

苹果的 “多模态炼丹炉” 又升级！MM1.5增强文本密集、多图理解

xAI为Grok添加图像理解功能还能看懂梗图的幽默

DeepSeek AI 发布图像理解与生成的统一 AI 框架JanusFlow，性能超越SDXL

微软发布 LLM2CLIP:新 AI 技术使语言模型助力图像理解

能看懂图了！字节跳动 AI 助手豆包上线图片理解功能

推荐阅读

上云服务

- 上云资讯 -

苹果发布全新多模态 AI 模型 UniGen 1.5，实现图像理解、生成与编辑三合一

​昆仑万维开源多模态统一预训练模型 Skywork UniPic，融合图片生成与理解能力

昆仑万维开源多模态统一预训练模型 Skywork UniPic

腾讯元宝「混元+DeepSeek」双模聚合 推出「图像理解」技能

月之暗面Kimi多模态图片理解模型 API 发布

一体化 AI 框架​Sa2VA:实现图像与视频的深度理解

苹果的 “多模态炼丹炉” 又升级！MM1.5增强文本密集、多图理解

xAI为Grok添加图像理解功能 还能看懂梗图的幽默

​DeepSeek AI 发布图像理解与生成的统一 AI 框架JanusFlow，性能超越SDXL

​微软发布 LLM2CLIP:新 AI 技术使语言模型助力图像理解

能看懂图了！字节跳动 AI 助手豆包上线图片理解功能

推荐阅读

上云服务

昆仑万维开源多模态统一预训练模型 Skywork UniPic，融合图片生成与理解能力

腾讯元宝「混元+DeepSeek」双模聚合推出「图像理解」技能

一体化 AI 框架Sa2VA:实现图像与视频的深度理解

xAI为Grok添加图像理解功能还能看懂梗图的幽默

DeepSeek AI 发布图像理解与生成的统一 AI 框架JanusFlow，性能超越SDXL

微软发布 LLM2CLIP:新 AI 技术使语言模型助力图像理解