LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-06-23 15:29:17 83人关注

一个模型实现生成+编辑!通义万相 Wan2.1-VACE 正式开源

通义万相Wan2.1-VACE是一个集图像生成与编辑功能于一体的开源多模态模型,由阿里云团队开发并正式发布。该模型通过统一架构同时支持文生图、图生图、图像修复和局部编辑等任务,显著提升了多任务处理效率。其核心创新在于采用基于扩散模型的可控生成技术,结合细粒度条件控制模块,能够精准理解用户指令并保持编辑区域与整体画面的协调性。模型在多项基准测试中表现优异,尤其在细节保留和语义一致性方面超越同类方案。开源版本提供了完整的训练代码、预训练模型及详细文档,支持研究者和开发者快速部署应用。这一技术突破为AIGC领域提供了更高效的解决方案,降低了多模态内容创作的技术门槛。

通义万相Wan2.1-VACE 开源多模态模型 图像生成与编辑模型 扩散模型可控生成技术 细粒度条件控制模块 AIGC领域解决方案

2025-06-09 10:14:11 142人关注

AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGEL

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

昆仑Gemma 昆仑Gemma模型 Bagel模型 AI大模型技术 AI模型应用场景

2025-06-02 16:31:38 471人关注

蚂蚁集团开源Ming-lite-omni:首个媲美GPT-4o的开源多模态模型

蚂蚁集团旗下百灵大模型团队在近期蚂蚁技术日上宣布重大决定:将统一多模态大模型Ming-lite-omni进行全面开源。这一举措不仅标志着蚂蚁集团在AI领域的又一次重大开放,更被业界视为首个在模态支持方面能够与GPT-4o相媲美的开源模型。

蚂蚁集团 MingLite GPT-4o AI大模型 大模型技术 大模型技术原理

2025-05-26 16:31:35 158人关注

字节跳动推出开源多模态模型BAGE 从图像生成到世界建模

字节跳动近日正式发布其最新开源多模态基础模型——BAGEL(Big Advanced Generalized Embodied Learner),以70亿个有效参数的规模,开启多模态AI模型的新阶段。BAGEL在图像理解、生成和编辑等关键任务中表现卓越,已在多个标准评测中超越当前主流开源视觉语言模型(VLM),如Qwen2.5-VL和InternVL-2.5。

字节跳动 开源多模态模型 Bage 多模态AI技术 开源AI模型 大模型技术发展

2025-05-01 16:25:20 124人关注

阿里开源多模态模型Qwen2.5-Omni:显存大幅降低暴降 50%

在开源大模型的竞争中,阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。这款模型的显著特点是显存使用减少了50%,在同等处理能力下,更加适合普通消费者的 GPU 设备。这一创新标志着阿里在多模态人工智能领域的进一步突破。

阿里巴巴通义千问2.5 通义千问2.5多模态模型 阿里大模型技术 多模态AI模型 Qwen2.5 Omni技术解析

2025-01-19 07:44:29 125人关注

开源本地实时多模态模型Moshi:实时生成语音 支持多种口音

法国独立非盈利AI研究实验室 Kyutai 发布了一款语音助理 Moshi,这是一款革命性的实时本机多模态基础模型。这一创新模型在某些功能上模仿并超越了 OpenAI 在五月推出的 GPT-4o 所展示的一些功能。

开源多模态模型 Moshi模型 多模态AI技术 开源AI模型 多模态模型应用

2024-12-31 23:18:44 206人关注

开源多模态模型Molmo 能够识别图像中的物体并生成准确描述

近日,一款名为Molmo的开源多模态人工智能模型引起了业界广泛关注。这个由Qwen2-72B为基础、借助OpenAI的CLIP作为视觉处理引擎的AI系统,正以其出色的性能和创新的功能挑战传统商业模型的霸主地位。

开源多模态模型 多模态模型技术 Molmo模型 开源AI模型 多模态AI应用场景

2024-12-29 09:27:16 103人关注

Rhymes AI发布首款开源多模态AI模型Aria 性能超越GPT-4o mini等多家知名AI模型

最近,日本东京的初创公司 Rhymes AI 推出了他们的首款人工智能模型 ——Aria。该公司自称,Aria 是全球首个开源的多模态混合专家(MoE)模型。这个模型不仅具有处理多种输入模态的能力,还声称在能力上与一些知名的商业模型不相上下,甚至更胜一筹。

AI大模型 开源多模态模型 Rhymes AI Aria模型 多模态AI技术

2024-12-19 06:32:34 79人关注

​Mistral推最强开源多模态模型 Pixtral Large,升级Le Chat可直接调用Flux Pro

法国人工智能初创公司 Mistral AI 宣布为其 Le Chat AI 助手添加了一系列新功能,包括集成的网络搜索、图像生成以及新推出的 Pixtral Large 模型。

Mistral AI PixTral Large Flux Pro AI大模型 模型技术原理 模型应用场景

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10