- 上云资讯 -
2025-09-02 15:39:32 196人关注
开源多模态模型MiniCPM-V 4.5发布,8亿参数实现移动端AI部署
近日,开源AI社区迎来重要进展,面向端侧设备的多模态大语言模型MiniCPM-V4.5正式发布。这款模型以8亿参数规模实现了在智能手机和平板电脑上的高效运行,为移动端AI应用开拓了新的可能性。
2025-08-07 18:35:18 119人关注
小红书发布开源多模态大模型 dots.vlm1,以 NaViT 视觉编码器领跑行业
小红书 Hi Lab 近日发布并开源了其首个自研多模态大模型 dots.vlm1。该模型基于12亿参数的 NaViT 视觉编码器 和 DeepSeek V3大语言模型,从零开始完全训练,其卓越性能在多模态视觉理解与推理能力上已接近当前领先的闭源模型,如 Gemini2.5Pro 和 Seed-VL1.5,标志着开源多模态模型的性能达到了新的高度。
小红书多模态大模型 dots.vlm1开源模型 NaViT视觉编码器 DeepSeek V3大语言模型 多模态视觉理解与推理 开源多模态模型性能
2025-06-23 15:29:17 153人关注
一个模型实现生成+编辑!通义万相 Wan2.1-VACE 正式开源
通义万相Wan2.1-VACE是一个集图像生成与编辑功能于一体的开源多模态模型,由阿里云团队开发并正式发布。该模型通过统一架构同时支持文生图、图生图、图像修复和局部编辑等任务,显著提升了多任务处理效率。其核心创新在于采用基于扩散模型的可控生成技术,结合细粒度条件控制模块,能够精准理解用户指令并保持编辑区域与整体画面的协调性。模型在多项基准测试中表现优异,尤其在细节保留和语义一致性方面超越同类方案。开源版本提供了完整的训练代码、预训练模型及详细文档,支持研究者和开发者快速部署应用。这一技术突破为AIGC领域提供了更高效的解决方案,降低了多模态内容创作的技术门槛。
通义万相Wan2.1-VACE 开源多模态模型 图像生成与编辑模型 扩散模型可控生成技术 细粒度条件控制模块 AIGC领域解决方案
2025-05-01 16:25:20 194人关注
阿里开源多模态模型Qwen2.5-Omni:显存大幅降低暴降 50%
在开源大模型的竞争中,阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。这款模型的显著特点是显存使用减少了50%,在同等处理能力下,更加适合普通消费者的 GPU 设备。这一创新标志着阿里在多模态人工智能领域的进一步突破。
2024-12-19 06:32:34 108人关注
Mistral推最强开源多模态模型 Pixtral Large,升级Le Chat可直接调用Flux Pro
法国人工智能初创公司 Mistral AI 宣布为其 Le Chat AI 助手添加了一系列新功能,包括集成的网络搜索、图像生成以及新推出的 Pixtral Large 模型。