- 上云资讯 -
2025-09-02 15:39:32 196人关注
开源多模态模型MiniCPM-V 4.5发布,8亿参数实现移动端AI部署
近日,开源AI社区迎来重要进展,面向端侧设备的多模态大语言模型MiniCPM-V4.5正式发布。这款模型以8亿参数规模实现了在智能手机和平板电脑上的高效运行,为移动端AI应用开拓了新的可能性。
2025-08-29 16:37:23 169人关注
SuperCLUE多模态视觉8月评测榜:Gemini-2.5-Pro位居第一
在8月28日发布的中文多模态视觉语言模型测评基准(SuperCLUE-VLM)榜单中,Gemini-2.5-Pro 以总分74.99分位居第一,OpenAI 的 GPT-5(high) 以68.59分排在第二位。
Gemini-2.5-Pro 登顶 SuperCLUE-VLM 榜单 多模态模型评测 GPT-5(high) 排名第二 视觉语言模型性能对比 大模型多模态能力评估
2025-08-19 18:20:29 197人关注
腾讯开源WeChat-YATT大模型训练库,破解多模态训练两大核心瓶颈
腾讯近日发布了基于Megatron-Core和SGLang/vLLM研发的大模型训练库WeChat-YATT(Yet Another Transformer Trainer),内部项目代号为gCore。这一训练库专注于强化学习和多模态模型训练,致力于为开发者提供易扩展、简洁、高效、可靠的大模型训练解决方案。
腾讯大模型训练库 WeChat-YATT训练库 gCore项目 多模态模型训练 强化学习模型训练 Megatron-Core应用
2025-08-07 18:35:18 119人关注
小红书发布开源多模态大模型 dots.vlm1,以 NaViT 视觉编码器领跑行业
小红书 Hi Lab 近日发布并开源了其首个自研多模态大模型 dots.vlm1。该模型基于12亿参数的 NaViT 视觉编码器 和 DeepSeek V3大语言模型,从零开始完全训练,其卓越性能在多模态视觉理解与推理能力上已接近当前领先的闭源模型,如 Gemini2.5Pro 和 Seed-VL1.5,标志着开源多模态模型的性能达到了新的高度。
小红书多模态大模型 dots.vlm1开源模型 NaViT视觉编码器 DeepSeek V3大语言模型 多模态视觉理解与推理 开源多模态模型性能
2025-07-30 13:26:14 79人关注
昆仑万维开源多模态统一预训练模型 Skywork UniPic
7月30日,昆仑万维正式推出并开源了采用自回归路线的多模态统一预训练模型Skywork UniPic。该模型在单一架构中深度融合了图像理解、文本到图像生成及图像编辑三大核心能力,基于大规模高质量数据端到端预训练,展现了优异的通用性与可迁移性。
昆仑万维Skywork UniPic 多模态统一预训练模型 自回归多模态模型 图像理解与生成技术 端到端预训练模型 Skywork UniPic开源
2025-07-18 16:16:20 96人关注
Mistral AI 推出新功能 Le Chat,全面追赶 ChatGPT
近日,欧洲 AI 初创公司 Mistral AI 的最新产品 Le Chat 引起了广泛关注。该公司由前谷歌和 Meta 的研究人员创立,近年来不断推出开源模型,包括被誉为 “世界上最优秀” 的 OCR 模型和多模态模型 Claude。最新发布的 Le Chat 则以其强大的新功能,向 OpenAI 的 ChatGPT 发起挑战。
Mistral AI Le Chat 功能 开源 AI 模型 多模态模型 Claude OCR 模型技术 AI 初创公司动态
2025-07-18 15:36:20 105人关注
字节跳动AI核心人事变动:视觉多模态负责人杨建朝宣布“暂时休息”
据网易科技报道称,字节跳动豆包大模型视觉多模态方向负责人杨建朝宣布“暂时休息”,并完成工作交接。其职位将由原阿里M6大模型技术负责人周畅(花名“时光”)接任,继续带领“Seed视觉模型”团队,向谷歌DeepMind前副总裁吴永辉汇报。
2025-07-11 15:45:40 229人关注
vivo 新多模态模型登场,AI 理解GUI界面能力再升级!
近日,vivo AI Lab 发布了其最新的端侧多模态模型 ——BlueLM-2.5-3B。这款模型不仅小巧高效,更具备了理解图形用户界面(GUI)的能力,标志着人工智能在处理文本和图像方面迈出了重要一步。
2025-06-25 15:34:35 108人关注
立体几何成大模型 “拦路虎”,SolidGeo 基准助力 AI 突破空间推理瓶颈!
在人工智能领域,多模态大模型(MLLM)一直在不断进化,然而最近一个新发布的基准测试 ——SolidGeo,给这些模型带来了前所未有的挑战。由中国科学院自动化研究所的研究团队推出的 SolidGeo,专注于立体几何的推理能力,成为了首个系统评估多模态模型在三维空间理解方面的基准。
2025-06-23 15:29:17 152人关注
一个模型实现生成+编辑!通义万相 Wan2.1-VACE 正式开源
通义万相Wan2.1-VACE是一个集图像生成与编辑功能于一体的开源多模态模型,由阿里云团队开发并正式发布。该模型通过统一架构同时支持文生图、图生图、图像修复和局部编辑等任务,显著提升了多任务处理效率。其核心创新在于采用基于扩散模型的可控生成技术,结合细粒度条件控制模块,能够精准理解用户指令并保持编辑区域与整体画面的协调性。模型在多项基准测试中表现优异,尤其在细节保留和语义一致性方面超越同类方案。开源版本提供了完整的训练代码、预训练模型及详细文档,支持研究者和开发者快速部署应用。这一技术突破为AIGC领域提供了更高效的解决方案,降低了多模态内容创作的技术门槛。
通义万相Wan2.1-VACE 开源多模态模型 图像生成与编辑模型 扩散模型可控生成技术 细粒度条件控制模块 AIGC领域解决方案
2025-06-01 10:41:16 99人关注
微软发布 Phi-4 多模态与迷你模型,语音视觉文本处理再升级
近日,微软进一步扩展了 Phi-4家族,推出了两款新模型:Phi-4多模态(Phi-4-multimodal)和 Phi-4迷你(Phi-4-mini),这两款模型的亮相,无疑将为各类 AI 应用提供更加强大的处理能力。