- 上云资讯 -
2025-07-30 13:26:14 33人关注
昆仑万维开源多模态统一预训练模型 Skywork UniPic
7月30日,昆仑万维正式推出并开源了采用自回归路线的多模态统一预训练模型Skywork UniPic。该模型在单一架构中深度融合了图像理解、文本到图像生成及图像编辑三大核心能力,基于大规模高质量数据端到端预训练,展现了优异的通用性与可迁移性。
昆仑万维Skywork UniPic 多模态统一预训练模型 自回归多模态模型 图像理解与生成技术 端到端预训练模型 Skywork UniPic开源
2025-07-18 16:16:20 59人关注
Mistral AI 推出新功能 Le Chat,全面追赶 ChatGPT
近日,欧洲 AI 初创公司 Mistral AI 的最新产品 Le Chat 引起了广泛关注。该公司由前谷歌和 Meta 的研究人员创立,近年来不断推出开源模型,包括被誉为 “世界上最优秀” 的 OCR 模型和多模态模型 Claude。最新发布的 Le Chat 则以其强大的新功能,向 OpenAI 的 ChatGPT 发起挑战。
Mistral AI Le Chat 功能 开源 AI 模型 多模态模型 Claude OCR 模型技术 AI 初创公司动态
2025-07-18 15:36:20 55人关注
字节跳动AI核心人事变动:视觉多模态负责人杨建朝宣布“暂时休息”
据网易科技报道称,字节跳动豆包大模型视觉多模态方向负责人杨建朝宣布“暂时休息”,并完成工作交接。其职位将由原阿里M6大模型技术负责人周畅(花名“时光”)接任,继续带领“Seed视觉模型”团队,向谷歌DeepMind前副总裁吴永辉汇报。
2025-07-11 15:45:40 180人关注
vivo 新多模态模型登场,AI 理解GUI界面能力再升级!
近日,vivo AI Lab 发布了其最新的端侧多模态模型 ——BlueLM-2.5-3B。这款模型不仅小巧高效,更具备了理解图形用户界面(GUI)的能力,标志着人工智能在处理文本和图像方面迈出了重要一步。
2025-06-25 15:34:35 59人关注
立体几何成大模型 “拦路虎”,SolidGeo 基准助力 AI 突破空间推理瓶颈!
在人工智能领域,多模态大模型(MLLM)一直在不断进化,然而最近一个新发布的基准测试 ——SolidGeo,给这些模型带来了前所未有的挑战。由中国科学院自动化研究所的研究团队推出的 SolidGeo,专注于立体几何的推理能力,成为了首个系统评估多模态模型在三维空间理解方面的基准。
2025-06-23 15:29:17 83人关注
一个模型实现生成+编辑!通义万相 Wan2.1-VACE 正式开源
通义万相Wan2.1-VACE是一个集图像生成与编辑功能于一体的开源多模态模型,由阿里云团队开发并正式发布。该模型通过统一架构同时支持文生图、图生图、图像修复和局部编辑等任务,显著提升了多任务处理效率。其核心创新在于采用基于扩散模型的可控生成技术,结合细粒度条件控制模块,能够精准理解用户指令并保持编辑区域与整体画面的协调性。模型在多项基准测试中表现优异,尤其在细节保留和语义一致性方面超越同类方案。开源版本提供了完整的训练代码、预训练模型及详细文档,支持研究者和开发者快速部署应用。这一技术突破为AIGC领域提供了更高效的解决方案,降低了多模态内容创作的技术门槛。
通义万相Wan2.1-VACE 开源多模态模型 图像生成与编辑模型 扩散模型可控生成技术 细粒度条件控制模块 AIGC领域解决方案
2025-06-01 10:41:16 61人关注
微软发布 Phi-4 多模态与迷你模型,语音视觉文本处理再升级
近日,微软进一步扩展了 Phi-4家族,推出了两款新模型:Phi-4多模态(Phi-4-multimodal)和 Phi-4迷你(Phi-4-mini),这两款模型的亮相,无疑将为各类 AI 应用提供更加强大的处理能力。
2025-05-27 10:22:14 101人关注
谷歌推出 LMEval:统一评估大语言与多模态模型的新工具
近日,谷歌宣布推出 LMEval,这是一个开源框架,旨在简化和标准化对大型语言和多模态模型的评估。该工具为研究人员和开发者提供了一个统一的评估流程,可以方便地对来自不同公司的 AI 模型进行比较,比如 GPT-4o、Claude3.7Sonnet、Gemini2.0Flash 和 Llama-3.1-405B 等。
2025-05-01 16:25:20 124人关注
阿里开源多模态模型Qwen2.5-Omni:显存大幅降低暴降 50%
在开源大模型的竞争中,阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。这款模型的显著特点是显存使用减少了50%,在同等处理能力下,更加适合普通消费者的 GPU 设备。这一创新标志着阿里在多模态人工智能领域的进一步突破。