2025-01-27 08:30:43
84人关注
阿里巴巴达摩院推出电商场景多模态大模型Valley 2
阿里巴巴达摩院近日推出了一款名为Valley2的多模态大型语言模型,该模型基于电商场景设计,旨在通过可扩展的视觉-语言架构,提升各领域性能并拓展电商与短视频场景的应用边界。Valley2采用了Qwen2.5作为LLM主干,搭配SigLIP-384视觉编码器,结合MLP层和卷积进行高效特征转换。其创新之处在于引入了大视觉词汇、卷积适配器(ConvAdapter)和Eagle模块,增强了处理多样化真实世界输入的灵活性及训练推理效率。
阿里巴巴
达摩院
电商
阿里巴巴达摩院
电商技术
达摩院电商创新