上云资讯 - 来上云吧，企业上云一站式服务

2025-01-16 08:37:34 354人关注

格灵深瞳开源视觉语言表示学习模型RWKV-CLIP

格灵深瞳开源了RWKV-CLIP模型，这是一个结合了Transformer和RNN优点的视觉语言表征学习器。该模型通过图文预训练任务，使用从网站获取的图像-文本对扩展数据集，显著提高了视觉和语言任务的性能。