微信扫码
添加专属顾问
2025-01-16 08:37:34 61人关注
格灵深瞳开源了RWKV-CLIP模型,这是一个结合了Transformer和RNN优点的视觉语言表征学习器。该模型通过图文预训练任务,使用从网站获取的图像-文本对扩展数据集,显著提高了视觉和语言任务的性能。
RWKV CLIP 视觉语言模型 多模态模型 大模型技术应用 视觉与语言融合技术