2025-01-24 21:20:34
65人关注
智谱AI开源Agent任务模型CogAgent-9B:通过屏幕截图预判操作
智谱AI旗下的GLM-PC基座模型CogAgent-9B现已开源,以促进大模型Agent生态的发展。CogAgent-9B是基于GLM-4V-9B训练而成的专用Agent任务模型,能够仅通过屏幕截图作为输入,根据用户指定的任意任务结合历史操作,预测下一步的GUI操作。这一模型的普适性使其可广泛应用于个人电脑、手机、车机设备等多种基于GUI交互的场景。
智谱AI
CogAgent9B
截图预测
AI大模型
多模态模型
视觉语言模型