上云资讯 - 来上云吧，企业上云一站式服务

2025-08-18 11:16:22 195人关注

Anthropic为保护AI"心理健康"推出对话终止功能，Claude可主动结束极端有害对话

AI巨头Anthropic近日宣布为其最新、最大的模型推出全新功能，允许AI在"极端罕见的持续有害或滥用用户互动"情况下主动结束对话。令人瞩目的是，Anthropic明确表示此举并非为了保护人类用户，而是为了保护AI模型本身。

2025-03-11 14:38:10 343人关注

人工智能公司 Anthropic 近日宣布开发了一种名为“体质分类器”的新安全方法，旨在保护语言模型免受恶意操纵。该技术专门针对“通用越狱”——一种试图系统性绕过所有安全措施的输入方式，以防止 AI 模型生成有害内容。