- 上云资讯 -
                
                
                
                    阿里云云原生
                
                
                
                    阿里云开发者
                
                
                
                    腾讯云开发者
                
                
                
                    火山引擎开发者社区
                
                
                
                    魔搭ModelScope社区
                
                
                
                    微软科技
                
                
                
                    Azure云科技
                
                
                
                    Zilliz
                
                
                
                    OpenAI
                
                
                
                    Anthropic
                
                
                
                    Gemini
                
                
                
                    LangChain
                
                
                
                    Hugging Face
                
                
                
                    Mistral
                
                
            
            
            
                2025-04-01 12:38:16 153人关注
Anthropic安全防护面临挑战,AI模型通用越狱测试揭示突破口
在短短六天内,参与者成功绕过了Anthropic人工智能(AI)模型Claude3.5的所有安全防护措施,这一突破为AI安全防护领域带来了新的讨论。前OpenAI对齐团队成员、现就职于Anthropic的Jan Leike在X平台宣布,一名参与者成功攻破了所有八个安全级别。这项集体努力涉及了约3,700小时的测试和来自参与者的300,000条消息。
