2025-06-19 10:17:28
35人关注
揭秘 AI 黑箱:OpenAI 如何调控模型 “毒性” 行为!
近日,OpenAI 发布了一项令人振奋的研究,揭示了人工智能(AI)模型中存在的可调控特征,这些特征直接与模型的 “异常行为” 相关。研究人员通过分析 AI 模型的内部表征,发现了模式,这些模式在模型表现出不安全行为时会被激活。例如,他们找到了一个与有害行为相关的特征,意味着 AI 可能会给出不当的回答,如撒谎或提出不负责任的建议。
AI模型异常行为
AI可调控特征
AI内部表征分析
AI有害行为特征
OpenAI最新研究
AI模型安全调控