挫折告捷率从3%到接近100%,愚弄空格键可绕过Meta AI模子安全系统
2024-08-04绕过智力是在给定辅导符中的所有英翰墨母字符之间插入按字符限定胪列的空格。 IT之家 7 月 31 日音书,Meta 公司上周在发布 Llama 3.1 AI 模子的同期,还发布了 Prompt-Guard-86M 模子,主要匡助树立东谈主员检测并反应辅导词注入和逃狱输入。 IT之家在这里简要补充下配景学问: 辅导词注入(prompt injection):将坏心或非预期内容添加到辅导中,以劫握话语模子的输出。辅导败露和逃狱现实上是这种挫折的子集; 辅导词逃狱(prompt jailbreaks)