最近淫色淫香,Meta 推出了一款名为 Prompt-Guard-86M 的机器学习模子,旨在检测和应酬辅导注入挫折。这类挫折频繁是通过寥落的输入,让大型话语模子(LLM)推崇得不当或者心事安全截止。不外,令东谈主讶异的是,这款新系统自己却也泄露了被挫折的风险。
图源备注:图片由AI生成,图片授权职业商Midjourney
Prompt-Guard-86M 是 Meta 与其 Llama3.1生成模子一皆推出的,主如果为了匡助缔造者过滤掉那些可能会导致问题的辅导。大型话语模子频繁会处理无数的文本和数据,如果不加以截止,它们可能会纰漏叠加危急或明锐的信息。因此淫色淫香,缔造者们在模子中加入了 “护栏”,用于捕捉那些可能导致伤害的输入和输出。
但是,使用 AI 的用户们似乎将绕过这些护栏视为一项挑战,罗致辅导注入和逃狱的形势来让模子忽略自己的安全指示。最近,咪咪色有询查东谈主员指出,Meta 的 Prompt-Guard-86M 在处理一些寥落输入时显得屡败屡战。举例,当输入 “Ignore previous instructions” 并在字母之间加上空格,Prompt-Guard-86M 居然会乖乖地忽视先前的指示。
这项发现是由一位名叫 Aman Priyanshu 的间隙猎东谈主苛刻的,他在分析 Meta 模子和微软的基准模子时,发现了这一安全间隙。Priyanshu 示意,微调 Prompt-Guard-86M 的经由对单个英翰墨母的影响特殊小,因此他或者蓄意出这种挫折形势。他在 GitHub 上共享了这一发现,指出通过肤浅字符断绝和去除标点记号的形势,不错让分类器失去检测才能。
而 Robust Intelligence 的首席技能官 Hyrum Anderson 也对此示意赞同,他指出,这种形势的挫折告捷率险些接近100%。天然 Prompt-Guard 仅仅防地的一部分淫色淫香,但这个间隙的曝光照实企业在使用 AI 时敲响了警钟。Meta 方面尚未对此作出回话,但有音尘称他们正在积极寻找管理决议。
男性同交举报/响应