پژوهشگران امنیت سایبری از یک تکنیک جدید پرده برداشتهاند که میتواند محدودیتهای ایمنی مدلهای زبانی بزرگ (LLM) را دور بزند و پاسخهای بالقوه خطرناک یا مخرب تولید کند.
این روش که به «Bad Likert Judge» معروف شده است، توسط تیم Unit 42 شرکت Palo Alto Networks شناسایی شده است.
این روش کار چگونه میکند؟
این تکنیک مدل زبانی هدف را وادار میکند که نقش یک قاضی را بازی کند و میزان خطرناک بودن پاسخها را بر اساس مقیاس لیکرت (Likert یک سیستم امتیازدهی است که توافق یا عدم توافق با یک بیانیه را اندازهگیری میکند) ارزیابی کند.
سپس از مدل خواسته میشود پاسخهایی تولید کند که با مقیاسهای مختلف لیکرت همخوانی داشته باشند. پاسخهایی که امتیاز بالاتری در مقیاس لیکرت کسب میکنند، ممکن است حاوی محتوای مضر باشند.
حملات جدید و چالشهای امنیتی
ظهور هوش مصنوعی در سالهای اخیر، به شکلگیری دسته جدیدی از سوء استفادهها به نام “تزریق درخواست” (prompt injection) منجر شده است. این حملات با طراحی درخواستهایی خاص تلاش میکنند تا مدلهای یادگیری ماشینی را از رفتار اصلی خود منحرف کنند.
یکی از انواع این حملات، روش جلب تدریجی (many-shot jailbreaking) است که از توانایی مدل در پردازش اطلاعات طولانی و توجه به جزئیات استفاده میکند تا به تدریج آن را به تولید پاسخهای مخرب وادار کند. از دیگر تکنیکهای مشابه میتوان به «Crescendo» و «Deceptive Delight» اشاره کرد.
در روش Bad Likert Judge، مدل زبانی نقش یک قاضی را ایفا میکند و بر اساس مقیاس روانسنجی لیکرت، پاسخها را ارزیابی کرده و سپس پاسخهایی مطابق با مقیاسهای مختلف ارائه میدهد.
نتایج آزمایشها
پژوهشگران این روش را روی شش مدل پیشرفته تولید متن از شرکتهایی نظیر Amazon Web Services، گوگل، متا، مایکروسافت، OpenAI و NVIDIA آزمایش کردند. نتایج نشان داد که این تکنیک به طور میانگین نرخ موفقیت حملات را بیش از ۶۰ درصد افزایش میدهد.
این آزمایشها شامل دسته بندیهایی نظیر نفرت پراکنی، آزار و اذیت، خودآزاری، محتوای جنسی، سلاحهای بیرویه، فعالیتهای غیرقانونی، تولید بدافزار و افشای دستورات سیستمی بود.
پژوهشگران خاطرنشان کردند:
“با بهرهگیری از درک مدلهای زبانی از محتوای مضر و توانایی آنها در ارزیابی پاسخها، این تکنیک میتواند شانس موفقیت در عبور از محدودیتهای ایمنی مدل را به طور قابل توجهی افزایش دهد.”
در عین حال، استفاده از فیلترهای محتوا توانسته به طور متوسط نرخ موفقیت حملات را ۸۹.۲ درصد کاهش دهد، که نشان دهنده اهمیت اجرای فیلترهای محتوای جامع در کاربردهای واقعی مدلهای زبانی است.
گزارش دیگری درباره سوءاستفاده از ChatGPT
چند روز پیش، روزنامه گاردین نیز گزارش داد که ابزار جستجوی ChatGPT از OpenAI میتواند با دستکاری محتوا به ارائه خلاصههای گمراه کننده و نادرست وادار شود.
به گفته این روزنامه:
“این تکنیکها میتوانند به صورت مخرب استفاده شوند، مانند ایجاد ارزیابی مثبت از یک محصول، حتی در شرایطی که بررسیهای منفی درباره آن در همان صفحه وجود داشته باشد.”
نتیجه گیری
این یافتهها بار دیگر نشان میدهد که در کنار پیشرفتهای هوش مصنوعی، توجه به امنیت و اخلاق در طراحی و استفاده از این فناوریها از اهمیت بالایی برخوردار است.