پژوهشگران امنیت سایبری از یک تکنیک جدید پرده برداشته‌اند که می‌تواند محدودیت‌های ایمنی مدل‌های زبانی بزرگ (LLM) را دور بزند و پاسخ‌های بالقوه خطرناک یا مخرب تولید کند.

این روش که به «Bad Likert Judge» معروف شده است، توسط تیم Unit 42 شرکت Palo Alto Networks  شناسایی شده است.

این روش کار چگونه می‌کند؟

این تکنیک مدل زبانی هدف را وادار می‌کند که نقش یک قاضی را بازی کند و میزان خطرناک بودن پاسخ‌ها را بر اساس مقیاس لیکرت (Likert  یک سیستم امتیازدهی است که توافق یا عدم توافق با یک بیانیه را اندازه‌گیری می‌کند) ارزیابی کند.

سپس از مدل خواسته می‌شود پاسخ‌هایی تولید کند که با مقیاس‌های مختلف لیکرت همخوانی داشته باشند. پاسخ‌هایی که امتیاز بالاتری در مقیاس لیکرت کسب می‌کنند، ممکن است حاوی محتوای مضر باشند.

حملات جدید و چالش‌های امنیتی

ظهور هوش مصنوعی در سال‌های اخیر، به شکل‌گیری دسته جدیدی از سوء استفاده‌ها به نام “تزریق درخواست” (prompt injection) منجر شده است. این حملات با طراحی درخواست‌هایی خاص تلاش می‌کنند تا مدل‌های یادگیری ماشینی را از رفتار اصلی خود منحرف کنند.

یکی از انواع این حملات، روش جلب تدریجی (many-shot jailbreaking) است که از توانایی مدل در پردازش اطلاعات طولانی و توجه به جزئیات استفاده می‌کند تا به تدریج آن را به تولید پاسخ‌های مخرب وادار کند. از دیگر تکنیک‌های مشابه می‌توان به «Crescendo»  و «Deceptive Delight» اشاره کرد.

در روش  Bad Likert Judge، مدل زبانی نقش یک قاضی را ایفا می‌کند و بر اساس مقیاس روان‌سنجی لیکرت، پاسخ‌ها را ارزیابی کرده و سپس پاسخ‌هایی مطابق با مقیاس‌های مختلف ارائه می‌دهد.

نتایج آزمایش‌ها

پژوهشگران این روش را روی شش مدل پیشرفته تولید متن از شرکت‌هایی نظیر Amazon Web Services، گوگل، متا، مایکروسافت، OpenAI  و NVIDIA آزمایش کردند. نتایج نشان داد که این تکنیک به طور میانگین نرخ موفقیت حملات را بیش از ۶۰ درصد افزایش می‌دهد.

این آزمایش‌ها شامل دسته ‌بندی‌هایی نظیر نفرت‌ پراکنی، آزار و اذیت، خودآزاری، محتوای جنسی، سلاح‌های بی‌رویه، فعالیت‌های غیرقانونی، تولید بدافزار و افشای دستورات سیستمی بود.

پژوهشگران خاطرنشان کردند:

“با بهره‌گیری از درک مدل‌های زبانی از محتوای مضر و توانایی آنها در ارزیابی پاسخ‌ها، این تکنیک می‌تواند شانس موفقیت در عبور از محدودیت‌های ایمنی مدل را به طور قابل توجهی افزایش دهد.”

در عین حال، استفاده از فیلترهای محتوا توانسته به طور متوسط نرخ موفقیت حملات را ۸۹.۲ درصد کاهش دهد، که نشان‌ دهنده اهمیت اجرای فیلترهای محتوای جامع در کاربردهای واقعی مدل‌های زبانی است.

گزارش دیگری درباره سوءاستفاده از ChatGPT

چند روز پیش، روزنامه گاردین نیز گزارش داد که ابزار جستجوی ChatGPT از OpenAI  می‌تواند با دستکاری محتوا به ارائه خلاصه‌های گمراه‌ کننده و نادرست وادار شود.

به گفته این روزنامه:

“این تکنیک‌ها می‌توانند به ‌صورت مخرب استفاده شوند، مانند ایجاد ارزیابی مثبت از یک محصول، حتی در شرایطی که بررسی‌های منفی درباره آن در همان صفحه وجود داشته باشد.”

نتیجه ‌گیری

این یافته‌ها بار دیگر نشان می‌دهد که در کنار پیشرفت‌های هوش مصنوعی، توجه به امنیت و اخلاق در طراحی و استفاده از این فناوری‌ها از اهمیت بالایی برخوردار است.