بسیاری از تولید کنندگان محتوا مدعی شده‌اند که آثارشان بدون رضایت آن‌ها برای آموزش مدل‌های هوش مصنوعی استفاده شده است. تاکنون تشخیص اینکه آیا یک متن خاص در مجموعه داده‌های آموزشی مورد استفاده قرار گرفته یا خیر، دشوار بوده است. اما اکنون یک روش جدید برای اثبات این موضوع ایجاد شده است: “تله‌ کپی ‌رایت” (Copyright Trap)، که توسط تیمی از کالج Imperial لندن توسعه یافته‌اند.

این تله‌ها، قطعاتی از متن‌های مخفی هستند که به نویسندگان و ناشران اجازه می‌دهند آثار خود را به‌ طور نامحسوس علامت ‌گذاری کنند تا بتوانند بعدها تشخیص دهند که آیا اثرشان در مدل‌های هوش مصنوعی مورد استفاده قرار گرفته است یا خیر.

روشی نوین برای شناسایی استفاده غیرمجاز از آثار

ایده تله‌ کپی ‌رایت مشابه تله‌هایی است که صاحبان کپی ‌رایت در طول تاریخ به کار گرفته‌اند، مثل اضافه کردن مکان‌های جعلی روی نقشه یا کلمات جعلی در یک فرهنگ لغت. این تله‌های کپی ‌رایت در حال حاضر یکی از بزرگ‌ترین چالش‌های هوش مصنوعی را هدف گرفته‌اند.

در حال حاضر، بسیاری از ناشران و نویسندگان درگیر دعوی‌های قضایی علیه شرکت‌های فناوری هستند. آنها ادعا می‌کنند که مالکیت معنوی آن‌ها بدون اجازه در داده‌های آموزشی هوش مصنوعی استفاده شده است. پرونده جاری نیویورک تایمز علیه OpenAI احتمالاً مشهورترین این موارد است.

کد مربوط به تولید و شناسایی این تله‌ها در حال حاضر بر روی GitHub در دسترس است. علاوه بر این، تیم تحقیقاتی در نظر دارد ابزاری تولید کند که به افراد اجازه دهد تله‌ کپی ‌رایت را به ‌طور شخصی تولید کرده و در آثار خود قرار دهند.

چالش‌های فعلی و آینده تله‌ کپی ‌رایت در مبارزه با هوش مصنوعی

Montjoye ، استادیار ریاضیات کاربردی و علوم کامپیوتر و رهبر این تحقیق، در این زمینه می‌گوید: “شفافیت کاملی در مورد اینکه چه محتوایی برای آموزش مدل‌ها استفاده شده وجود ندارد و ما معتقدیم که این موضوع مانع ایجاد توازن صحیح بین شرکت‌های هوش مصنوعی و تولید کنندگان محتوا می‌شود.”

برای ایجاد این تله‌ها، تیم از یک تولید کننده کلمات استفاده کرد تا هزاران جمله مصنوعی بسازد.این جملات بلند و پر از کلمات بی‌ معنی هستند و ممکن است چیزی شبیه به این باشند:

“در زمان‌های بحران … اینکه چه چیزی در فروش است و مهم ‌تر از آن، چه زمانی، بهترین است. این لیست به شما می‌گوید که چه کسی پنجشنبه شب با ساعت‌های عادی فروش و دیگر زمان‌های باز از همسایگان شما باز می‌شود.”

تیم تحقیقاتی ۱۰۰ جمله تله تولید کرد و سپس یکی از آنها را به ‌طور تصادفی انتخاب کرد تا بارها در یک متن تزریق شود. این تله ها می‌تواند به چندین روش در متن قرار گیرد. مثلاً به صورت متن سفید روی پس‌ زمینه سفید یا در کد منبع مقاله جاسازی شود. این جمله باید بین ۱۰۰ تا ۱۰۰۰ بار در متن تکرار شود.

برای شناسایی تله‌ها، محققان مدل زبانی بزرگی را با ۱۰۰ جمله مصنوعی که تولید کرده بودند، تغذیه کردند. سپس بررسی کردند که آیا مدل آن‌ها را به‌ عنوان جملات جدید شناسایی می‌کند یا خیر. اگر مدل جمله تله را در داده‌های آموزشی خود دیده باشد، امتیاز “تعجب” پایین ‌تری را نشان می‌دهد. اما اگر مدل از جمله‌ای “متعجب” شود، به این معنی است که برای اولین بار با آن روبرو شده و بنابراین آن جمله تله نیست.

از آنجاییکه مدل‌های زبانی داده‌های آموزشی خود را حفظ می‌کنند، محققان پیشنهاد کرده‌ بودند از این داده ها استفاده شود. سپس بررسی شود که آیا یک متن در داده‌های آموزشی ظاهر شده است یا خیر. این تکنیک به “حمله استنتاج عضویت” معروف است. از این تکنیک در مدل‌های بزرگ و پیشرفته که تمایل به حفظ بسیاری از داده‌های خود دارند، استفاده می شود.

در مقابل، مدل‌های کوچکتر که محبوبیت بیشتری پیدا کرده‌اند و می‌توانند روی دستگاه‌های موبایل اجرا شوند، داده‌های کمتری را حفظ می‌کنند . بنابراین کمتر در معرض “حملات استنتاج عضویت” قرار دارند. این موضوع تشخیص اینکه آیا این مدل‌ها روی یک سند دارای کپی ‌رایت آموزش دیده‌اند یا خیر را دشوارتر می‌کند.

تله‌ کپی ‌رایت روشی است که حتی در مدل‌های کوچک‌تر هم می‌توان حملات استنتاج عضویت را انجام داد.

تکرار یک عبارت ۷۵ کلمه‌ای به تعداد ۱۰۰۰ بار در یک سند، تغییری بزرگ در متن اصلی است. بنابراین ممکن است افرادی که مدل‌های هوش مصنوعی را آموزش می‌دهند، تله را شناسایی کنند. حتی ممکن است محتوای حاوی آن را رد کنند یا فقط آن را حذف کنند و روی بقیه متن آموزش دهند. این موضوع همچنین باعث می‌شود که متن اصلی سخت خوانده شود.

بسیاری از شرکت‌ها داده‌ها را از تکرارها پاکسازی می‌کنند و احتمالاً بخشی از این نوع محتوا حذف خواهد شد. اما حتی در آن صورت هم، هرچه تعداد تله‌ها بیشتر باشد، حذف همه آن‌ها بدون منابع مهندسی قابل ‌توجه سخت‌تر می‌شود. این موضوع در حال حاضر تله‌ کپی ‌رایت را غیر عملی می‌کند.

یکی از راه‌های بهبود تله‌ کپی ‌رایت ، یافتن روش‌هایی دیگر برای علامت‌ گذاری محتوای دارای کپی ‌رایت است. راه هایی که حملات استنتاج عضویت روی آن‌ها بهتر عمل کنند و یا “حملات استنتاج عضویت” را بهبود دهد.

مهم است به یاد داشته باشیم که تله‌ کپی ‌رایت ممکن است فقط یک راه‌ حل موقتی یا صرفاً یک مانع برای آموزش‌ دهندگان مدل‌ها باشند. نمی‌توان یک قطعه محتوا را منتشر کرد که دارای یک تله باشد و اطمینان داشت که این تله برای همیشه مؤثر خواهد بود.

مطالب مرتبط : قیمت داده های آموزشی هوش مصنوعی بسیار بالا است