بسیاری از تولید کنندگان محتوا مدعی شدهاند که آثارشان بدون رضایت آنها برای آموزش مدلهای هوش مصنوعی استفاده شده است. تاکنون تشخیص اینکه آیا یک متن خاص در مجموعه دادههای آموزشی مورد استفاده قرار گرفته یا خیر، دشوار بوده است. اما اکنون یک روش جدید برای اثبات این موضوع ایجاد شده است: “تله کپی رایت” (Copyright Trap)، که توسط تیمی از کالج Imperial لندن توسعه یافتهاند.
این تلهها، قطعاتی از متنهای مخفی هستند که به نویسندگان و ناشران اجازه میدهند آثار خود را به طور نامحسوس علامت گذاری کنند تا بتوانند بعدها تشخیص دهند که آیا اثرشان در مدلهای هوش مصنوعی مورد استفاده قرار گرفته است یا خیر.
روشی نوین برای شناسایی استفاده غیرمجاز از آثار
ایده تله کپی رایت مشابه تلههایی است که صاحبان کپی رایت در طول تاریخ به کار گرفتهاند، مثل اضافه کردن مکانهای جعلی روی نقشه یا کلمات جعلی در یک فرهنگ لغت. این تلههای کپی رایت در حال حاضر یکی از بزرگترین چالشهای هوش مصنوعی را هدف گرفتهاند.
در حال حاضر، بسیاری از ناشران و نویسندگان درگیر دعویهای قضایی علیه شرکتهای فناوری هستند. آنها ادعا میکنند که مالکیت معنوی آنها بدون اجازه در دادههای آموزشی هوش مصنوعی استفاده شده است. پرونده جاری نیویورک تایمز علیه OpenAI احتمالاً مشهورترین این موارد است.
کد مربوط به تولید و شناسایی این تلهها در حال حاضر بر روی GitHub در دسترس است. علاوه بر این، تیم تحقیقاتی در نظر دارد ابزاری تولید کند که به افراد اجازه دهد تله کپی رایت را به طور شخصی تولید کرده و در آثار خود قرار دهند.
چالشهای فعلی و آینده تله کپی رایت در مبارزه با هوش مصنوعی
Montjoye ، استادیار ریاضیات کاربردی و علوم کامپیوتر و رهبر این تحقیق، در این زمینه میگوید: “شفافیت کاملی در مورد اینکه چه محتوایی برای آموزش مدلها استفاده شده وجود ندارد و ما معتقدیم که این موضوع مانع ایجاد توازن صحیح بین شرکتهای هوش مصنوعی و تولید کنندگان محتوا میشود.”
برای ایجاد این تلهها، تیم از یک تولید کننده کلمات استفاده کرد تا هزاران جمله مصنوعی بسازد.این جملات بلند و پر از کلمات بی معنی هستند و ممکن است چیزی شبیه به این باشند:
“در زمانهای بحران … اینکه چه چیزی در فروش است و مهم تر از آن، چه زمانی، بهترین است. این لیست به شما میگوید که چه کسی پنجشنبه شب با ساعتهای عادی فروش و دیگر زمانهای باز از همسایگان شما باز میشود.”
تیم تحقیقاتی ۱۰۰ جمله تله تولید کرد و سپس یکی از آنها را به طور تصادفی انتخاب کرد تا بارها در یک متن تزریق شود. این تله ها میتواند به چندین روش در متن قرار گیرد. مثلاً به صورت متن سفید روی پس زمینه سفید یا در کد منبع مقاله جاسازی شود. این جمله باید بین ۱۰۰ تا ۱۰۰۰ بار در متن تکرار شود.
برای شناسایی تلهها، محققان مدل زبانی بزرگی را با ۱۰۰ جمله مصنوعی که تولید کرده بودند، تغذیه کردند. سپس بررسی کردند که آیا مدل آنها را به عنوان جملات جدید شناسایی میکند یا خیر. اگر مدل جمله تله را در دادههای آموزشی خود دیده باشد، امتیاز “تعجب” پایین تری را نشان میدهد. اما اگر مدل از جملهای “متعجب” شود، به این معنی است که برای اولین بار با آن روبرو شده و بنابراین آن جمله تله نیست.
از آنجاییکه مدلهای زبانی دادههای آموزشی خود را حفظ میکنند، محققان پیشنهاد کرده بودند از این داده ها استفاده شود. سپس بررسی شود که آیا یک متن در دادههای آموزشی ظاهر شده است یا خیر. این تکنیک به “حمله استنتاج عضویت” معروف است. از این تکنیک در مدلهای بزرگ و پیشرفته که تمایل به حفظ بسیاری از دادههای خود دارند، استفاده می شود.
در مقابل، مدلهای کوچکتر که محبوبیت بیشتری پیدا کردهاند و میتوانند روی دستگاههای موبایل اجرا شوند، دادههای کمتری را حفظ میکنند . بنابراین کمتر در معرض “حملات استنتاج عضویت” قرار دارند. این موضوع تشخیص اینکه آیا این مدلها روی یک سند دارای کپی رایت آموزش دیدهاند یا خیر را دشوارتر میکند.
تله کپی رایت روشی است که حتی در مدلهای کوچکتر هم میتوان حملات استنتاج عضویت را انجام داد.
تکرار یک عبارت ۷۵ کلمهای به تعداد ۱۰۰۰ بار در یک سند، تغییری بزرگ در متن اصلی است. بنابراین ممکن است افرادی که مدلهای هوش مصنوعی را آموزش میدهند، تله را شناسایی کنند. حتی ممکن است محتوای حاوی آن را رد کنند یا فقط آن را حذف کنند و روی بقیه متن آموزش دهند. این موضوع همچنین باعث میشود که متن اصلی سخت خوانده شود.
بسیاری از شرکتها دادهها را از تکرارها پاکسازی میکنند و احتمالاً بخشی از این نوع محتوا حذف خواهد شد. اما حتی در آن صورت هم، هرچه تعداد تلهها بیشتر باشد، حذف همه آنها بدون منابع مهندسی قابل توجه سختتر میشود. این موضوع در حال حاضر تله کپی رایت را غیر عملی میکند.
یکی از راههای بهبود تله کپی رایت ، یافتن روشهایی دیگر برای علامت گذاری محتوای دارای کپی رایت است. راه هایی که حملات استنتاج عضویت روی آنها بهتر عمل کنند و یا “حملات استنتاج عضویت” را بهبود دهد.
مهم است به یاد داشته باشیم که تله کپی رایت ممکن است فقط یک راه حل موقتی یا صرفاً یک مانع برای آموزش دهندگان مدلها باشند. نمیتوان یک قطعه محتوا را منتشر کرد که دارای یک تله باشد و اطمینان داشت که این تله برای همیشه مؤثر خواهد بود.
مطالب مرتبط : قیمت داده های آموزشی هوش مصنوعی بسیار بالا است