نفوذ به OpenAI، یکی از پیشروان صنعت هوش مصنوعی، هشداری جدی برای امنیت دادههای حساس در این شرکتهاست. به نظر میرسد این نفوذ سطحی بوده و هکرها تنها به یک انجمن بحث کارمندان دسترسی پیدا کرده اند.
با این حال، این حادثه نشان میدهد که شرکتهای هوش مصنوعی به سرعت به اهداف جذابی برای هکرها تبدیل شدهاند. با توجه به حجم عظیم دادههای آموزشی با کیفیت بالا، تعاملات گسترده کاربران و دادههای مشتریان، اهمیت حفظ امنیت و حریم خصوصی در این صنعت بیش از پیش احساس میشود.
بررسی نفوذ به OpenAI
کارمند سابق OpenAI، Leopold Aschenbrenner، اخیراً در یک پادکست آن را یک “حادثه امنیتی عمده” نامید. اما منابع ناشناس در شرکت به روزنامه نیویورک تایمز گفتند که هکر فقط به یک انجمن بحث کارمندان دسترسی پیدا کرده است.
هیچ نفوذ امنیتی نباید واقعاً بیاهمیت تلقی شود و استراق سمع در بحثهای داخلی توسعه OpenAI قطعاً ارزش خود را دارد. اما این با دسترسی یک هکر به سیستمهای داخلی، مدلهای در حال پیشرفت، نقشههای راه محرمانه و غیره فاصله زیادی دارد.
اهمیت دادههای آموزشی
بیایید درباره سه نوع دادهای صحبت کنیم که OpenAI و به میزان کمتری سایر شرکتهای هوش مصنوعی ایجاد کرده یا به آنها دسترسی دارند: دادههای آموزشی با کیفیت بالا، تعاملات حجیم کاربران، و دادههای مشتریان.
مشخص نیست که دقیقاً چه دادههای آموزشی دارند، زیرا شرکتها درباره انبارهای خود به شدت محرمانه هستند. اما اشتباه است که فکر کنیم آنها فقط تودههای بزرگی از دادههای وب هستند.
بله، آنها از دادههای وب یا مجموعههایی مانند Pile استفاده میکنند، اما شکل دادن به آن دادههای خام به چیزی که بتوان برای آموزش مدلی مانند GPT-4 استفاده کرد، یک کار بزرگ است. ساعتها کار انسانی برای انجام این کار لازم است زیرا این کار فقط به صورت جزئی قابل اتوماسیون است.
ارزش دادههای کاربران
گنجینه عظیم دادههای کاربران OpenAI شاید حتی ارزشمندتر باشد. احتمالاً میلیاردها مکالمه با ChatGPT در صدها هزار موضوع وجود دارد. همانطور که دادههای جستجو زمانی کلید درک روانشناسی جمعی وب بود، ChatGPT نبض جمعیتی را دارد که شاید به وسعت کاربران گوگل نباشد، اما عمق بیشتری فراهم میکند. (مکالمات شما به عنوان داده آموزشی استفاده میشوند، مگر اینکه خودتان انصراف دهید.)
در مورد گوگل، افزایش جستجوها برای “تهویه مطبوع” به شما میگوید که بازار کمی گرم شده است. اما آن کاربران یک مکالمه کامل درباره آنچه میخواهند، چقدر پول میخواهند خرج کنند، خانهشان چگونه است، تولیدکنندگانی که میخواهند انتخاب کنند و غیره، ندارند. گوگل در تلاش است کاربران خود را به ارائه این اطلاعات، با جایگزین کردن تعاملات هوش مصنوعی به جای جستجوها، تشویق کند!
دادههای مشتریان
آخرین دسته از دادهها شاید ارزشمندترین در بازار آزاد باشد: چگونگی استفاده مشتریان از هوش مصنوعی و دادههایی که خودشان به مدلها تغذیه کردهاند. صدها شرکت بزرگ و تعداد بیشماری شرکتهای کوچکتر از ابزارهایی مانند APIهای OpenAI و Anthropic برای انواع وظایف استفاده میکنند. و برای اینکه یک مدل زبانی برای آنها مفید باشد، معمولاً باید روی پایگاههای داده داخلی خودشان به صورت دقیق تنظیم شود یا به آنها دسترسی داده شود.
چالشهای امنیتی و حریم خصوصی
اینها اسرار صنعتی هستند و شرکتهای هوش مصنوعی در مرکز بسیاری از آنها قرار دارند. جدید بودن این بخش از صنعت همراه با خود یک ریسک ویژه دارد زیرا فرآیندهای هوش مصنوعی هنوز استاندارد نشده یا به طور کامل درک نشدهاند.
مثل هر ارائهدهنده SaaS، شرکتهای هوش مصنوعی کاملاً قادر به ارائه سطح استاندارد صنعتی از امنیت، حریم خصوصی، گزینههای محلی و به طور کلی ارائه خدمات خود به صورت مسئولانه هستند. مطمئنا پایگاههای داده خصوصی و تماسهای API مشتریان Fortune 500 OpenAI به شدت محافظت شده اند! این شرکتها قطعاً باید به ریسکهای ذاتی در دستکاری دادههای محرمانه در زمینه هوش مصنوعی آگاه باشند.
نتیجهگیری
امنیت فقط انتخاب تنظیمات صحیح یا بهروزرسانی نرمافزار نیست. این یک بازی بیپایان گربه و موش است که به طرز عجیبی اکنون با خود هوش مصنوعی تقویت شده است: عوامل و اتوماسیونهای حمله در حال بررسی هر گوشه و کناری از سطوح حمله این شرکتها هستند.
شرکتهایی که به حجم زیادی از دادههای شخصی یا تجاری ارزشمند دسترسی دارند، سالها با خطرات مشابه مواجه شده و آنها را مدیریت کردهاند. اما شرکتهای هوش مصنوعی یک هدف جدیدتر و جذابتر برای هکرها هستند. حتی نفوذی مانند آنچه در بالا گزارش شده است، بدون استخراج جدی که ما از آن اطلاع داشته باشیم، باید هر کسی که با شرکتهای هوش مصنوعی کسب و کار میکند را نگران کند.