قیمت دادههای آموزشی هوش مصنوعی بسیار بالا است و فقط شرکت های فناوری بزرگ از پس پرداخت هزینه ها برمی آیند. دادهها در قلب سیستمهای پیشرفته هوش مصنوعی امروز قرار دارند. اما هزینه آنها روز به روز بیشتر میشود و دسترسی به آنها را برای تمامی شرکتها، غیر ممکن می سازد.
شرکت های کوچکتر قادر به پرداخت هزینه ی این داده ها نیستند و بنابراین قادر به توسعه یا مطالعه مدل های هوش مصنوعی نخواهند بود. این محدودیت منجر به عدم بررسی مستقل شیوه های توسعه AI می شود.
اهمیت دادههای آموزشی
سال گذشته، James Betker ، محقق OpenAI ، در وبلاگ شخصی خود درباره ماهیت مدلهای مولد هوش مصنوعی و دیتاستهایی که روی آنها آموزش داده میشوند، نوشت. Betker ادعا کرد که دادههای آموزشی کلید سیستمهای هوش مصنوعی پیشرفته و قدرتمند هستند. او نوشت: “با آموزش روی یک دیتاست به مدت کافی، تقریباً هر مدلی به همان نقطه همگرا میشود.”
سیستمهای هوش مصنوعی مولد اساساً مدلهای احتمالی هستند، یک مجموعه بزرگ از آمار. آنها بر اساس حجم زیادی از مثالها، حدس میزنند که کدام داده بیشتر به “مفهوم مورد نظر” میخورد. از این رو، منطقی به نظر میرسد که هرچه مدلها مثالهای بیشتری داشته باشند، عملکرد بهتری خواهند داشت.
Kyle دانشمند ارشد تحقیقات کاربردی در موسسه هوش مصنوعی Allen ، توضیح داد که داده ها باعث بهبود عملکرد میشود. او تأکید کرد که کیفیت دادهها مهمتر از کمیت است. Kyle افزود: “ممکن است یک مدل کوچک با دادههای به دقت طراحی شده از یک مدل بزرگتر بهتر عمل کند.”
بسیاری از مدلهای هوش مصنوعی با داشتن برچسبهایی که توسط انسانها بر دادهها زده شده، آموزش میبینند. اما افزایش تأکید بر دیتاستهای بزرگ و با کیفیت، توسعه هوش مصنوعی را به دست چند شرکت محدود با بودجههای میلیارد دلاری میسپارد. همچنین رقابت برای به دست آوردن دادههای آموزشی، در مواردی منجر به رفتارهای غیر اخلاقی و حتی غیر قانونی میشود.
چالش قیمت دادههای آموزشی
توسعه دهندگان مدلهای هوش مصنوعی، اغلب دادههای گستردهای را از وب عمومی جمعآوری میکنند که برخی از آنها تحت حق کپی رایت قرار دارند. این روند باعث شده تا بسیاری از شرکتهای بزرگ فناوری بدون رضایت صاحبان محتوا، دادهها را جمعآوری کنند. این موضوع منجر به نگرانیهای قانونی و اخلاقی شده است.
OpenAI صدها میلیون دلار برای لایسنس کردن محتوا از ناشران خبری، کتابخانههای رسانهای و غیره هزینه کرده است. با توجه به رشد بازار دادههای آموزشی، پلتفرمها نیز به دنبال فروش دادهها با قیمتهای بالا هستند. این امر تحقیقات مستقل و توسعه هوش مصنوعی را به خطر میاندازد.
نتیجهگیری
تلاشهای مستقل و غیرانتفاعی برای ایجاد دیتاستهای بزرگی که هر کسی بتواند از آنها برای آموزش مدلهای هوش مصنوعی استفاده کند، وجود دارد. اما این تلاشها با چالشهای حقوقی و اخلاقی روبرو هستند. نوآوری عمده در داده های مصنوعی یا معماری اساسی می تواند وضعیت موجود را عوض کند. اما به نظر نمی رسد که به زودی محقق شود.
سوال اصلی این است که آیا این تلاشهای مستقل میتوانند با شرکتهای بزرگ فناوری همگام شوند. تا زمانی که جمعآوری و گزینش دادهها به منابع وابسته باشد، پاسخ احتمالاً منفی است. مگر اینکه یک پیشرفت تحقیقاتی، میدان بازی را متعادل کند.