قیمت داده‌های آموزشی هوش مصنوعی بسیار بالا است و فقط شرکت های فناوری بزرگ از پس پرداخت هزینه ها برمی آیند. داده‌ها در قلب سیستم‌های پیشرفته هوش مصنوعی امروز قرار دارند. اما هزینه آن‌ها روز به روز بیشتر می‌شود و دسترسی به آنها را برای تمامی شرکت‌ها، غیر ممکن می سازد.

شرکت های کوچکتر قادر به پرداخت هزینه ی این داده ها نیستند و بنابراین قادر به توسعه یا مطالعه مدل های هوش مصنوعی نخواهند بود. این محدودیت منجر به عدم بررسی مستقل شیوه های توسعه AI می شود.

اهمیت داده‌های آموزشی

سال گذشته، James Betker ، محقق OpenAI ، در وبلاگ شخصی خود درباره ماهیت مدل‌های مولد هوش مصنوعی و دیتاست‌هایی که روی آن‌ها آموزش داده می‌شوند، نوشت. Betker ادعا کرد که داده‌های آموزشی کلید سیستم‌های هوش مصنوعی پیشرفته و قدرتمند هستند. او نوشت: “با آموزش روی یک دیتاست به مدت کافی، تقریباً هر مدلی به همان نقطه همگرا می‌شود.”

سیستم‌های هوش مصنوعی مولد اساساً مدل‌های احتمالی هستند، یک مجموعه بزرگ از آمار. آن‌ها بر اساس حجم زیادی از مثال‌ها، حدس می‌زنند که کدام داده بیشتر به “مفهوم مورد نظر” می‌خورد. از این رو، منطقی به نظر می‌رسد که هرچه مدل‌ها مثال‌های بیشتری داشته باشند، عملکرد بهتری خواهند داشت.

Kyle دانشمند ارشد تحقیقات کاربردی در موسسه هوش مصنوعی Allen ، توضیح داد که داده ها باعث بهبود عملکرد می‌شود. او تأکید کرد که کیفیت داده‌ها مهم‌تر از کمیت است. Kyle افزود: “ممکن است یک مدل کوچک با داده‌های به دقت طراحی‌ شده از یک مدل بزرگتر بهتر عمل کند.”

بسیاری از مدل‌های هوش مصنوعی با داشتن برچسب‌هایی که توسط انسان‌ها بر داده‌ها زده شده، آموزش می‌بینند. اما افزایش تأکید بر دیتاست‌های بزرگ و با کیفیت، توسعه هوش مصنوعی را به دست چند شرکت محدود با بودجه‌های میلیارد دلاری می‌سپارد. همچنین رقابت برای به دست آوردن داده‌های آموزشی، در مواردی منجر به رفتارهای غیر اخلاقی و حتی غیر قانونی می‌شود.

چالش‌ قیمت داده‌های آموزشی

توسعه دهندگان مدل‌های هوش مصنوعی، اغلب داده‌های گسترده‌ای را از وب عمومی جمع‌آوری می‌کنند که برخی از آن‌ها تحت حق کپی‌ رایت قرار دارند. این روند باعث شده تا بسیاری از شرکت‌های بزرگ فناوری بدون رضایت صاحبان محتوا، داده‌ها را جمع‌آوری کنند. این موضوع منجر به نگرانی‌های قانونی و اخلاقی شده است.

OpenAI صدها میلیون دلار برای لایسنس کردن محتوا از ناشران خبری، کتابخانه‌های رسانه‌ای و غیره هزینه کرده است. با توجه به رشد بازار داده‌های آموزشی، پلتفرم‌ها نیز به دنبال فروش داده‌ها با قیمت‌های بالا هستند. این امر تحقیقات مستقل و توسعه هوش مصنوعی را به خطر می‌اندازد.

نتیجه‌گیری

تلاش‌های مستقل و غیرانتفاعی برای ایجاد دیتاست‌های بزرگی که هر کسی بتواند از آن‌ها برای آموزش مدل‌های هوش مصنوعی استفاده کند، وجود دارد. اما این تلاش‌ها با چالش‌های حقوقی و اخلاقی روبرو هستند. نوآوری عمده در داده های مصنوعی یا معماری اساسی می تواند وضعیت موجود را عوض کند. اما به نظر نمی رسد که به زودی محقق شود.

سوال اصلی این است که آیا این تلاش‌های مستقل می‌توانند با شرکت‌های بزرگ فناوری همگام شوند. تا زمانی که جمع‌آوری و گزینش داده‌ها به منابع وابسته باشد، پاسخ احتمالاً منفی است. مگر اینکه یک پیشرفت تحقیقاتی، میدان بازی را متعادل کند.

۰/۵ (۰ نظر)