مدل های مولد یا Generative Models نوعی مدل هوش مصنوعی هستند که دادههای جدیدی را از دادههای موجود تولید میکنند. مدل های Generative در پاسخ به درخواست کاربر، قادر به تولید متن، تصاویر یا دیگر رسانه ها هستند. وظیفه اصلی مدل های مولد درک الگوها از یک مجموعه داده است. هنگامی که این الگوها آموخته شدند، مدل مولد میتواند دادههای جدیدی تولید کند که ویژگیهای مشابهی با مجموعه داده اصلی دارد. Generative Models برای تولید محتوای خلاقانه در حوزههای مختلف از هنر تا علم، کاربردهای گستردهای دارند.
مدل های مولد چگونه کار می کنند؟
مدل های یادگیری ماشین معمولی، بر روی دسته بندی نقاط داده ای تمرکز دارند و سعی می کنند رابطه بین عوامل شناخته شده و ناشناخته را تعیین کنند. به عنوان مثال، مدل های معمولی به تصاویر نگاه می کنند – داده های شناخته شده مانند ترتیب پیکسل، خط، رنگ و شکل – را به کلمات – عامل ناشناخته – نگاشت می کنند. از لحاظ ریاضی، مدل ها با شناسایی معادلاتی که می توانند عوامل ناشناخته و شناخته شده را به عنوان متغیرهای x و y به صورت عددی نگاشت کنند، کار می کردند.
یک رویکرد نسبتاً جدید در حوزه یادگیری عمیق (Deep Learning) ، برای مدلسازی فرایندهای تصادفی و پویا مورد استفاده قرار میگیرد. مدلهای مولد از اصول حرکت مولکولها و پخش و انتقال گرما در فیزیک مشتق گرفته شده اند.
مدل های هوش مصنوعی مولد یک قدم فراتر می روند. به جای پیش بینی یک برچسب بر اساس برخی از ویژگی ها، سعی می کنند ویژگی های داده شده با برچسب خاصی را پیش بینی کنند. از لحاظ ریاضی، مدل Generative احتمال رخ دادن همزمان x و y را محاسبه می کند. این مدل ها توزیع ویژگی های مختلف داده ها و روابط آنها را یاد می گیرند.
به عنوان مثال، تصاویر حیوانات را تجزیه و تحلیل می کنند تا متغیرهایی مانند اشکال مختلف گوش، چشم، ویژگی های دم و الگوهای پوستی را ثبت کنند. مدل های مولد ویژگی ها و روابط متغیرها را یاد می گیرند تا بفهمند حیوانات مختلف به طور کلی چگونه به نظر می رسند. سپس می توانند تصاویر حیوانات جدیدی را که در مجموعه آموزشی نبوده اند، بازسازی کنند.
در ادامه برخی از انواع مدل های مولد را معرفی می کنیم :
مطالب مرتبط : هوش مصنوعی مولد (Generative AI) چیست؟
مدل های انتشار (Diffusion models)
مدل های انتشار یک نوع مدل مولد است که رویکرد نسبتاً جدیدی در حوزه یادگیری عمیق (Deep Learning) است و برای مدلسازی فرایندهای تصادفی و پویا مورد استفاده قرار میگیرد. مدلهای Diffusion براساس اعمال گامهای کوچک و تصادفی روی دادهها، اطلاعات را از یک حالت شروع به یک حالت پایانی انتشار میدهند. این فرآیند پخش اطلاعات به طور تدریجی از یک سطح به سطح دیگر و از یک نقطه به نقطه دیگر انجام میشود از این رو آن را مدلسازی پخش اطلاعاتی نیز میتوان نامید.
مدلهای انتشار، با تغییرات تصادفی کنترل شده در نمونهی اولیه، دادههای جدیدی ایجاد میکنند. آنها با دادهی اصلی شروع میکنند و تغییراتی (نویز) را به آن اضافه میکنند که به تدریج باعث میشود دادهی جدید کمتر شبیه دادهی اصلی شود. این نویز با دقت کنترل میشود تا دادههای تولید شده همچنان مرتبط و واقعگرا باشند.
پس از اضافه کردن نویز در چندین مرحله، مدل انتشار فرآیند را معکوس میکند. با حذف تدریجی نویز، دادهی جدیدی تولید میشود که شبیه دادهی اولیه است. این مدلها به کمک فرآیند پخش اطلاعات و تحول تصویر، تصاویر جدید و شبیه به تصاویر ورودی را تولید میکنند.
شبکه های مولد متخاصم (Generative Adversarial networks)
شبکه های مولد متخاصم (GAN)، یکی از مدل های مولد هوش مصنوعی است که بر پایهی مفهوم مدل انتشار ساخته شده است. GANها از دو شبکه عصبی مختلف، شبکه مولد(generator) و شبکه تمیز دهنده (discriminator) ، تشکیل شدهاند که به صورت رقابتی کار می کنند. شبکهی مولد با اضافه کردن نویز تصادفی، نمونههای دادهی جعلی تولید میکند که تا جای ممکن شبیه به دادههای واقعی باشند. شبکهی تمیز دهنده سعی میکند داده های واقعی و داده های جعلی تولید شده توسط مولد را تشخیص دهد. در طول آموزش، مولد به طور مداوم توانایی خود را در ایجاد داده های واقعی بهبود می بخشد در حالی که تمیز دهنده در تشخیص دادن داده های واقعی از دادههای جعلی بهتر می شود. این فرآیند مقابلهای تا زمانی ادامه دارد که مولد دادهای تولید کند که تمیز دهنده نتواند آن را از داده های واقعی تشخیص دهد . این رقابت میان دو شبکه توانایی بهبود تولید دادههای مولد را افزایش میدهد و باعث تولید دادههایی با کیفیت بالاتر میشود. GANs در زمینههای مختلف مانند تولید تصاویر واقع گرایانه مانند ایجاد چهرههای واقعی انسانی یا آثار هنری، تولید موسیقی، ترجمه ماشینی و سایر وظایف خلاقانه مورد استفاده قرار میگیرند.
اتوانکودرهای متغیر (Variational Autoencoders (VAEs) )
اتوانکودرهای متغیر یک مدل مولد هوش مصنوعی هستند که یک نمایش فشرده از داده به نام ” فضای لاتنت” را یاد میگیرند. فضای لاتنت(نهفته) یک نمایش ریاضی از داده است. میتوانید آن را به عنوان یک کد منحصر به فرد که داده را بر اساس تمام ویژگیهای آن نشان می دهد، در نظر بگیرید. به عنوان مثال، اگر چهرهها را مورد مطالعه قرار دهیم، فضای لاتنت شامل اعدادی است که شکل چشم، شکل بینی، خطوط لب و گوش را نشان می دهد.
اتوانکودرهای متغیر از دو شبکه عصبی استفاده میکنند – رمزگذار(encoder ) و رمزگشا(decoder). شبکه عصبی رمزگذار داده ورودی را به یک میانگین و واریانس برای هر بعد از فضای لاتنت نگاشت میکند. سپس یک نمونه تصادفی از یک توزیع گاوسی (نرمال) تولید میکند. این نمونه یک نقطه در فضای لاتنت است و نسخه فشرده و ساده شده داده ورودی را نشان میدهد.
شبکه عصبی رمزگشا این نقطه نمونهبرداری شده را از فضای لاتنت برمیدارد و آن را به دادهای که شبیه داده ورودی اصلی است بازسازی میکند. توابع ریاضی برای اندازهگیری اینکه چقدر داده بازسازی شده با داده اصلی مطابقت دارد، استفاده میشوند.
VAEها به خوبی برای تولید دادههای جدید و ایجاد تنوع در دادهها استفاده میشوند، و همچنین برای فضای لاتنت یا فضای نهانی که بهبود انتشار ویژگیهای مهم دادهها را توصیف میکند، بسیار مفید هستند. برای درک بهتر، این مدلها معمولاً در وظایف ایجاد محتوای جدید مورد استفاده قرار میگیرند. به عنوان مثال:
- ساخت تصاویر واقعگرایانه از چهرههای انسان.
- ساخت موسیقی.
- تولید محتوای متنی.
- افزایش دادههای موجود با نمونه
مدل های مبتنی بر ترانسفورمر(Transformer-based models)
مدلهای مولد مبتنی بر ترانسفورمر، بر پایهی مفاهیم رمزگذار و رمزگشا در اتوانکودرهای متغیر ساخته شدهاند. مدلهای مبتنی بر ترانسفورمر، لایههای بیشتری به رمزگذار اضافه میکنند تا عملکرد آنها در وظایف مبتنی بر متن مانند درک، ترجمه و نوشتن خلاقانه بهبود یابد.
Transformer یک ساختار شبکه عصبی عمیق است که بر اساس مکانیزم توجه (attention mechanism) کار میکند. در واقع، به جای استفاده از لایههای بازگردنده مانند GRU یا LSTM ، ترانسفورمر از لایههای توجه استفاده میکند که به مدل امکان مدلسازی موازی و نیز برقراری ارتباطات بین تمام توکنهای ورودی را میدهند. Transformer اهمیت بخشهای مختلف یک دنباله ورودی را در هنگام پردازش هر عنصر در دنباله محاسبه میکند.
Transformer-based models همچنین دارای اندازه قابل توجهی از پارامترها هستند که آنها را قادر به یادگیری و تولید دادههای با کیفیت و لغوی و تسلط بر زبان بیشتر میکند. مدلهایی مانند BERT برای تبدیل متن به نمایش برداری، و GPT برای تولید متن زبان طبیعی قابل استفاده هستند.
برای درک اینکه مدلهای مبتنی بر ترانسفورمر چگونه کار میکنند، یک جمله را به عنوان یک دنباله از کلمات تصور کنید. خودتوجهی(Self-attention) به مدل کمک میکند تا هنگام پردازش هر کلمه، بر روی کلمات مرتبط تمرکز کند. برای به دست آوردن انواع روابط مختلف بین کلمات، مدل مولد مبتنی بر ترانسفورمر از چندین لایه رمزگذار به نام “attention heads” استفاده میکند. هر head یاد می گیرد که به بخشهای مختلف دنباله ورودی توجه کند. در نتیجه مدل می تواند به طور همزمان به جنبههای مختلف داده فکر کند.
همچنین هر لایه تعبیههای متنی را بهبود میبخشد. لایهها تعبیهها را اطلاعاتیتر میکنند و همه چیز از دستور گرامر تا معنایی پیچیده را در بر میگیرند.
استفاده از Transformer-based models، به ویژه در مسائل مرتبط با پردازش زبان طبیعی، از جمله ترجمه ماشینی، استخراج اطلاعات و پرسش و پاسخ، بهبود قابل توجهی در نتایج و کارایی مدلها داشته است.
شبکه های بیزی (Bayesian networks)
مدل مولد Bayesian networks، مدل گرافیکی است که روابط احتمالی را میان مجموعهای از متغیرها نشان میدهد . در این مدلها، توزیع احتمالاتی متغیرهای مختلف و وابستگی بین آنها، با استفاده از شبکههای بیزی مدلسازی میشود.
مدلهای Bayesian networks بر اساس اصل علت گرایی ساخته شدهاند و توانایی بسیار بالایی در تحلیل و پیشبینی وابستگیها دارند. در مواقعی که باید فهمید که چگونه یک پدیده یا مسئله به دیگر پدیده ها و عوامل وابسته به آن مرتبط است، از مدل مولد Bayesian network استفاده می شود.
به عنوان مثال در حوزه پزشکی، تشخیص صحیح یک بیماری ممکن است به دلیل وابستگی بین علائم و بیماریهای مختلف، یک چالش باشد. با استفاده از شبکه Bayesian ، این وابستگیها نشان داده می شود و روابط میان علائم و بیماریها ، مدلسازی میشود. بنابراین امکان پیشبینی احتمال بروز یک بیماری بر اساس مجموعه از علائم مختلف افزایش مییابد. به طور خلاصه، با استفاده از مدلهای Bayesian networks، میتوان به صورت دقیق تر و موثرتر به تحلیل و پیشبینی روابط علّی و وابستگیهای پیچیده در دادهها پرداخت.
مدل مولد Bayesian networks در بسیاری از زمینه ها از جمله تولید تصویر ، موسیقی، ترجمه ماشینی و سایر وظایف مربوط به هوش مصنوعی و یادگیری ماشینی کاربرد دارد.
ماشینهای محدود بولتزمن (RBMs)
مدل مولد ماشینهای محدود بولتزمن یک نوع شبکه عصبی مصنوعی است که برای مدلسازی دادهها و استخراج ویژگیهای مهم از دادهها استفاده میشود. این مدلها برای تشخیص الگوها در دادهها و تولید دادههای جدید استفاده میشوند.
مدل مولد RBM از دو نوع لایه تشکیل شده است : لایه قابل مشاهده (visible layer) که مشاهدات را دریافت میکند و لایه پنهان (hidden layer) که ویژگیهای نهانی از دادهها را نمایش میدهد.
هدف اصلی از استفاده از مدل RBM، یادگیری توزیع احتمالاتی پنهان در دادهها و استخراج ویژگیهای مهم از آنها است. با آموزش RBM ، میتوان ویژگیهای مهم و ارتباطات میان دادهها را درک کرد. سپس این ویژگیها میتوانند برای مسائلی مانند تشخیص الگو، تقسیم بندی یا بازسازی دادهها استفاده شوند.
مدل مولد RBM یک ابزار قدرتمند برای یادگیری و استخراج ویژگی از دادهها است و در زمینههای یادگیری ماشین، تشخیص الگو و پردازش تصویر مانند پیشنهاد فیلم در پلتفرم های مختلف براساس علائق کاربر، استفاده می شود.