مدل‌ های مولد یا Generative Models  نوعی مدل هوش مصنوعی هستند که داده‌های جدیدی را از داده‌های موجود تولید می‌کنند. مدل‌ های Generative در پاسخ به درخواست کاربر، قادر به تولید متن، تصاویر یا دیگر رسانه‌ ها هستند. وظیفه اصلی مدل‌ های مولد درک الگوها از یک مجموعه داده است. هنگامی که این الگوها آموخته شدند، مدل مولد می‌تواند داده‌های جدیدی تولید کند که ویژگی‌های مشابهی با مجموعه داده اصلی دارد. Generative Models برای تولید محتوای خلاقانه در حوزه‌های مختلف از هنر تا علم، کاربردهای گسترده‌ای دارند. 

مدل های مولد چگونه کار می کنند؟

مدل های یادگیری ماشین معمولی، بر روی دسته بندی نقاط داده ای تمرکز دارند و سعی می کنند رابطه بین عوامل شناخته شده و ناشناخته را تعیین کنند. به عنوان مثال، مدل های معمولی به تصاویر نگاه می کنند – داده های شناخته شده مانند ترتیب پیکسل، خط، رنگ و شکل – را به کلمات – عامل ناشناخته – نگاشت می کنند. از لحاظ ریاضی، مدل ها با شناسایی معادلاتی که می توانند عوامل ناشناخته و شناخته شده را به عنوان متغیرهای x و y به صورت عددی نگاشت کنند، کار می کردند.

مدل های AI

یک رویکرد نسبتاً جدید در حوزه یادگیری عمیق (Deep Learning) ، برای مدل‌سازی فرایندهای تصادفی و پویا مورد استفاده قرار می‌گیرد. مدل‌های مولد از اصول حرکت مولکول‌ها و پخش و انتقال گرما در فیزیک مشتق گرفته‌ شده اند.

مدل های هوش مصنوعی مولد یک قدم فراتر می روند. به جای پیش بینی یک برچسب بر اساس برخی از ویژگی ها، سعی می کنند ویژگی های داده شده با برچسب خاصی را پیش بینی کنند. از لحاظ ریاضی، مدل Generative  احتمال رخ دادن همزمان x  و y را محاسبه می کند. این مدل ها توزیع ویژگی های مختلف داده ها و روابط آنها را یاد می گیرند.

به عنوان مثال، تصاویر حیوانات را تجزیه و تحلیل می کنند تا متغیرهایی مانند اشکال مختلف گوش، چشم، ویژگی های دم و الگوهای پوستی را ثبت کنند. مدل های مولد ویژگی ها و روابط متغیرها را یاد می گیرند تا بفهمند حیوانات مختلف به طور کلی چگونه به نظر می رسند. سپس می توانند تصاویر حیوانات جدیدی را که در مجموعه آموزشی نبوده اند، بازسازی کنند.

در ادامه برخی از انواع مدل های مولد را  معرفی می کنیم :

مدل های انتشار (Diffusion models)

مدل‌ های انتشار یک نوع مدل مولد است که رویکرد نسبتاً جدیدی در حوزه یادگیری عمیق (Deep Learning) است و برای مدل‌سازی فرایندهای تصادفی و پویا مورد استفاده قرار می‌گیرد. مدل‌های Diffusion براساس اعمال گام‌های کوچک و تصادفی روی داده‌ها، اطلاعات را از یک حالت شروع به یک حالت پایانی انتشار می‌دهند. این فرآیند پخش اطلاعات به طور تدریجی از یک سطح به سطح دیگر و از یک نقطه به نقطه دیگر انجام می‌شود از این رو آن را مدل‌سازی پخش اطلاعاتی نیز می‌توان نامید.

مدل‌های انتشار، با تغییرات تصادفی کنترل شده در نمونه‌ی اولیه، داده‌های جدیدی ایجاد می‌کنند. آن‌ها با داده‌ی اصلی شروع می‌کنند و تغییراتی (نویز) را به آن اضافه می‌کنند که به تدریج باعث می‌شود داده‌ی جدید کمتر شبیه داده‌ی اصلی شود. این نویز با دقت کنترل می‌شود تا داده‌های تولید شده همچنان مرتبط و واقع‌گرا باشند.

 پس از اضافه کردن نویز در چندین مرحله، مدل انتشار فرآیند را معکوس می‌کند. با حذف تدریجی نویز، داده‌ی جدیدی تولید می‌شود که شبیه داده‌ی اولیه است. این مدل‌ها به کمک فرآیند پخش اطلاعات و تحول تصویر، تصاویر جدید و شبیه به تصاویر ورودی را تولید می‌کنند.

مدل های انتشار (Diffusion models)

شبکه های مولد متخاصم (Generative Adversarial networks)

شبکه‌ های مولد متخاصم (GAN)، یکی از مدل‌ های مولد هوش مصنوعی است که بر پایه‌ی مفهوم مدل انتشار ساخته شده است. GAN‌ها از دو شبکه عصبی مختلف، شبکه مولد(generator) و شبکه تمیز دهنده (discriminator) ، تشکیل شده‌اند که به صورت رقابتی کار می‌ کنند. شبکه‌ی مولد با اضافه کردن نویز تصادفی، نمونه‌های داده‌ی جعلی تولید می‌کند که تا جای ممکن شبیه به داده‌های واقعی باشند. شبکه‌ی تمیز دهنده سعی می‌کند داده‌ های واقعی و داده‌ های جعلی تولید شده توسط مولد را تشخیص دهد. در طول آموزش، مولد به طور مداوم توانایی خود را در ایجاد داده‌ های واقعی بهبود می‌ بخشد در حالی که تمیز دهنده در تشخیص دادن داده‌ های واقعی از داده‌های جعلی بهتر می‌ شود. این فرآیند مقابله‌ای تا زمانی ادامه دارد که مولد داده‌ای تولید کند که تمیز دهنده نتواند آن را از داده‌ های واقعی تشخیص دهد . این رقابت میان دو شبکه توانایی بهبود تولید داده‌های مولد را افزایش می‌دهد و باعث تولید داده‌هایی با کیفیت بالاتر می‌شود. GANs در زمینه‌های مختلف مانند تولید تصاویر واقع گرایانه مانند ایجاد چهره‌های واقعی انسانی یا آثار هنری، تولید موسیقی، ترجمه ماشینی و سایر وظایف خلاقانه مورد استفاده قرار می‌گیرند.

شبکه های مولد متخاصم

اتوانکودرهای متغیر (Variational Autoencoders (VAEs) )

اتوانکودرهای متغیر  یک مدل مولد هوش مصنوعی هستند که یک نمایش فشرده از داده به نام ” فضای لاتنت” را یاد می‌گیرند. فضای لاتنت(نهفته) یک نمایش ریاضی از داده است. می‌توانید آن را به عنوان یک کد منحصر به فرد که داده را بر اساس تمام ویژگی‌های آن نشان می دهد، در نظر بگیرید. به عنوان مثال، اگر چهره‌ها را مورد مطالعه قرار دهیم، فضای لاتنت شامل اعدادی است که شکل چشم، شکل بینی، خطوط لب و گوش را نشان می‌ دهد.

اتوانکودرهای متغیر از دو شبکه عصبی استفاده می‌کنند – رمزگذار(encoder ) و رمزگشا(decoder). شبکه عصبی رمزگذار داده ورودی را به یک میانگین و واریانس برای هر بعد از فضای لاتنت نگاشت می‌کند. سپس یک نمونه تصادفی از یک توزیع گاوسی (نرمال) تولید می‌کند. این نمونه یک نقطه در فضای لاتنت است و نسخه فشرده و ساده شده داده ورودی را نشان می‌دهد.

 شبکه عصبی رمزگشا این نقطه نمونه‌برداری شده را از فضای لاتنت برمی‌دارد و آن را به داده‌ای که شبیه داده ورودی اصلی است بازسازی می‌کند. توابع ریاضی برای اندازه‌گیری اینکه چقدر داده بازسازی شده با داده اصلی مطابقت دارد، استفاده می‌شوند.

VAEها به خوبی برای تولید داده‌های جدید و ایجاد تنوع در داده‌ها استفاده می‌شوند، و همچنین برای فضای لاتنت یا فضای نهانی که بهبود انتشار ویژگی‌های مهم داده‌ها را توصیف می‌کند، بسیار مفید هستند. برای درک بهتر، این مدل‌ها معمولاً در وظایف ایجاد محتوای جدید مورد استفاده قرار می‌گیرند. به عنوان مثال:

  • ساخت تصاویر واقع‌گرایانه از چهره‌های انسان.
  • ساخت موسیقی.
  • تولید محتوای متنی.
  • افزایش داده‌های موجود با نمونه
اتوانکودر های مختلف

مدل های مبتنی بر ترانسفورمر(Transformer-based models)

مدل‌های مولد مبتنی بر ترانسفورمر، بر پایه‌ی مفاهیم رمزگذار و رمزگشا در اتوانکودرهای متغیر ساخته شده‌اند. مدل‌های مبتنی بر ترانسفورمر، لایه‌های بیشتری به رمزگذار اضافه می‌کنند تا عملکرد آن‌ها در وظایف مبتنی بر متن مانند درک، ترجمه و نوشتن خلاقانه بهبود یابد.

Transformer یک ساختار شبکه عصبی عمیق است که بر اساس مکانیزم توجه (attention mechanism) کار می‌کند.  در واقع، به جای استفاده از لایه‌های بازگردنده مانند GRU یا LSTM ، ترانسفورمر از لایه‌های توجه استفاده می‌کند که به مدل امکان مدل‌سازی موازی و نیز برقراری ارتباطات بین تمام توکن‌های ورودی را می‌دهند. Transformer اهمیت بخش‌های مختلف یک دنباله ورودی را در هنگام پردازش هر عنصر در دنباله محاسبه می‌کند.

Transformer-based models همچنین دارای اندازه قابل توجهی از پارامترها هستند که آن‌ها را قادر به یادگیری و تولید داده‌های با کیفیت و لغوی و تسلط بر زبان بیشتر می‌کند. مدل‌هایی مانند BERT برای تبدیل متن به نمایش برداری، و GPT برای تولید متن زبان طبیعی قابل استفاده هستند.

برای درک اینکه مدل‌های مبتنی بر ترانسفورمر چگونه کار می‌کنند، یک جمله را به عنوان یک دنباله از کلمات تصور کنید. خودتوجهی(Self-attention) به مدل کمک می‌کند تا هنگام پردازش هر کلمه، بر روی کلمات مرتبط تمرکز کند. برای به دست آوردن انواع روابط مختلف بین کلمات، مدل مولد مبتنی بر ترانسفورمر از چندین لایه رمزگذار به نام‌ “attention heads” استفاده می‌کند. هر head یاد می گیرد که به بخش‌های مختلف دنباله ورودی توجه ‌کند. در نتیجه مدل می تواند به طور همزمان به جنبه‌های مختلف داده فکر کند.

همچنین هر لایه تعبیه‌های متنی را بهبود می‌بخشد. لایه‌ها تعبیه‌ها را اطلاعاتی‌تر می‌کنند و همه چیز  از دستور گرامر تا معنایی پیچیده را در بر می‌گیرند.

 استفاده از Transformer-based models، به ویژه در مسائل مرتبط با پردازش زبان طبیعی، از جمله ترجمه ماشینی، استخراج اطلاعات و پرسش و پاسخ، بهبود قابل توجهی در نتایج و کارایی مدل‌ها داشته است.

 

مدل های مبتنی بر ترانسفورمر

شبکه های بیزی (Bayesian networks)

مدل مولد Bayesian networks، مدل‌ گرافیکی است که روابط احتمالی را میان مجموعه‌ای از متغیرها نشان می‌دهد .  در این مدل‌ها، توزیع احتمالاتی متغیرهای مختلف و وابستگی بین آن‌ها، با استفاده از شبکه‌های بیزی مدلسازی می‌شود.

مدل‌های Bayesian networks بر اساس اصل علت ‌گرایی ساخته شده‌اند و توانایی بسیار بالایی در تحلیل و پیش‌بینی وابستگی‌ها دارند. در مواقعی که باید فهمید که چگونه یک پدیده یا مسئله به ‌دیگر پدیده‌ ها و عوامل وابسته به آن مرتبط است، از مدل مولد Bayesian network استفاده می شود. 

به عنوان مثال در حوزه پزشکی، تشخیص صحیح یک بیماری ممکن است به دلیل وابستگی بین علائم و بیماری‌های مختلف، یک چالش باشد. با استفاده از شبکه Bayesian ، این وابستگی‌ها نشان داده می شود و  روابط میان علائم و بیماری‌ها ،  مدل‌سازی می‌شود. بنابراین امکان پیش‌بینی احتمال بروز یک بیماری بر اساس مجموعه از علائم مختلف افزایش می‌یابد. به طور خلاصه، با استفاده از مدل‌های Bayesian networks، می‌توان به صورت دقیق تر و موثرتر به تحلیل و پیش‌بینی روابط علّی و وابستگی‌های پیچیده در داده‌ها پرداخت.

مدل مولد Bayesian networks در بسیاری از زمینه ها از جمله تولید تصویر ، موسیقی، ترجمه ماشینی و سایر وظایف مربوط به هوش مصنوعی و یادگیری ماشینی کاربرد دارد. 

شبکه های بیزی

ماشین‌های محدود بولتزمن (RBMs)

مدل مولد ماشین‌های محدود بولتزمن یک نوع شبکه عصبی مصنوعی است که برای مدل‌سازی داده‌ها و استخراج ویژگی‌های مهم از داده‌ها استفاده می‌شود. این مدل‌ها برای تشخیص الگوها در داده‌ها و تولید داده‌های جدید استفاده می‌شوند.

مدل‌ مولد RBM  از دو نوع لایه تشکیل شده‌ است : لایه قابل مشاهده (visible layer) که مشاهدات را دریافت می‌کند و لایه پنهان (hidden layer) که ویژگی‌های نهانی از داده‌ها را نمایش می‌دهد.

 هدف اصلی از استفاده از مدل RBM، یادگیری توزیع احتمالاتی پنهان در داده‌ها و استخراج ویژگی‌های مهم از آن‌ها است. با آموزش RBM ، می‌توان ویژگی‌های مهم و ارتباطات میان داده‌ها را درک کرد. سپس این ویژگی‌ها می‌توانند برای مسائلی مانند تشخیص الگو، تقسیم بندی یا بازسازی داده‌ها استفاده شوند.

 مدل مولد RBM یک ابزار قدرتمند برای یادگیری و استخراج ویژگی از داده‌ها است و در زمینه‌های یادگیری ماشین، تشخیص الگو و پردازش تصویر مانند پیشنهاد فیلم در پلتفرم‌ های مختلف براساس علائق کاربر، استفاده می‌ شود.

۰/۵ (۰ نظر)