الگوریتم DenseAV که در دانشگاه MIT توسعه یافته است، با تماشای ویدیوهای افراد صحبت کننده، توانایی تجزیه و تحلیل زبان را به دست می‌آورد. این الگوریتم با ترکیب سیگنال‌های صوتی و تصویری، می‌تواند معنای کلمات را پیش‌بینی کند.

الگوریتم DenseAV به منظور یادگیری زبان، از پیش ‌بینی محتوای تصویری بر اساس محتوای صوتی و برعکس استفاده می‌ کند. به عنوان مثال، اگر صدایی را بشنوید که می ‌گوید :”کیک را در دمای ۳۵۰ درجه فارنهایت پخته‌اند”، پیکسل‌های مرتبط با کیک یا فر در تصویر را تشخیص می ‌دهد.

هنگامی که محققان DenseAV را در این بازی تطبیقی اموزش دادند، بررسی کردند که مدل هنگام شنیدن صدا به دنبال کدام پیکسل است. به عنوان مثال، هنگامی که کسی می گوید  “سگ”، الگوریتم بلافاصله شروع به جستجوی سگ ها در جریان ویدئو می کند.  با دیدن پیکسل هایی که توسط الگوریتم انتخاب می شوند، می توان کشف کرد که الگوریتم فکر می کند یک کلمه به چه معنی است.

محققان می‌خواستند بدانند آیا الگوریتم تفاوت بین کلمه “سگ” و “صدای سگ ”  را می‌داند یا خیر.  بنابراین تیم با ایجاد یک “مغز دو طرفه” برای DenseAV این موضوع را بررسی کرد. آن‌ها متوجه شدند که یک طرف مغز DenseAV به طور طبیعی بر روی زبان تمرکز دارد، مانند کلمه “سگ”، و طرف دیگر بر روی صداها مانند “صدای سگ” متمرکز است. این نشان می‌دهد که DenseAV نه تنها معنای کلمات و مکان‌های صداها را یاد گرفته است، بلکه می تواند بین این نوع ارتباطات، بدون دخالت انسانی یا دانش زبان نوشتاری، تمایز قائل شود. 

چالش های DenseAV

یک چالش قدرتمند در پیش روی تیم، یادگیری زبان بدون هیچ متن ورودی است. هدف آن‌ها از این تلاش، کشف معنای زبان از نقطه‌ی صفر است، بدون استفاده از مدل‌های زبان پیش‌آموز. این رویکرد از نحوه‌ی یادگیری کودکان الهام گرفته شده است، که با مشاهده و گوش دادن به محیط خود، زبان را می‌آموزند. برای دستیابی به این هدف، DenseAV  از دو مولفه‌ی اصلی برای پردازش داده‌های صوتی و تصویری به صورت جداگانه استفاده می ‌کند.

این جداسازی باعث می‌شود الگوریتم نتواند تقلب کند، زیرا اجازه نمی‌دهد تا بخش تصویری به بخش صوتی نگاه کند و بالعکس. این روش باعث می‌شود الگوریتم اشیاء را تشخیص داده و ویژگی‌های دقیق و معناداری را برای هر دو سیگنال صوتی و تصویری ایجاد کند.  DenseAV  با مقایسه سیگنال‌های صوتی و تصویری، مشخص می‌کند کدام سیگنال‌ها مطابقت دارند و کدام سیگنال‌ها مطابقت ندارند. این روش، به نام یادگیری متقابل، نیازی به نمونه‌های برچسب‌گذاری شده ندارد و اجازه می‌دهد تا DenseAV الگوهای پیش‌ بینی مهم زبان را خودش کشف کند.

الگوریتم DenseAV از دو مولفه برای پردازش جداگانه داده‌های صوتی و تصویری استفاده می‌کند. این طراحی به الگوریتم امکان تشخیص اشیاء و تولید ویژگی‌های دقیق و معنادار برای سیگنال‌های صوتی و تصویری را می ‌دهد.

شناسایی و تقسیم‌بندی اشیاء در تصاویر، همچنین صداهای محیطی و کلمات گفته ‌شده در صداهای رکورد شده، هر کدام مشکلات دشواری در خود دارند. مدل DenseAV پیشرفت‌های قابل توجهی در توسعه روش‌هایی که می‌توانند به طور همزمان این وظایف را حل کنند، داشته است.

همچنین  انتقال به یک معماری ترانسفورماتور بزرگ چالش‌هایی را ایجاد کرد، زیرا این مدل‌ها ممکن است جزئیات ریز را به ‌راحتی نادیده بگیرند.  تشویق مدل به تمرکز بر این جزئیات، یک مشکل مهم بود.

 

تفاوت‌ الگوریتم DenseAV  و سایر الگوریتم های مشابه

یکی از تفاوت‌های اصلی بین الگوریتم DenseAV  و الگوریتم های مشابه این است که الگوریتم‌های قبلی تمرکز خود را بر مفهوم تشابه بین صدا و تصویر می‌ گذارند. به عبارت دیگر، یک کلیپ صوتی کامل مانند جمله “سگ روی چمن نشست” به یک تصویر کامل از یک سگ نسبت داده می‌شود. روش‌های قبلی نمی توانند جزئیات دقیق‌تری را مشاهده کنند، مانند ارتباط بین کلمه “چمن” و “چمن زیر سگ”. الگوریتم DenseAV  به دنبال تمام تطابق‌های ممکن بین کلیپ صوتی و پیکسل‌های تصویر است و این باعث بهبود عملکرد و دقیق‌تر شدن مکان‌یابی صداها می‌شود.

محققان، DenseAV را بر روی مجموعه داده AudioSet  آموزش دادند که شامل ۲ میلیون ویدیوی YouTube  است. آن‌ها همچنین مجموعه‌های داده جدیدی ایجاد کردند تا عملکرد مدل در ارتباط بین صداها و تصاویر را آزمایش کنند. در این آزمایش‌ها، DenseAV  در وظایفی مانند شناسایی اشیاء از نام‌ها و صداها، عملکرد بهتری نسبت به مدل‌های مشابه دیگر داشت.

مجموعه‌های داده قبلی، فقط قدر به ارزیابی‌های کلی و سطحی بودند. در مدل جدید، یک مجموعه با استفاده از مجموعه‌ داده های تقسیم ‌بندی معنایی ایجاد شد. این باعث می‌شود که برچسب ‌گذاری دقیق ‌تری انجام شود تا عملکرد مدل به ‌دقت ارزیابی شود. محققان می توانند الگوریتم را با صداها یا تصاویر خاص فراخوانی کنند و موقعیت‌های دقیق آن‌ها را دریافت کنند.

اهداف DenseAV

هدف تیم در آینده این است که سیستم‌هایی ایجاد کنند که می تواند از حجم زیادی از داده‌های صوتی یا تصویری یاد بگیرند. این سیستم ها  برای حوزه های جدید که در ان تعداد زیادی از هر دو حالت صدا و تصویر وجود دارد، بسیار مهم است. مثلا یادگیری از ویدیوهای منتشر شده در اینترنت به مقیاس بزرگ.

همچنین هدف محققان افزایش اندازه این سیستم‌ها در مقیاس های بزرگتر و ادغام دانش از مدل‌های زبانی برای بهبود عملکرد است.

این مدل فرضیه‌ای در مورد زبان خاصی که در حال گفتن است، ندارد و در نتیجه در اصل می‌تواند از داده‌ها در هر زبانی یاد بگیرد. جالب است که ببینیم با افزایش مقیاس به هزاران یا میلیون‌ها ساعت داده‌ی ویدیویی در طول چندین زبان مختلف، DenseAV چه چیزی یاد می‌گیرد.

مارک همیلتون، دانشجوی دکتری دانشگاه MIT، قصد دارد از طریق ماشین‌ها چگونگی ارتباط حیوانات را درک کند. برای این منظور، او ابتدا سیستمی را ایجاد کند که بتواند زبان انسان را “از ابتدا” یاد بگیرد. در واقع از صدا و تصویر برای یادگیری زبان استفاده کند. بنابراین DenseAV می تواند در دستیابی به این هدف موثر باشد.  

همچنین، یک کاربرد جذاب دیگر، درک زبان‌های جدید مانند زبان ارتباطی دلفین‌ها یا نهنگ‌ها است که شکل نوشتاری ارتباطی ندارند.

محققان امیدوارند که DenseAV بتواند به آنها کمک کند تا این زبان‌ها را، که از آغاز تاکنون انسان ها موفق به ترجمه آنها نشده اند، درک کنند. در نهایت، امیدواریم که این روش بتواند الگوها بین دیگر جفت‌های سیگنال‌ها را نیز کشف کند، مانند صداهای لرزشی که زمین تولید می‌کند و زمین شناسی آن .

در نهایت این الگوریتم دارای کاربردهای مختلفی در جستجوی چند رسانه‌ای، یادگیری زبان و رباتیک خواهد داشت.