شرکت Patronus AI  از راه ‌اندازی اولین ابزار ارزیابی مدل‌های زبانی بزرگ چند رسانه‌ای با عنوان Judge-Image  خبر داد. این فناوری نوآورانه به‌ گونه‌ای طراحی شده تا بتواند عملکرد سیستم‌های هوش مصنوعی را که تصاویر را تفسیر کرده و به متن تبدیل می‌کنند، به ‌صورت خودکار و دقیق ارزیابی کند.

این ابزار به توسعه ‌دهندگان کمک می‌کند تا مشکلاتی نظیر توهمات (hallucinations)، نادرستی داده‌ها و کمبود دقت در تولید متن از روی تصویر را شناسایی و اصلاح کنند.

Judge-Image  چه چیزهایی را ارزیابی می‌کند؟

این ابزار به‌ صورت پیش‌ ساخته و آماده استفاده ارائه شده و می‌تواند معیارهای مختلفی را بررسی کند، از جمله:

  • تشخیص توهمات (caption hallucination)
  • شناسایی اشیای اصلی و فرعی
  • دقت مکان ‌یابی اشیاء در تصویر
  • تحلیل و شناسایی متن‌های موجود در تصویر

Etsy اولین مشتری بزرگ  Judge-Image

Etsy، پلتفرم بزرگ فروش محصولات دست‌ ساز و قدیمی، از این فناوری برای بررسی دقت زیرنویس‌های تولید شده توسط هوش مصنوعی برای تصاویر محصولات خود استفاده می‌کند.

به گفته‌ی یکی از بنیان ‌گذاران  Patronus AI، هدف Etsy از این همکاری، اطمینان از دقت در تولید خودکار متن برای میلیون‌ها تصویر در مقیاس جهانی بوده است.

علاوه بر تجارت الکترونیک، این ابزار برای تیم‌های بازاریابی، شرکت‌های طراحی، دفاتر حقوقی و شرکت‌های خدمات سرمایه ‌گذاری نیز قابل استفاده است. به ‌ویژه در مواردی که نیاز به توصیف خودکار عناصر طراحی یا تحلیل اسناد PDF وجود دارد.

استفاده از  Google Gemini به‌ جای GPT-4V

در ساخت Judge-Image، تیم Patronus از مدل Google Gemini به‌ جای GPT-4V  شرکت OpenAI استفاده کرده است. تحقیقات نشان داد که  Gemini  دیدگاه منصفانه‌ تری نسبت به ورودی‌ها دارد و در ارزیابی خروجی‌ها، کمتر دچار سوگیری‌های ذهنی و شخصی ‌محور می‌شود.

 چرا شرکت‌ها باید ابزار ارزیابی را بخرند و نه بسازند؟

که توسعه چنین ابزارهایی در داخل سازمان بسیار پرهزینه و پیچیده است. بسیاری از تیم‌ها ابتدا اقدام به ساخت داخلی می‌کنند اما در نهایت درمی‌یابند که ارزیابی  AI، نه تنها خارج از حوزه اصلی کسب‌ و کارشان است، بلکه به زیرساخت‌های خاصی نیاز دارد.

Patronus  مدل قیمت‌ گذاری انعطاف‌ پذیری ارائه می‌دهد. کاربران می‌توانند از نسخه رایگان با حجم محدود استفاده کنند یا برای نسخه‌های سازمانی با قابلیت‌های سفارشی ‌سازی بالا، با تیم فروش تماس بگیرند.

گام بعدی: ارزیابی صوتی با هوش مصنوعی

Patronus  اعلام کرده که در آینده نزدیک قصد دارد ارزیابی داده‌های صوتی را نیز به سیستم خود اضافه کند. این بخشی از نقشه راه شرکت برای توسعه نظارت چند رسانه‌ای و ارزیابی دقیق در سیستم‌های هوش مصنوعی پیشرفته است.

جمع ‌بندی: چرا ارزیابی هوش مصنوعی به ابزارهای مستقل نیاز دارد؟

با پیشرفت سریع مدل‌های مولد و چند رسانه‌ای، نیاز به ابزارهایی که دقت، صحت و بی ‌طرفی خروجی‌ها را ارزیابی کنند، بیش از پیش احساس می‌شود. Patronus AI با معرفی Judge-Image قصد دارد نقش قاضی بی ‌طرفی را در دنیای AI بازی کند تا اعتماد کاربران به خروجی‌های تولید شده توسط هوش مصنوعی افزایش یابد.