شرکت Patronus AI از راه اندازی اولین ابزار ارزیابی مدلهای زبانی بزرگ چند رسانهای با عنوان Judge-Image خبر داد. این فناوری نوآورانه به گونهای طراحی شده تا بتواند عملکرد سیستمهای هوش مصنوعی را که تصاویر را تفسیر کرده و به متن تبدیل میکنند، به صورت خودکار و دقیق ارزیابی کند.
این ابزار به توسعه دهندگان کمک میکند تا مشکلاتی نظیر توهمات (hallucinations)، نادرستی دادهها و کمبود دقت در تولید متن از روی تصویر را شناسایی و اصلاح کنند.
Judge-Image چه چیزهایی را ارزیابی میکند؟
این ابزار به صورت پیش ساخته و آماده استفاده ارائه شده و میتواند معیارهای مختلفی را بررسی کند، از جمله:
- تشخیص توهمات (caption hallucination)
- شناسایی اشیای اصلی و فرعی
- دقت مکان یابی اشیاء در تصویر
- تحلیل و شناسایی متنهای موجود در تصویر
Etsy اولین مشتری بزرگ Judge-Image
Etsy، پلتفرم بزرگ فروش محصولات دست ساز و قدیمی، از این فناوری برای بررسی دقت زیرنویسهای تولید شده توسط هوش مصنوعی برای تصاویر محصولات خود استفاده میکند.
به گفتهی یکی از بنیان گذاران Patronus AI، هدف Etsy از این همکاری، اطمینان از دقت در تولید خودکار متن برای میلیونها تصویر در مقیاس جهانی بوده است.
علاوه بر تجارت الکترونیک، این ابزار برای تیمهای بازاریابی، شرکتهای طراحی، دفاتر حقوقی و شرکتهای خدمات سرمایه گذاری نیز قابل استفاده است. به ویژه در مواردی که نیاز به توصیف خودکار عناصر طراحی یا تحلیل اسناد PDF وجود دارد.
استفاده از Google Gemini به جای GPT-4V
در ساخت Judge-Image، تیم Patronus از مدل Google Gemini به جای GPT-4V شرکت OpenAI استفاده کرده است. تحقیقات نشان داد که Gemini دیدگاه منصفانه تری نسبت به ورودیها دارد و در ارزیابی خروجیها، کمتر دچار سوگیریهای ذهنی و شخصی محور میشود.
چرا شرکتها باید ابزار ارزیابی را بخرند و نه بسازند؟
که توسعه چنین ابزارهایی در داخل سازمان بسیار پرهزینه و پیچیده است. بسیاری از تیمها ابتدا اقدام به ساخت داخلی میکنند اما در نهایت درمییابند که ارزیابی AI، نه تنها خارج از حوزه اصلی کسب و کارشان است، بلکه به زیرساختهای خاصی نیاز دارد.
Patronus مدل قیمت گذاری انعطاف پذیری ارائه میدهد. کاربران میتوانند از نسخه رایگان با حجم محدود استفاده کنند یا برای نسخههای سازمانی با قابلیتهای سفارشی سازی بالا، با تیم فروش تماس بگیرند.
گام بعدی: ارزیابی صوتی با هوش مصنوعی
Patronus اعلام کرده که در آینده نزدیک قصد دارد ارزیابی دادههای صوتی را نیز به سیستم خود اضافه کند. این بخشی از نقشه راه شرکت برای توسعه نظارت چند رسانهای و ارزیابی دقیق در سیستمهای هوش مصنوعی پیشرفته است.
جمع بندی: چرا ارزیابی هوش مصنوعی به ابزارهای مستقل نیاز دارد؟
با پیشرفت سریع مدلهای مولد و چند رسانهای، نیاز به ابزارهایی که دقت، صحت و بی طرفی خروجیها را ارزیابی کنند، بیش از پیش احساس میشود. Patronus AI با معرفی Judge-Image قصد دارد نقش قاضی بی طرفی را در دنیای AI بازی کند تا اعتماد کاربران به خروجیهای تولید شده توسط هوش مصنوعی افزایش یابد.