در حالی که هوش مصنوعی Gemini گوگل ، تنها دو ماه است که معرفی شده است، شرکت گوگل نسل بعدی مدل Gemini 1.5 را راه اندازی کرده است.
جمینی گوگل با آپگرید نسل بعدی خود، قدرت پردازش پرامپت های بزرگ تر را به دست آورده است. بیایید به جزئیات این آپگرید بپردازیم:
قابلیت های Gemini 1.5 Pro، مدل هوش مصنوعی جدید گوگل
- کاهش محاسبات آموزشی با معماری Mixture-of-Experts (MoE) که به معنی همکاری چندین مدل هوش مصنوعی است. اجرای این ساختار باعث شده است که عملکرد ۵ Gemini گوگل به طور چشمگیری افزایش یابد و آموزش و یادگیری وظایف پیچیده را سریعتر از قبل انجام دهد.
- یکی دیگر از ویژگی های منحصر بفرد این مدل، داشتن “context window” با حداکثر ۱ میلیون توکن است. “ Context window” در هوش مصنوعی به معنای محدوده یا دامنه ای از اطلاعات است که توسط یک الگوریتم در تصمیم گیری ها یا اقدامات، در نظر گرفته و تجزیه و تحلیل می شود. این مفهوم تعیین می کند که چه میزان از داده ها، مانند کلمات یا جملات، در نظر گرفته می شود تا درک و تولید پاسخ ها انجام شود.
در هوش مصنوعی مولد، توکن ها، کوچکترین اجزایی هستند که مدل های زبان بزرگ (LLMs) از آن ها برای “پردازش و تولید متن” استفاده می کنند.
“context window” بزرگ تر به هوش مصنوعی اجازه می دهند تا همزمان بازههای بیشتری از اطلاعات را مدیریت کند ودر نهایت پاسخهای منطقی و مفهومی ارائه دهد.
برای مقایسه، یک میلیون توکن به مراتب بزرگ تر از آنچه که Turbo GPT-4 قادر به انجام آن است، می باشد. همچنین موتور OpenAI حداکثر “context window” با ۱۲۸,۰۰۰ توکن دارد.
عملکرد Gemini Pro گوگل
گوگل چندین ویدیو ساخته است که توانایی های هوش مصنوعی را نشان می دهد. در یک مثال، متخصصان به Gemini 1.5 Pro رونوشت بیش از ۴۰۰ صفحه ای ماموریت آپولو ۱۱ را دادند. از هوش مصنوعی خواستند “لحظات کمدی” را در طول ماموریت پیدا کند. پس از ۳۰ ثانیه، Gemini 1.5 Pro موفق به پیدا کردن چند جک شد که فضانوردان در فضا تعریف کرده بودند، و توضیحاتی ارائه داد از جمله اینکه چه کسی آن را گفته است .
در یک نمایش دیگر، تیم توسعه دهندگان مدل را به یک فیلم ۴۴ دقیقه ای Buster Keaton ارجاع دادند. آن ها یک طرح خام از یک برج آبی را بار گذاری کردند و سپس از مدل خواستند تا زمان دقیق یک صحنه مرتبط با برج آبی را پیدا کند. مدل با دقت به محتوای تصویر پاسخ داد و بدون توضیحات اضافی، فهمید کدام صحنه ی فیلم مربوط به برج آبی است.
به طور خلاصه، Gemini 1.5 Pro با تواناییهای پیشرفته در تجزیه و تحلیل و درک متنهای طولانی، پاسخ های دقیق تر و مطلوب تری ارائه می دهد. همچنین قابلیتهای قابل توجهی دارد که باعث شده عملکرد برتری نسبت به مدل های Gemini 1.0،GPT-4 داشته باشد و با مدلهای SoTA (حالت هنری) رقابت میکند .
این مدل در حال حاضر برای عموم مردم در دسترس نیست و پیش نمایش اولیه را به “توسعه دهندگان و مشتریان سازمانی” از طریق سیستم عامل های AI Studio و Vertex AI گوگل به صورت رایگان ارائه می دهد.
برای بررسی جزئیات بیشتر مقاله announcement post را بخوانید.