در حالی که هوش مصنوعی Gemini گوگل ، تنها دو ماه است که معرفی شده است، شرکت  گوگل نسل بعدی مدل Gemini 1.5 را راه اندازی کرده است.

Google’s Gemini AI  با آپگرید نسل بعدی خود، قدرت پردازش پرامپت‌ های بزرگ ‌تر را به دست آورده است. بیایید به جزئیات این آپگرید بپردازیم:

قابلیت های Gemini 1.5 Pro، مدل هوش مصنوعی جدید گوگل

  1. کاهش محاسبات آموزشی با معماری Mixture-of-Experts (MoE) که به معنی همکاری چندین مدل هوش مصنوعی است. اجرای این ساختار باعث شده است که عملکرد ۵ Gemini   به طور چشمگیری افزایش یابد و آموزش و یادگیری وظایف پیچیده را سریعتر از قبل انجام دهد.
  1. یکی دیگر از ویژگی‌ های منحصر بفرد این مدل، داشتن “context window” با حداکثر ۱ میلیون توکن است.   Context window” در هوش مصنوعی به معنای محدوده یا دامنه ‌ای از اطلاعات است که توسط یک الگوریتم در تصمیم ‌گیری‌ ها یا اقدامات، در نظر گرفته و تجزیه و تحلیل می‌ شود. این مفهوم تعیین می ‌کند که چه میزان از داده‌ ها، مانند کلمات یا جملات، در نظر گرفته می‌ شود تا درک و تولید پاسخ‌ ها انجام شود.

در هوش مصنوعی مولد، توکن‌ ها، کوچکترین اجزایی هستند که مدل‌ های زبان بزرگ (LLMs) از آن‌ ها برای “پردازش و تولید متن” استفاده می‌ کنند.

“context window” بزرگ ‌تر به هوش مصنوعی اجازه می ‌دهند تا همزمان بازه‌های بیشتری از اطلاعات را مدیریت کند ودر نهایت پاسخ‌های منطقی و مفهومی ارائه دهد.

برای مقایسه، یک میلیون توکن به مراتب بزرگ ‌تر از آنچه که Turbo  GPT-4 قادر به انجام آن است، می باشد.  همچنین موتور OpenAI حداکثر “context window” با ۱۲۸,۰۰۰ توکن دارد.

عملکرد Gemini Pro

 گوگل چندین ویدیو ساخته است که توانایی های هوش مصنوعی را نشان می دهد.  در یک مثال، متخصصان به Gemini 1.5 Pro رونوشت بیش از ۴۰۰ صفحه ای ماموریت آپولو ۱۱ را دادند.  از هوش مصنوعی خواستند  “لحظات کمدی”  را در طول ماموریت پیدا کند.  پس از ۳۰ ثانیه، Gemini 1.5 Pro موفق به پیدا کردن چند جک شد که فضانوردان در فضا تعریف کرده بودند،  و توضیحاتی ارائه داد از جمله اینکه چه کسی آن را گفته است  .

در یک نمایش دیگر، تیم توسعه ‌دهندگان مدل را به یک فیلم ۴۴ دقیقه ‌ای Buster Keaton  ارجاع دادند. آن‌ ها یک طرح خام از یک برج آبی را بار گذاری کردند و سپس از مدل خواستند تا زمان دقیق یک صحنه مرتبط با برج آبی را پیدا کند.  مدل با دقت به محتوای تصویر پاسخ داد و بدون توضیحات اضافی، فهمید کدام صحنه ی فیلم مربوط به برج آبی است.

به طور خلاصه، Gemini 1.5 Pro  با توانایی‌های پیشرفته‌ در تجزیه و تحلیل و درک متن‌های طولانی، پاسخ‌ های دقیق ‌تر و مطلوب ‌تری ارائه می دهد. همچنین قابلیت‌های قابل توجهی دارد که باعث شده عملکرد برتری نسبت به مدل‌ های  Gemini 1.0،GPT-4  داشته باشد و با مدل‌های SoTA (حالت هنری) رقابت می‌کند .

این مدل در حال حاضر برای عموم مردم در دسترس نیست و پیش نمایش اولیه را به  “توسعه دهندگان و مشتریان سازمانی”  از طریق سیستم عامل های AI Studio و Vertex AI گوگل به صورت رایگان ارائه می دهد.

 برای بررسی جزئیات بیشتر مقاله  announcement post     را بخوانید.

۰/۵ (۰ نظر)