گوگل با رونمایی از Gemini Live، نسخه‌ای پیشرفته از چت‌ بات هوشمند خود که از هوش مصنوعی بهره می‌برد، پا به عرصه‌ی رقابت با حالت صوتی پیشرفته ChatGPT گذاشته است. این قابلیت جدید به کاربران اجازه می‌دهد از طریق گوشی‌های هوشمند خود  به مکالمات صوتی عمیق بپردازند . یکی از ویژگی‌های برجسته این ابزار، موتور گفتاری پیشرفته‌ای است که توانایی تشخیص و پاسخ به تغییرات در الگوی گفتاری کاربر را در لحظه دارد و مکالمات چند مرحله‌ای مداوم‌تر، احساسی‌تر و واقعی‌تری را ارائه می‌دهد. این قابلیت به کاربران امکان می‌دهد در حین صحبت کردن چت‌ بات، سوالات دنباله ‌دار مطرح کنند و جمنای لایو به ‌طور خودکار پاسخ‌ها را با توجه به سوالات جدید تنظیم کند.

شما می‌توانید با Gemini Live صحبت کنید و از بین ۱۰ صدای طبیعی جدید که برای پاسخ دادن در دسترس هستند، یکی را انتخاب کنید. حتی می‌توانید با سرعت خودتان صحبت کنید یا در میانه‌ی پاسخ ‌دهی، برای پرسیدن سوالات روشن‌ کننده، مکالمه را قطع کنید، درست مثل هر گفتگوی دیگری.

حتی زمانی که برنامه در پس‌زمینه اجرا می‌شود یا گوشی شما قفل است، شما می‌توانید به صحبت کردن با برنامه Gemini ادامه دهید و مکالمات را هر زمان که بخواهید متوقف و دوباره آغاز کنید.

 قابلیت‌های نوآورانه و تعاملی  Gemini Live 

حال، این قابلیت چه کاربردهایی ممکن است داشته باشد؟

گوگل مثالی از تمرین برای یک مصاحبه شغلی ارائه می‌دهد .  Gemini Live می‌تواند با شما تمرین کند، نکاتی برای صحبت کردن ارائه دهد و مهارت‌هایی که باید هنگام گفتگو با یک مدیر استخدام برجسته کنید را پیشنهاد دهد.

کاربران اندروید می‌توانند با نگه داشتن دکمه پاور گوشی خود یا گفتن  “Hey Google”، Gemini  را به ‌صورت یک پوشش روی هر برنامه‌ای که استفاده می‌کنند، فراخوانی کرده و سوالاتی درباره آنچه روی صفحه است بپرسند (مثلاً یک ویدئوی یوتیوب). Gemini  می‌تواند مستقیماً از طریق این پوشش، تصاویر تولید کند، هرچند هنوز قادر به تولید تصاویر از افراد نیست. این تصاویر را می‌توان به برنامه‌هایی مانند Gmail و Google Messages کشید و رها کرد.

Gemini  همچنین با افزونه‌ها در موبایل و وب، ادغام می‌شود. در هفته‌های آینده، Gemini  قادر خواهد بود اقدامات بیشتری را با  Google Calendar، Keep، Tasks، YouTube Music و Utilities انجام دهد؛ برنامه‌هایی که ویژگی‌های دستگاه مانند تایمرها و آلارم‌ها، کنترل‌های رسانه، چراغ قوه، صدا، وای‌ فای، بلوتوث و غیره را کنترل می‌کنند.

چند ایده جذاب برای استفاده از Gemini Live:

  • از Gemini بخواهید “یک لیست پخش از آهنگ‌هایی که یادآور اواخر دهه ۹۰ هستند، بساز. “
  • از یک تراکت کنسرت عکس بگیرید و از Gemini بپرسید آیا در آن روز وقت آزاد دارید . حتی می‌ توانید برای خرید بلیط یادآوری تنظیم کنید.
  • از Gemini بخواهید یک دستور غذا را از Gmail پیدا کند و مواد لازم را به لیست خریدتان در Keep اضافه کند.

تفاوت‌ها و مزایای Gemini Live نسبت به رقبا

یکی از مزیت‌های جمنای لایو نسبت به حالت صوتی پیشرفته ChatGPT حافظه‌ی قوی‌تر آن است. معماری مدل هوش مصنوعی مولدی که در پشت این سیستم قرار دارد، یعنی Gemini 1.5 Pro و Gemini 1.5 Flash، قادر به پردازش و تحلیل داده‌های گسترده‌ای هستند، به ‌طوری ‌که می‌توانند ساعت‌ها مکالمه‌ را به خاطر بسپارند و بر اساس آن‌ها پاسخ دهند. 

اگرچه هنوز تمامی قابلیت‌هایی که در کنفرانس Google I/O 2024 معرفی شده بودند، به این سرویس اضافه نشده‌اند، اما گوگل اعلام کرده است که قابلیت ورودی چندگانه و پشتیبانی از زبان‌های بیشتر در آینده نزدیک به Gemini Live افزوده خواهد شد.  در ماه مه، گوگل ویدئوهای از پیش ضبط شده‌ای را منتشر کرد که نشان می‌دادند Gemini Live می‌تواند با استفاده از عکس‌ها و ویدئوهایی که توسط دوربین‌های گوشی‌های کاربران گرفته شده است، محیط اطراف را ببیند و به آن‌ها پاسخ دهد . به‌ عنوان مثال، شناسایی یک قطعه خراب روی دوچرخه یا توضیح اینکه یک بخش از کد روی صفحه کامپیوتر چه کاری انجام می‌دهد.

گوگل اعلام کرده است که ورودی چند رسانه‌ای “تا پایان سال جاری” عرضه خواهد شد، اما از ارائه‌ی جزئیات بیشتر خودداری کرده است. همچنین تا پایان سال جاری، جمنای لایو به زبان‌های بیشتر و سیستم عاملiOS  از طریق برنامه گوگل گسترش خواهد یافت. در حال حاضر، این سرویس فقط به زبان انگلیسی در دسترس است.

Gemini Live، مانند حالت صوتی پیشرفته ChatGPT ، رایگان نیست. این سرویس انحصاری Gemini Advanced است. نسخه‌ای پیشرفته‌تر از Gemini که در پشت برنامه  Google One AI Premium Plan، با قیمت ماهیانه ۲۰ دلار، قرار دارد.

هرچند، ویژگی‌های جدید دیگری برای Gemini در راه است که رایگان خواهند بود.

 

۰/۵ (۰ نظر)