گوگل با رونمایی از Gemini Live، نسخهای پیشرفته از چت بات هوشمند خود که از هوش مصنوعی بهره میبرد، پا به عرصهی رقابت با حالت صوتی پیشرفته ChatGPT گذاشته است. این قابلیت جدید به کاربران اجازه میدهد از طریق گوشیهای هوشمند خود به مکالمات صوتی عمیق بپردازند . یکی از ویژگیهای برجسته این ابزار، موتور گفتاری پیشرفتهای است که توانایی تشخیص و پاسخ به تغییرات در الگوی گفتاری کاربر را در لحظه دارد و مکالمات چند مرحلهای مداومتر، احساسیتر و واقعیتری را ارائه میدهد. این قابلیت به کاربران امکان میدهد در حین صحبت کردن چت بات، سوالات دنباله دار مطرح کنند و جمنای لایو به طور خودکار پاسخها را با توجه به سوالات جدید تنظیم کند.
شما میتوانید با Gemini Live صحبت کنید و از بین ۱۰ صدای طبیعی جدید که برای پاسخ دادن در دسترس هستند، یکی را انتخاب کنید. حتی میتوانید با سرعت خودتان صحبت کنید یا در میانهی پاسخ دهی، برای پرسیدن سوالات روشن کننده، مکالمه را قطع کنید، درست مثل هر گفتگوی دیگری.
حتی زمانی که برنامه در پسزمینه اجرا میشود یا گوشی شما قفل است، شما میتوانید به صحبت کردن با برنامه Gemini ادامه دهید و مکالمات را هر زمان که بخواهید متوقف و دوباره آغاز کنید.
قابلیتهای نوآورانه و تعاملی Gemini Live
حال، این قابلیت چه کاربردهایی ممکن است داشته باشد؟
گوگل مثالی از تمرین برای یک مصاحبه شغلی ارائه میدهد . Gemini Live میتواند با شما تمرین کند، نکاتی برای صحبت کردن ارائه دهد و مهارتهایی که باید هنگام گفتگو با یک مدیر استخدام برجسته کنید را پیشنهاد دهد.
کاربران اندروید میتوانند با نگه داشتن دکمه پاور گوشی خود یا گفتن “Hey Google”، Gemini را به صورت یک پوشش روی هر برنامهای که استفاده میکنند، فراخوانی کرده و سوالاتی درباره آنچه روی صفحه است بپرسند (مثلاً یک ویدئوی یوتیوب). Gemini میتواند مستقیماً از طریق این پوشش، تصاویر تولید کند، هرچند هنوز قادر به تولید تصاویر از افراد نیست. این تصاویر را میتوان به برنامههایی مانند Gmail و Google Messages کشید و رها کرد.
Gemini همچنین با افزونهها در موبایل و وب، ادغام میشود. در هفتههای آینده، Gemini قادر خواهد بود اقدامات بیشتری را با Google Calendar، Keep، Tasks، YouTube Music و Utilities انجام دهد؛ برنامههایی که ویژگیهای دستگاه مانند تایمرها و آلارمها، کنترلهای رسانه، چراغ قوه، صدا، وای فای، بلوتوث و غیره را کنترل میکنند.
چند ایده جذاب برای استفاده از Gemini Live:
- از Gemini بخواهید “یک لیست پخش از آهنگهایی که یادآور اواخر دهه ۹۰ هستند، بساز. “
- از یک تراکت کنسرت عکس بگیرید و از Gemini بپرسید آیا در آن روز وقت آزاد دارید . حتی می توانید برای خرید بلیط یادآوری تنظیم کنید.
- از Gemini بخواهید یک دستور غذا را از Gmail پیدا کند و مواد لازم را به لیست خریدتان در Keep اضافه کند.
تفاوتها و مزایای Gemini Live نسبت به رقبا
یکی از مزیتهای جمنای لایو نسبت به حالت صوتی پیشرفته ChatGPT حافظهی قویتر آن است. معماری مدل هوش مصنوعی مولدی که در پشت این سیستم قرار دارد، یعنی Gemini 1.5 Pro و Gemini 1.5 Flash، قادر به پردازش و تحلیل دادههای گستردهای هستند، به طوری که میتوانند ساعتها مکالمه را به خاطر بسپارند و بر اساس آنها پاسخ دهند.
اگرچه هنوز تمامی قابلیتهایی که در کنفرانس Google I/O 2024 معرفی شده بودند، به این سرویس اضافه نشدهاند، اما گوگل اعلام کرده است که قابلیت ورودی چندگانه و پشتیبانی از زبانهای بیشتر در آینده نزدیک به Gemini Live افزوده خواهد شد. در ماه مه، گوگل ویدئوهای از پیش ضبط شدهای را منتشر کرد که نشان میدادند Gemini Live میتواند با استفاده از عکسها و ویدئوهایی که توسط دوربینهای گوشیهای کاربران گرفته شده است، محیط اطراف را ببیند و به آنها پاسخ دهد . به عنوان مثال، شناسایی یک قطعه خراب روی دوچرخه یا توضیح اینکه یک بخش از کد روی صفحه کامپیوتر چه کاری انجام میدهد.
گوگل اعلام کرده است که ورودی چند رسانهای “تا پایان سال جاری” عرضه خواهد شد، اما از ارائهی جزئیات بیشتر خودداری کرده است. همچنین تا پایان سال جاری، جمنای لایو به زبانهای بیشتر و سیستم عاملiOS از طریق برنامه گوگل گسترش خواهد یافت. در حال حاضر، این سرویس فقط به زبان انگلیسی در دسترس است.
Gemini Live، مانند حالت صوتی پیشرفته ChatGPT ، رایگان نیست. این سرویس انحصاری Gemini Advanced است. نسخهای پیشرفتهتر از Gemini که در پشت برنامه Google One AI Premium Plan، با قیمت ماهیانه ۲۰ دلار، قرار دارد.
هرچند، ویژگیهای جدید دیگری برای Gemini در راه است که رایگان خواهند بود.