رشد هوش مصنوعی نیازمند رابط کاربری مناسب است

رشد هوش مصنوعی نیازمند رابط کاربری مناسب است

رابط کاربری هوش مصنوعی (AI User Interface) به عنوان یکی از حوزه‌های کلیدی در طراحی و توسعه نرم‌افزار، به چگونگی تعامل انسان با سیستم‌های هوش مصنوعی اشاره دارد. با پیشرفت تکنولوژی و افزایش کاربردهای هوش مصنوعی در زندگی روزمره، مثل دستیاران مجازی، سیستم‌های توصیه‌گر و برنامه‌های تحلیل داده، ایجاد رابط‌های کاربری کاربرپسند و کارآمد برای استفاده از این فناوری‌ها به یک نیاز اساسی تبدیل شده است.

این رابط‌ها باید به گونه‌ای طراحی شوند که کاربران با سطوح مختلف تجربه فناوری، بتوانند به راحتی و بدون نیاز به دانش تخصصی از قابلیت‌های هوش مصنوعی بهره‌برداری کنند. طراحی مطلوب رابط کاربری هوش مصنوعی نه تنها به بهبود تجربه کاربری کمک می‌کند، بلکه می‌تواند بر روی کارایی و اثربخشی سیستم‌های هوش مصنوعی تأثیرگذار باشد.

اگر از افراد بپرسید آینده رابط‌های کاربری در هوش مصنوعی چگونه خواهد بود، احتمالاً به فیلم Her اشاره می‌کنند. احتمالاً از دستیارهای مجازی صحبت می‌کنند که در آینده می‌توانند همه کارهای روزمره شما را انجام دهند؛ از مرتب کردن ایمیل‌ها گرفته تا رزرو بلیت برای یک جشنواره موسیقی . اما حقیقت چیز دیگری است.

فیلم “Her” درباره چگونگی تسلط تکنولوژی بر زندگی ما و تبدیل رابطه ما با آن به نوعی ارتباط یک ‌طرفه است. اگر کسی تصور کند که چت‌بات‌ها بهترین راه برای استفاده از کامپیوترها هستند، باید تجدید نظر کند. فرصت واقعی در رابط‌های چت‌بات نیست، بلکه در کامپیوترهایی است که بر اساس رابط‌های بصری که با آنها آشنا هستیم ساخته شده‌اند؛ کامپیوترهایی که می‌توانیم به شکلی طبیعی و روان با آنها ارتباط برقرار کنیم، خواه از طریق صدا یا لمس یا ترکیبی از هر دو.

رابط‌های بصری: راه‌ حلی برای تجربه بهتر کاربر

کامپیوترهای آینده نه تنها باید برای ما قابل استفاده باشند، بلکه باید به ما اجازه دهند تا آن‌ها را به شکلی که می‌خواهیم تغییر دهیم. چت‌بات‌ها به این دلیل ناکام می‌مانند که اصول ابتدایی موفقیت تلفن‌های هوشمند را نادیده می‌گیرند: برای اینکه یک کامپیوتر مفید باشد، کاربران نیاز دارند که یک مدل ذهنی روشن از قابلیت‌ها و محدودیت‌های آن داشته باشند. موفقیت تلفن‌های هوشمند بر پایه رابط‌های کاربری گرافیکی (GUI) بنا شده است که نحوه استفاده از کامپیوترها را دگرگون کرده است. این رابط‌ها با نشان دادن قابلیت‌های کامپیوترها به صورت بصری و بدون ابهام، یادگیری و درک آن‌ها را برای کاربران ساده و سریع کردند.

در حالی که امروزه رابط‌های گرافیکی (GUI) را امری بدیهی می‌پنداریم، رابط‌های چت‌بات شبیه جادو به نظر می‌رسند. شما می‌توانید هر چیزی بگویید و پاسخ معقولی دریافت کنید. اما جادو می‌تواند ما را گمراه کند. این رابط‌ها به شما این حس را می‌دهند که قادرند هر چیزی را بفهمند، اما در عمل نمی‌توانند همه کارها را انجام دهند. همین تفاوت بین «هر چیزی» و «همه چیز» باعث می‌شود که بسیاری از ایده‌های نادرست و محصولات هیجان‌ زده در نهایت شکست بخورند.

مشکلات چت‌بات‌ها به عنوان رابط اصلی

به عنوان مثال، شاید یک چت‌بات بتواند برای شما بلیطی برای کنسرت رزرو کند، اما آیا در صورت بروز مشکل می‌تواند بلیط شما را تغییر دهد؟ آیا می‌تواند از شما بپرسد که کدام پرواز بهترین گزینه برای بازگشت است؟

در واقع، ما قابلیت‌های تعاملی رابط‌های گرافیکی را به دلیل سادگی و کارآمدی ‌شان به دست آورده‌ایم. اما وقتی از چت‌بات‌ها استفاده می‌کنیم، هرگز به طور کامل نمی‌دانیم که توانایی‌های آن‌ها کجا شروع و کجا تمام می‌شود. با اینکه فهرست کارهایی که می‌توانند انجام دهند روز به روز طولانی‌تر می‌شود، اما چطور می‌توانیم همه این قابلیت‌ها را به یاد داشته باشیم و بدانیم چه چیزهایی کار می‌کند و چه چیزهایی قرار است در آینده به آن اضافه شود؟

این مساله درباره مدل‌های زبان بزرگ (LLMs) نیز صادق است. وقتی این مدل‌ها به عنوان رابط اصلی استفاده می‌شوند، مشکلات ناشی از عدم تطابق مدل ذهنی کاربر و قابلیت‌های واقعی سیستم دوباره ظاهر می‌شود. چت‌بات‌ها و دستیارهای مجازی به دلیل رویکرد بازشان محدودیت‌هایی دارند که کاربران را وادار به آزمون و خطا برای کشف توانایی‌هایشان می‌کند. به جای این روش ناکارآمد، ما نیاز داریم تا راحتی و طبیعی بودن ورودی‌های زبان را با ماشین‌هایی ترکیب کنیم که به وضوح قابلیت‌هایشان را نشان دهند.

ترکیب رابط‌های بصری و چت‌بات‌ها برای تجربه بهتر

تصور کنید، به جای اینکه مانند فردی ناآگاه با دستگاه‌های هوشمند خود صحبت کنید و منتظر واکنش آن‌ها باشید، بتوانید از طریق عینک هوشمند (یا هر وسیله دیگری) به چیزی نگاه کنید و گزینه‌های تعاملی آن را در قالب یک منوی بصری ببینید؛ منویی که به شما نشان می‌دهد چه کنترل‌هایی در اختیار شماست. در این حالت، دیگر یک صدای مجازی به شما نخواهد گفت که چه کارهایی ممکن است، بلکه یک صفحه نمایش ساده و قابل فهم، مانند همان رابط‌های قدیمی گرافیکی، این کار را انجام می‌دهد. شما می‌توانید این رابط را با صدای خود یا دستانتان یا حتی ترکیبی از هر دو، کنترل کنید.

 اما این هنوز نقطه اوج فرصت‌ها نیست!

چرا نباید قادر باشیم تا نه‌ تنها از فناوری استفاده کنیم، بلکه آن را بر اساس نیازهای خود بازسازی کنیم؟ آینده‌ای که ما می‌خواهیم باید شامل کامپیوترها و برنامه‌هایی باشد که به ما اجازه می‌دهند آن‌ها را به ‌دلخواه خود تغییر دهیم.

پایان عصر مصرف منفعلانه: بازسازی فناوری بر اساس نیازهای ما

در دنیای امروزی، اگر از برنامه هتل خود راضی نیستید، نمی‌توانید آن را تغییر دهید. اگر از نرم‌افزار بانکی خود ناراضی هستید و از وجود قابلیت‌های غیر ضروری در آن خسته‌اید، چاره‌ای جز قبول آن ندارید. ما توسط برنامه‌ها و ابزارهایی محاصره شده‌ایم که فقط برای اهدافی که دیگران تعیین کرده‌اند، طراحی شده‌اند. چرا نباید بتوانیم فناوری را به جای مصرف صرف، برای خودمان بازطراحی کنیم؟

این آینده‌ای است که بسیاری از پیشگامان فناوری در دهه‌های ۱۹۷۰ و ۱۹۹۰ تصور می‌کردند؛ آینده‌ای که در آن کاربران ابزارهای دیجیتالی نه ‌تنها مصرف‌ کنندگان بلکه سازندگان فناوری خواهند بود.

در دهه ۱۹۷۰، Steve Wozniak  و  the Homebrew چشم‌ انداز دنیایی را داشتند که در آن هر کس می‌تواند کامپیوتر خود را تغییر داده و مطابق با نیازهایش طراحی کند. در دهه ۱۹۹۰، با ظهور وب جهانی (World Wide Web) این چشم‌انداز دوباره نزدیک شد. اما امروز، فاصله بین افرادی که از کامپیوترها استفاده می‌کنند و کسانی که آن‌ها را تغییر می‌دهند، بیشتر از هر زمان دیگری است.

 تصور کنید مجبور نبودید ویژگی‌هایی را که یک نابغه تکنولوژی در یک موج تبلیغاتی اعلام کرده بپذیرید. تصور کنید به جای اینکه اپلیکیشنی که شخص دیگری ساخته را دانلود کنید، بتوانید آن را با کمک یک کامپیوتر و از طریق بازسازی قابلیت‌های هر اپلیکیشنی که تاکنون ساخته شده است، مطابق با خواسته خود بسازید. برنامه‌ نویسان این ایده را “قابلیت ترکیب” می‌نامند. من فکر می‌کنم آینده از آنِ قابلیت ترکیب است: اما قابلیتی که هر کسی بتواند از آن استفاده کند.

 این ایده در حال حاضر در حال جان گرفتن است. «Notion» ، که در ابتدا به عنوان نرم‌ افزار سازمانی طراحی شده بود تا اسناد مختلف را در یک مکان جمع‌ آوری و ایجاد کند، با نسل «Z» مورد توجه قرار گرفته است، زیرا برخلاف اکثر نرم ‌افزارها که فقط هدفی محدود یا سفت و سخت دارند، به شما اجازه می‌دهد قالب‌هایی برای انجام انواع کارها بسازید و به اشتراک بگذارید. شما می‌توانید امور مالی خود را مدیریت کنید یا یک طرح درسی برای مهد کودک در یک جا ایجاد کنید، با هر ابزاری که نیاز دارید.

 حالا تصور کنید اگر بتوانید به تلفن ‌تان بگویید که چه نوع قالب‌های جدیدی می‌خواهید. یک مدل زبانی بزرگ می‌تواند تمام چیزهایی که نیاز دارید را جمع ‌آوری کند و رابط کاربری مناسب برای آن‌ها را طراحی کند. می‌خواهید یک اپلیکیشن آموزشی برای بافندگی داشته باشید؟ مشکلی نیست. یا یک راهنمای شخصی برای نیویورک؟ انجام شد. احتمالاً آن کامپیوتر از یک مدل زبانی بزرگ برای ترکیب این اپلیکیشن‌ها استفاده خواهد کرد. عالی. این فقط به این معنی است که شما، به عنوان یک فرد عادی، می‌توانید به راحتی به کد منبع نرم‌ افزاری که ایجاد کرده‌اید نگاه کرده و آن را تغییر دهید.

بنابراین، توجه به اصول طراحی UX (تجربه کاربری) و UI (رابط کاربری) در این زمینه، امری ضروری است. این شناخت عمیق از نیازها و رفتارهای کاربران، به توسعه راهکارهای هوشمندتر و کاربرپسندتر منجر خواهد شد که می‌تواند به تسهیل و بهبود تعامل انسان با ماشین کمک کند.

کلید ساختن یک رابطه متفاوت با تکنولوژی، این است که هر کدام از ما قدرت داشته باشیم تا رابط کاربری آینده را به شکلی که دوست داریم، طراحی کنیم.

تاثیر هوش مصنوعی بر نابرابری اقتصادی

تاثیر هوش مصنوعی بر نابرابری اقتصادی

هوش مصنوعی (AI) پتانسیل آن را دارد که صنایع و اقتصادها را متحول کند، اما تاثیر هوش مصنوعی بر نابرابری اقتصادی هنوز نامشخص است. پژوهشگران برجسته پیش‌ بینی می‌کنند که ظهور هوش مصنوعی عمومی می‌تواند از آینده نزدیک تا شاید هیچ‌ وقت اتفاق نیفتد، در حالی که اقتصاددانان درباره تأثیر بالقوه آن اختلاف‌ نظر دارند.

برخی معتقدند که هوش مصنوعی منجر به افزایش مداوم بهره‌وری خواهد شد و برخی دیگر پیش ‌بینی می‌کنند که این دستاوردها محدودتر خواهند بود. اما بیشتر کارشناسان توافق دارند که پیشرفت تکنولوژی، هرچند چشمگیر باشد، تضمینی برای بهره‌مند شدن همه نیست.

اگرچه بسیاری از تلاش‌های تحقیق و توسعه هوش مصنوعی بر اهمیت فراگیر بودن و بهره‌مندی همگان تأکید می‌کنند، اما سرمایه‌گذاری کافی برای تحقق این هدف در زمینه حکمرانی هوش مصنوعی انجام نشده است.

 یکی از دلایل این وضعیت، عدم قطعیت پیرامون تأثیر هوش مصنوعی بر بازار کار و نابرابری است که طراحی مداخلات مؤثر را دشوار می‌کند. با این حال، ما می‌دانیم که برخی عوامل کلیدی بر تعامل بین هوش مصنوعی و نابرابری در چند دهه آینده تأثیر خواهند داشت. توجه به این عوامل می‌تواند به ما کمک کند که ایده بهره‌مندی همگانی از هوش مصنوعی به یک رویا تبدیل نشود.

توسعه هوش مصنوعی و شکاف‌های جمعیتی

توسعه هوش مصنوعی عمدتاً توسط شرکت‌های خصوصی هدایت می‌شود که تحت تأثیر ساختارهای اقتصادی کشورهای مختلف قرار دارند. یکی از عوامل مهم در این زمینه، تفاوت جمعیتی فاحش بین کشورهای ثروتمند و فقیر است. کشورهای پردرآمد با پیری جمعیت مواجه هستند، در حالی که کشورهای کم‌ درآمد، به دلیل نرخ بالای تولد نسبت به مرگ و میر، همچنان رشد جمعیتی خواهند داشت.

نقش هوش مصنوعی در کشورها با جمعیت‌های پیر و جوان

توسعه هوش مصنوعی در کشورهای ثروتمند، جایی که جمعیت در حال پیر شدن است، بر اساس نیازها و واقعیت‌های این کشورها پیش خواهد رفت. کشورهایی که نسبت افراد در سن کار به بازنشستگان آنها در حال کاهش است، برای حفظ سطح زندگی بازنشستگان و پویایی اقتصادی خود، به دنبال راه‌هایی برای گسترش نیروی کار مؤثر خواهند بود؛ خواه با انسان‌ها یا با عامل‌های مصنوعی.

افزایش سن بازنشستگی ممکن است منجر به دستاوردهای محدودی شود که احتمالاً از نظر عمومی چندان محبوب نخواهد بود. دستاوردهای بزرگ‌تری می‌تواند از طریق مهاجرت حاصل شود. اما حفظ نسبت جمعیت فعال به بازنشستگان، نیاز به افزایش قابل‌ توجه مهاجرت به کشورهای پردرآمد دارد. با این حال، احساسات ضد مهاجرتی گسترده، افزایش هزینه‌های بهداشتی و کاهش مستمری‌ها، این امر را غیرمحتمل می‌سازد.

اگر سیاست‌های مهاجرتی محدود کننده در کشورهای ثروتمند تغییر نکنند، احتمالاً طی چند دهه آینده، شاهد افزایش انگیزه‌های اقتصادی برای پر کردن شکاف‌های نیروی کار با هوش مصنوعی خواهیم بود.

 در نگاه اول ممکن است به نظر برسد که این امر نابرابری را تشدید نخواهد کرد، زیرا نیروی کار کمتری نسبت به تعداد مشاغل موجود وجود خواهد داشت. اما اگر این روند با توزیع نابرابر دستاوردها و زیان‌ها، اشتغال ناپایدار، نظارت بیش از حد بر کارگران و دیجیتال سازی دانش، همراه باشد، باید انتظار افزایش نابرابری را داشته باشیم.

حتی اگر تلاش‌ها برای جایگزینی نیروی کار با هوش مصنوعی در کشورهای ثروتمند به خوبی پیش برود، ممکن است نابرابری بین کشورها را به شدت عمیق‌تر کند. تا پایان قرن بیست و یکم، کشورهای کم‌ درآمد همچنان جمعیت‌های جوان و در حال رشدی خواهند داشت که به جای فناوری‌های جایگزین نیروی کار، به اشتغال سودمند نیاز دارند.

مشکل اینجاست که ماشین‌هایی که برای پر کردن کمبود نیروی کار ساخته می‌شوند، به سرعت به کشورهایی که نرخ بیکاری دو رقمی دارند و اکثریت نیروی کار آنها در مشاغل غیررسمی فعالیت می‌کنند، نیز گسترش می‌یابند. به همین دلیل است که در رستوران‌های آفریقای جنوبی و فرودگاه‌های هند، کیوسک‌های سلف‌ سرویس می‌بینیم که مشاغل رسمی را در این کشورها و بسیاری کشورهای دیگر، که با چالش ایجاد اشتغال کافی مواجه هستند، از بین می‌برند.

در چنین دنیایی، بسیاری از کاربردهای مفید هوش مصنوعی ممکن است در مقایسه با فناوری‌های صرفه‌ جویانه در نیروی کار، کمتر توسعه پیدا کنند. برای مثال، تلاش‌ها برای توسعه هوش مصنوعی در زمینه‌های مقابله با تغییرات اقلیمی، پیش‌ بینی زودهنگام بلایای طبیعی یا آموزش شخصی‌ سازی شده و مقرون به صرفه ممکن است در مقابل پروژه‌هایی که به کاهش هزینه‌های نیروی کار در خرده‌ فروشی، مهمان‌  داری و حمل‌ و نقل می‌پردازند، عقب بمانند.

اقدامات گسترده از سوی دولت‌ها، بانک‌های توسعه و بنیادهای خیریه برای اطمینان از اینکه هوش مصنوعی به نیازهای کشورهای فقیرتر نیز توجه دارد، ضروری خواهد بود. بودجه‌های اختصاص داده شده به این تلاش‌ها در حال حاضر بسیار ناچیز است و هوش مصنوعی در مسیر پیش‌ فرضی قرار دارد که چندان شامل حال همه نمی‌شود.

اما مسیر پیش‌ فرض سرنوشت نیست. ما می‌توانیم انتخاب کنیم که تلاش‌های بیشتری در تحقیق و توسعه عمومی برای حل چالش‌های جهانی مانند تسریع گذار به اقتصاد سبز و بهبود نتایج آموزشی انجام دهیم. ما می‌توانیم سرمایه‌ گذاری بیشتری در ایجاد و حمایت از مراکز توسعه هوش مصنوعی در کشورهای کم‌ درآمد داشته باشیم.

تصمیمات سیاستی که به جابجایی بیشتر نیروی کار کمک کند، می‌تواند توزیع متوازن‌تری از جمعیت در سن کار بین کشورها ایجاد کند و فشارهای اقتصادی که هوش مصنوعی تجاری را به سمت جایگزینی نیروی کار سوق می‌دهد، کاهش دهد.

اگر هیچ‌یک از این کارها انجام نشود، انگیزه‌های تحریف‌ شده همچنان به شکل‌دهی به این فناوری قدرتمند ادامه خواهند داد و پیامدهای منفی عمیقی نه‌ تنها برای کشورهای کم‌ درآمد بلکه برای همه به دنبال خواهند داشت.

ویژگی‌های جدید هوش مصنوعی گوگل در سال ۲۰۲۴

ویژگی‌های جدید هوش مصنوعی گوگل در سال ۲۰۲۴

در رویداد Made by Google 2024، گوگل محصولات و ویژگی‌های متنوعی را معرفی کرد. با وجود حجم زیاد معرفی‌ها، برخی از ویژگی‌های جذاب هوش مصنوعی نادیده گرفته شدند. در ادامه به بررسی چند ویژگی جدید و کمتر توجه‌ شده هوش مصنوعی گوگل مانند Pixel Studio  و Pixel Screenshots  می‌پردازیم که تجربه کاربری را در دستگاه‌های سری Pixel 9  بهبود می‌بخشند.

ویژگی های جدید هوش مصنوعی گوگل

  1. Call Notes: خلاصه‌ سازی مکالمات شما

برای افرادی که ممکن است به حافظه کوتاه‌ مدت خود اعتماد نداشته باشند، ویژگی Call Notes می‌تواند بسیار مفید باشد. این ویژگی در دستگاه‌های سری Pixel 9 در دسترس است و بعد از هر تماس، خلاصه‌ای از مکالمه شما را ذخیره می‌کند. جزئیات و متن کامل مکالمه نیز در بخش گزارش تماس‌های تلفن ذخیره می‌شود.

اگر این ویژگی از نظر حریم خصوصی برای شما نگرانی ایجاد می‌کند، گوگل اعلام کرده است که Call Notes به‌طور کامل روی دستگاه اجرا می‌شود و به تمام افراد حاضر در تماس اطلاع می‌دهد که مکالمه در حال ضبط است. با این حال، باید منتظر نظرات کارشناسان امنیتی در این زمینه باشیم.

  1. Pixel Studio: اپلیکیشن جدید تولید تصاویر

یک اپلیکیشن جدید مخصوص تولید تصاویر با استفاده از مدل‌های هوش مصنوعی مانند Imagen 3 که از طریق کلود کار می‌کند. این اپلیکیشن در دستگاه‌های Pixel 9، Pixel 9 Pro و Pixel 9 Pro Fold در دسترس است. کاربران می‌توانند با وارد کردن دستورات متنی، تصاویر دلخواه خود را تولید و به‌ راحتی ویرایش کنند. این ویژگی به‌ شدت خلاقیت را تقویت می‌کند و از طریق پیام‌های گوگل نیز قابل اشتراک‌ گذاری است.

به گفته گوگل، در حال حاضر Pixel Studio نمی‌تواند چهره‌های انسانی تولید کند که احتمالاً به دلیل مشکلاتی است که مدل هوش مصنوعی گوگل به نام Gemini اوایل سال جاری داشت. همچنین مشخص نشده که آیا تدابیر دیگری برای جلوگیری از تولید تصاویر مضر در این اپلیکیشن وجود دارد یا خیر.

  1. Pixel Screenshots: قابلیت جستجو در اسکرین‌ شات‌ها

اگر شما هم مثل من زیاد اسکرین‌ شات می‌گیرید ( بلیط‌ها، کدهای QR، کارت‌های پرواز و غیره) می‌دانید که پیدا کردن اطلاعات در میان اسکرین‌ شات‌ها ممکن است بسیار دشوار باشد، زیرا قابلیت جستجوی مناسبی ندارند.

اما خوشبختانه برای دارندگان آینده گوشی‌های Pixel 9، اپلیکیشن Pixel Screenshots از هوش مصنوعی برای تحلیل محتوای اسکرین‌ شات‌ها استفاده می‌کند، از جمله متن‌ها، افراد و اشیا موجود در تصاویر. اگرچه Google Photos قبلاً این کار را انجام می‌داد، اما Pixel Screenshots به‌ صورت محلی روی دستگاه کار می‌کند.

برای مثال فرض کنید دوست شما که عاشق سنجاب‌هاست، تولدش نزدیک است. شما ممکن است در گوگل کروم به دنبال هدیه‌ای برای او بگردید و اسکرین‌ شات‌هایی از لباس‌ها و لوازم مرتبط با سنجاب بگیرید. Pixel Screenshots محتوای این تصاویر را تحلیل می‌کند و به شما اجازه می‌دهد به‌ راحتی با جستجوی کلمه “سنجاب” به تمام این نتایج دسترسی پیدا کنید. حتی ، لینک‌هایی به جایی که این محصولات را پیدا کرده‌اید به همراه خلاصه‌ای از اطلاعات مربوط به هر آیتم نمایش داده می‌شود.

همچنین Pixel Screenshots می‌تواند اطلاعاتی مانند کدهای ورودی درب یا آدرس‌ها را در عکس‌های شما جستجو کند. در رویداد Made by Google 2024، تعدادی ویژگی جدید و جالب مبتنی بر هوش مصنوعی برای دستگاه‌های جدید سری پیکسل معرفی شد. برخی از این ویژگی‌ها در حال حاضر بر روی گوشی‌های Pixel 9 و Pixel 9 Pro ارائه شده‌اند.

  1. Gemini AI

 این دستیار شخصی به کاربر کمک می‌کند تا وظایفی مانند یادداشت‌ برداری، تنظیم یادآورها و پاسخگویی به سوالات را به‌ راحتی انجام دهد. این مدل هوش مصنوعی با اپلیکیشن‌های گوگل یکپارچه شده و از توانایی چند وجهی (متن، تصویر و صدا) برای پاسخگویی استفاده می‌کند.

  1. برنامه‌های سلامت

 ساعت Pixel Watch 3 نیز از هوش مصنوعی برای ویژگی‌هایی نظیر “Daily Readiness” و “Cardio Load” استفاده می‌کند تا به کاربران در پایش وضعیت بدنی و فعالیت‌های ورزشی کمک کند. همچنین این ساعت قابلیت “Loss of Pulse Detection” دارد که در صورت توقف ضربان قلب، اورژانس را مطلع می‌کند.

این ویژگی‌ها در دستگاه‌های جدید پیکسل، نوید یک تجربه کاربری پیشرفته‌تر و هوشمندانه‌تر را می‌دهد که تعامل کاربران با گوشی‌ها و ابزارهای پوشیدنی را ساده‌تر و کاربردی‌تر کرده است.

Gemini Live : هوش مصنوعی فوق پیشرفته با توانایی مکالمه زنده

Gemini Live : هوش مصنوعی فوق پیشرفته با توانایی مکالمه زنده

گوگل با رونمایی از Gemini Live، نسخه‌ای پیشرفته از چت‌ بات هوشمند خود که از هوش مصنوعی بهره می‌برد، پا به عرصه‌ی رقابت با حالت صوتی پیشرفته ChatGPT گذاشته است. این قابلیت جدید به کاربران اجازه می‌دهد از طریق گوشی‌های هوشمند خود  به مکالمات صوتی عمیق بپردازند . یکی از ویژگی‌های برجسته این ابزار، موتور گفتاری پیشرفته‌ای است که توانایی تشخیص و پاسخ به تغییرات در الگوی گفتاری کاربر را در لحظه دارد و مکالمات چند مرحله‌ای مداوم‌تر، احساسی‌تر و واقعی‌تری را ارائه می‌دهد. این قابلیت به کاربران امکان می‌دهد در حین صحبت کردن چت‌ بات، سوالات دنباله ‌دار مطرح کنند و جمنای لایو به ‌طور خودکار پاسخ‌ها را با توجه به سوالات جدید تنظیم کند.

شما می‌توانید با Gemini Live صحبت کنید و از بین ۱۰ صدای طبیعی جدید که برای پاسخ دادن در دسترس هستند، یکی را انتخاب کنید. حتی می‌توانید با سرعت خودتان صحبت کنید یا در میانه‌ی پاسخ ‌دهی، برای پرسیدن سوالات روشن‌ کننده، مکالمه را قطع کنید، درست مثل هر گفتگوی دیگری.

حتی زمانی که برنامه در پس‌زمینه اجرا می‌شود یا گوشی شما قفل است، شما می‌توانید به صحبت کردن با برنامه Gemini ادامه دهید و مکالمات را هر زمان که بخواهید متوقف و دوباره آغاز کنید.

 قابلیت‌های نوآورانه و تعاملی  Gemini Live 

حال، این قابلیت چه کاربردهایی ممکن است داشته باشد؟

گوگل مثالی از تمرین برای یک مصاحبه شغلی ارائه می‌دهد .  Gemini Live می‌تواند با شما تمرین کند، نکاتی برای صحبت کردن ارائه دهد و مهارت‌هایی که باید هنگام گفتگو با یک مدیر استخدام برجسته کنید را پیشنهاد دهد.

کاربران اندروید می‌توانند با نگه داشتن دکمه پاور گوشی خود یا گفتن  “Hey Google”، Gemini  را به ‌صورت یک پوشش روی هر برنامه‌ای که استفاده می‌کنند، فراخوانی کرده و سوالاتی درباره آنچه روی صفحه است بپرسند (مثلاً یک ویدئوی یوتیوب). Gemini  می‌تواند مستقیماً از طریق این پوشش، تصاویر تولید کند، هرچند هنوز قادر به تولید تصاویر از افراد نیست. این تصاویر را می‌توان به برنامه‌هایی مانند Gmail و Google Messages کشید و رها کرد.

Gemini  همچنین با افزونه‌ها در موبایل و وب، ادغام می‌شود. در هفته‌های آینده، Gemini  قادر خواهد بود اقدامات بیشتری را با  Google Calendar، Keep، Tasks، YouTube Music و Utilities انجام دهد؛ برنامه‌هایی که ویژگی‌های دستگاه مانند تایمرها و آلارم‌ها، کنترل‌های رسانه، چراغ قوه، صدا، وای‌ فای، بلوتوث و غیره را کنترل می‌کنند.

چند ایده جذاب برای استفاده از Gemini Live:

  • از Gemini بخواهید “یک لیست پخش از آهنگ‌هایی که یادآور اواخر دهه ۹۰ هستند، بساز. “
  • از یک تراکت کنسرت عکس بگیرید و از Gemini بپرسید آیا در آن روز وقت آزاد دارید . حتی می‌ توانید برای خرید بلیط یادآوری تنظیم کنید.
  • از Gemini بخواهید یک دستور غذا را از Gmail پیدا کند و مواد لازم را به لیست خریدتان در Keep اضافه کند.

تفاوت‌ها و مزایای Gemini Live نسبت به رقبا

یکی از مزیت‌های جمنای لایو نسبت به حالت صوتی پیشرفته ChatGPT حافظه‌ی قوی‌تر آن است. معماری مدل هوش مصنوعی مولدی که در پشت این سیستم قرار دارد، یعنی Gemini 1.5 Pro و Gemini 1.5 Flash، قادر به پردازش و تحلیل داده‌های گسترده‌ای هستند، به ‌طوری ‌که می‌توانند ساعت‌ها مکالمه‌ را به خاطر بسپارند و بر اساس آن‌ها پاسخ دهند. 

اگرچه هنوز تمامی قابلیت‌هایی که در کنفرانس Google I/O 2024 معرفی شده بودند، به این سرویس اضافه نشده‌اند، اما گوگل اعلام کرده است که قابلیت ورودی چندگانه و پشتیبانی از زبان‌های بیشتر در آینده نزدیک به Gemini Live افزوده خواهد شد.  در ماه مه، گوگل ویدئوهای از پیش ضبط شده‌ای را منتشر کرد که نشان می‌دادند Gemini Live می‌تواند با استفاده از عکس‌ها و ویدئوهایی که توسط دوربین‌های گوشی‌های کاربران گرفته شده است، محیط اطراف را ببیند و به آن‌ها پاسخ دهد . به‌ عنوان مثال، شناسایی یک قطعه خراب روی دوچرخه یا توضیح اینکه یک بخش از کد روی صفحه کامپیوتر چه کاری انجام می‌دهد.

گوگل اعلام کرده است که ورودی چند رسانه‌ای “تا پایان سال جاری” عرضه خواهد شد، اما از ارائه‌ی جزئیات بیشتر خودداری کرده است. همچنین تا پایان سال جاری، جمنای لایو به زبان‌های بیشتر و سیستم عاملiOS  از طریق برنامه گوگل گسترش خواهد یافت. در حال حاضر، این سرویس فقط به زبان انگلیسی در دسترس است.

Gemini Live، مانند حالت صوتی پیشرفته ChatGPT ، رایگان نیست. این سرویس انحصاری Gemini Advanced است. نسخه‌ای پیشرفته‌تر از Gemini که در پشت برنامه  Google One AI Premium Plan، با قیمت ماهیانه ۲۰ دلار، قرار دارد.

هرچند، ویژگی‌های جدید دیگری برای Gemini در راه است که رایگان خواهند بود.

 

تله‌ کپی ‌رایت: ابزاری جدید برای محافظت از آثار در برابر هوش مصنوعی

تله‌ کپی ‌رایت: ابزاری جدید برای محافظت از آثار در برابر هوش مصنوعی

بسیاری از تولید کنندگان محتوا مدعی شده‌اند که آثارشان بدون رضایت آن‌ها برای آموزش مدل‌های هوش مصنوعی استفاده شده است. تاکنون تشخیص اینکه آیا یک متن خاص در مجموعه داده‌های آموزشی مورد استفاده قرار گرفته یا خیر، دشوار بوده است. اما اکنون یک روش جدید برای اثبات این موضوع ایجاد شده است: “تله‌ کپی ‌رایت” (Copyright Trap)، که توسط تیمی از کالج Imperial  لندن توسعه یافته‌اند.

این تله‌ها، قطعاتی از متن‌های مخفی هستند که به نویسندگان و ناشران اجازه می‌دهند آثار خود را به‌ طور نامحسوس علامت ‌گذاری کنند تا بتوانند بعدها تشخیص دهند که آیا اثرشان در مدل‌های هوش مصنوعی مورد استفاده قرار گرفته است یا خیر.

روشی نوین برای شناسایی استفاده غیرمجاز از آثار

ایده تله‌ کپی ‌رایت مشابه تله‌هایی است که صاحبان کپی ‌رایت در طول تاریخ به کار گرفته‌اند، مثل اضافه کردن مکان‌های جعلی روی نقشه یا کلمات جعلی در یک فرهنگ لغت. این تله‌های کپی ‌رایت در حال حاضر یکی از بزرگ‌ترین چالش‌های هوش مصنوعی را هدف گرفته‌اند.

 در حال حاضر، بسیاری از ناشران و نویسندگان درگیر دعوی‌های قضایی علیه شرکت‌های فناوری هستند. آنها ادعا می‌کنند که مالکیت معنوی آن‌ها بدون اجازه در داده‌های آموزشی هوش مصنوعی استفاده شده است. پرونده جاری نیویورک تایمز علیه OpenAI احتمالاً مشهورترین این موارد است.

کد مربوط به تولید و شناسایی این تله‌ها در حال حاضر بر روی GitHub در دسترس است. علاوه بر این، تیم تحقیقاتی در نظر دارد ابزاری تولید کند که به افراد اجازه دهد تله‌ کپی ‌رایت را به ‌طور شخصی تولید کرده و در آثار خود قرار دهند.

چالش‌های فعلی و آینده تله‌ کپی ‌رایت در مبارزه با هوش مصنوعی

Montjoye ، استادیار ریاضیات کاربردی و علوم کامپیوتر و رهبر این تحقیق، در این زمینه می‌گوید: “شفافیت کاملی در مورد اینکه چه محتوایی برای آموزش مدل‌ها استفاده شده وجود ندارد و ما معتقدیم که این موضوع مانع ایجاد توازن صحیح بین شرکت‌های هوش مصنوعی و تولید کنندگان محتوا می‌شود.”

برای ایجاد این تله‌ها، تیم از یک تولید کننده کلمات استفاده کرد تا هزاران جمله مصنوعی بسازد.این جملات بلند و پر از کلمات بی‌ معنی هستند و ممکن است چیزی شبیه به این باشند:

“در زمان‌های بحران … اینکه چه چیزی در فروش است و مهم ‌تر از آن، چه زمانی، بهترین است. این لیست به شما می‌گوید که چه کسی پنجشنبه شب با ساعت‌های عادی فروش و دیگر زمان‌های باز از همسایگان شما باز می‌شود.”

تیم تحقیقاتی ۱۰۰ جمله تله تولید کرد و سپس یکی از آنها را به ‌طور تصادفی انتخاب کرد تا بارها در یک متن تزریق شود. این تله ها می‌تواند به چندین روش در متن قرار گیرد. مثلاً به صورت متن سفید روی پس‌ زمینه سفید یا در کد منبع مقاله جاسازی شود. این جمله باید بین ۱۰۰ تا ۱۰۰۰ بار در متن تکرار شود.

برای شناسایی تله‌ها، محققان مدل زبانی بزرگی را با ۱۰۰ جمله مصنوعی که تولید کرده بودند، تغذیه کردند. سپس بررسی کردند که آیا مدل آن‌ها را به‌ عنوان جملات جدید شناسایی می‌کند یا خیر. اگر مدل جمله تله را در داده‌های آموزشی خود دیده باشد، امتیاز “تعجب” پایین ‌تری را نشان می‌دهد. اما اگر مدل از جمله‌ای “متعجب” شود، به این معنی است که برای اولین بار با آن روبرو شده و بنابراین آن جمله تله نیست.

از آنجاییکه مدل‌های زبانی داده‌های آموزشی خود را حفظ می‌کنند، محققان پیشنهاد کرده‌ بودند از این داده ها استفاده شود. سپس بررسی شود که آیا یک متن در داده‌های آموزشی ظاهر شده است یا خیر. این تکنیک به “حمله استنتاج عضویت” معروف است.  از این تکنیک در مدل‌های بزرگ و پیشرفته که تمایل به حفظ بسیاری از داده‌های خود دارند، استفاده می شود.

در مقابل، مدل‌های کوچکتر که محبوبیت بیشتری پیدا کرده‌اند و می‌توانند روی دستگاه‌های موبایل اجرا شوند، داده‌های کمتری را حفظ می‌کنند . بنابراین کمتر در معرض “حملات استنتاج عضویت” قرار دارند. این موضوع تشخیص اینکه آیا این مدل‌ها روی یک سند دارای کپی ‌رایت آموزش دیده‌اند یا خیر را دشوارتر می‌کند.

تله‌ کپی ‌رایت روشی است که حتی در مدل‌های کوچک‌تر هم می‌توان حملات استنتاج عضویت را انجام داد.

تکرار یک عبارت ۷۵ کلمه‌ای به تعداد ۱۰۰۰ بار در یک سند، تغییری بزرگ در متن اصلی است. بنابراین ممکن است افرادی که مدل‌های هوش مصنوعی را آموزش می‌دهند، تله را شناسایی کنند. حتی ممکن است محتوای حاوی آن را رد کنند یا فقط آن را حذف کنند و روی بقیه متن آموزش دهند. این موضوع همچنین باعث می‌شود که متن اصلی سخت خوانده شود.

بسیاری از شرکت‌ها داده‌ها را از تکرارها پاکسازی می‌کنند و احتمالاً بخشی از این نوع محتوا حذف خواهد شد. اما حتی در آن صورت هم، هرچه تعداد تله‌ها بیشتر باشد، حذف همه آن‌ها بدون منابع مهندسی قابل ‌توجه سخت‌تر می‌شود. این موضوع در حال حاضر تله‌ کپی ‌رایت را غیر عملی می‌کند.

یکی از راه‌های بهبود تله‌ کپی ‌رایت ، یافتن روش‌هایی دیگر برای علامت‌ گذاری محتوای دارای کپی ‌رایت است. راه هایی که حملات استنتاج عضویت روی آن‌ها بهتر عمل کنند و یا “حملات استنتاج عضویت” را بهبود دهد.

مهم است به یاد داشته باشیم که تله‌ کپی ‌رایت ممکن است فقط یک راه‌ حل موقتی یا صرفاً یک مانع برای آموزش‌ دهندگان مدل‌ها باشند. نمی‌توان یک قطعه محتوا را منتشر کرد که دارای یک تله باشد و اطمینان داشت که این تله برای همیشه مؤثر خواهد بود.

کسب مدال نقره المپیاد جهانی ریاضی توسط هوش مصنوعی

کسب مدال نقره المپیاد جهانی ریاضی توسط هوش مصنوعی

سیستم‌های جدید Google DeepMind اکنون قادر به حل مسائل پیچیده ریاضی با هوش مصنوعی هستند. این سیستم‌ها که AlphaProof و AlphaGeometry 2 نام دارند، گامی بزرگ به سوی ساخت سیستم‌هایی برداشته‌اند که می‌توانند به استدلال بپردازند.

این موضوع می‌تواند به قابلیت‌های جدید و هیجان‌ انگیزی منجر شود.

چالش حل مسائل پیچیده ریاضی با هوش مصنوعی

مدل‌های هوش مصنوعی به راحتی می‌توانند مقالات و متن‌های مختلفی تولید کنند. اما حل مسائل ریاضی که نیاز به استدلال پیشرفته دارند، برای سیستم‌های هوش مصنوعی بسیار دشوار است. این نوع مسائل اغلب نیاز به انتزاع ‌سازی، برنامه ‌ریزی پیچیده، بازگشت به مراحل قبلی و امتحان کردن مسیرهای جدید دارند که برای هوش مصنوعی چالش‌ برانگیز است.

 اما این وضعیت در حال تغییر می باشد. Google DeepMind اعلام کرده است که دو سیستم هوش مصنوعی تخصصی را آموزش داده است تا بتوانند مسائل پیچیده ریاضی که نیاز به استدلال پیشرفته دارند، حل کنند.

این سیستم‌ها که AlphaProof و AlphaGeometry 2 نامیده می‌شوند، با همکاری یکدیگر توانستند چهار مسئله از شش مسئله المپیاد جهانی ریاضی (IMO) امسال را حل کنند.

این المپیاد یکی از معتبرترین مسابقات برای دانش ‌آموزان دبیرستانی است. این سیستم‌ها موفق شدند معادل مدال نقره را کسب کنند.

عملکرد سیستم‌های AlphaProof و AlphaGeometry 2

این اولین باری است که یک سیستم هوش مصنوعی توانسته به چنین موفقیتی در حل این نوع مسائل دست یابد. حل مسائل پیچیده ریاضی با هوش مصنوعی یک پیشرفت بزرگ در زمینه یادگیری ماشین و هوش مصنوعی است.

هدف Google DeepMind در ایجاد AlphaProof ، یک سیستم مبتنی بر یادگیری تقویتی است. این سیستم خودش را برای اثبات عبارات ریاضی در زبان برنامه ‌نویسی رسمی Lean آموزش می‌دهد.

AlphaProof با استفاده از مدل Gemini DeepMind ، مسائل ریاضی به زبان طبیعی و غیررسمی را به عبارات رسمی که برای پردازش توسط هوش مصنوعی مناسب‌تر هستند، ترجمه می‌کند.

این کار یک کتابخانه بزرگ از مسائل ریاضی رسمی با درجات مختلفی از دشواری ایجاد کرده است. اتوماسیون فرآیند ترجمه داده‌ها به زبان رسمی یک گام بزرگ برای جامعه ریاضی محسوب می‌شود.

AlphaZero مدلی است که Google DeepMind برای تسلط بر بازی‌هایی مانند شطرنج و Go آموزش داده بود. مدل Gemini در کنار AlphaZero، کار می‌کند تا میلیون‌ها مسئله ریاضی را اثبات یا رد کند. هر چه تعداد بیشتری از این مسائل به درستی حل می‌شود، AlphaProof  نیز در برخورد با مسائل پیچیده‌تر بهتر می‌شود.

AlphaProof  برای مقابله با مسائل در گستره وسیعی از موضوعات ریاضی آموزش دیده است. AlphaGeometry 2 به ‌طور خاص برای مقابله با مسائلی که به حرکات اشیا و معادلات مربوط به زوایا، نسبت‌ها و فواصل مربوط می‌شوند، بهینه ‌سازی شده است.

این سیستم با داده‌های مصنوعی بسیار بیشتری نسبت به نسخه قبلی خود، آموزش دیده است و به همین دلیل توانست به مسائل هندسی چالش ‌برانگیزتری پاسخ دهد.

برای آزمودن قابلیت‌های این سیستم‌ها، پژوهشگران آنها خواستند که شش مسئله مطرح شده در المپیاد جهانی ریاضی امسال را حل کنند.  همچنین اثبات کنند که پاسخ‌هایشان درست است.

AlphaProof  توانست دو مسئله جبر و یک مسئله نظریه اعداد را حل کند که یکی از آن‌ها سخت‌ ترین مسئله این مسابقات بود. AlphaGeometry 2 نیز موفق شد یک مسئله هندسه را حل کند. اما دو مسائل مربوط به شاخه‌ای از ریاضیات که بر شمارش و ترتیب‌ دهی اشیا متمرکز است، بی ‌پاسخ باقی ماند.

دو ریاضیدان برجسته ، پاسخ‌های ارائه شده توسط این سیستم‌ها را بررسی کردند. آن‌ها به هر چهار پاسخ صحیح این سیستم‌ها نمره کامل دادند. اگر یک شرکت‌ کننده انسانی به این امتیاز دست می‌یافت، مدال نقره کسب می‌کرد .

این اولین باری است که یک سیستم هوش مصنوعی موفق به کسب عملکردی در سطح مدال در پرسش‌های المپیاد جهانی ریاضی شده است . این دستاورد، بسیار چشمگیر و نشان‌ دهنده یک جهش بزرگ است.

آینده همکاری انسان و هوش مصنوعی در ریاضیات

سیستم‌هایی که توانایی حل مسائل پیچیده ریاضی با هوش مصنوعی را دارند، می‌تواند راه را برای همکاری‌های هیجان ‌انگیز بین انسان و هوش مصنوعی هموار کند.

این همکاری‌ها می‌تواند به ریاضیدانان کمک کند تا هم مسائل جدیدی را حل کنند و هم نوع جدیدی از مسائل را ابداع کنند. این سیستم‌ها با توانایی حل و ابداع مسائل جدید، می‌توانند به ریاضی‌دانان کمک کنند تا به درک بهتری از نحوه حل مسائل ریاضی توسط انسان‌ها برسند.

پیشرفت‌ در این زمینه، نشان‌ دهنده یک جهش بزرگ در توانایی‌های هوش مصنوعی در حل مسائل پیچیده ریاضی است و می‌تواند مسیرهای جدیدی را برای تحقیقات آینده باز کند.

جالب خواهد بود که ببینیم این سیستم‌ها چگونه در مقیاس بزرگ‌تر عمل می‌کنند . آیا می‌توان آن‌ها را سریع‌تر کرد و به دیگر شاخه‌های ریاضیات نیز گسترش یابند یا خیر.