تصویری از قابلیت‌های جدید Gemini Live
تصویری از قابلیت‌های جدید Gemini Live

به‌روزرسانی بعدی Gemini Live به مدل هوش مصنوعی گوگل اجازه می‌دهد دنیا را از طریق دوربین شما ببیند

دیدگاه ویراستار: تلاش گوگل برای تبدیل Gemini به یک دستیار هوش مصنوعی تعاملی‌تر می‌تواند نحوه استفاده ما از این فناوری را متحول کند. با این حال، از آنجایی که کاربران دوربین و صفحه نمایش خود را با Gemini به اشتراک می‌گذارند، پیامدهای حفظ حریم خصوصی چیست؟ در حالی که مزایای کمک‌رسانی در زمان واقعی واضح است، پتانسیل سوء استفاده از داده‌ها یا زیاده‌روی نیز نگران‌کننده است.

گوگل روز دوشنبه در کنگره جهانی موبایل (MWC) در بارسلونا روی صحنه رفت تا آخرین پیشرفت‌ها در دستیار هوش مصنوعی خود، Gemini را به نمایش بگذارد. این شرکت اعلام کرد دو ویژگی جدید برای تعاملی‌تر و آگاه‌تر کردن Gemini، از جمله تجزیه و تحلیل ویدیو در زمان واقعی و قابلیت‌های اشتراک‌گذاری صفحه نمایش.

یکی از ارتقاء‌های جالب Gemini Live به کاربران این امکان را می‌دهد تا دوربین گوشی هوشمند خود را روشن کرده و آن را به سمت اشیاء، محیط اطراف یا حتی صفحه کامپیوتر خود بگیرند تا تجزیه و تحلیل و بازخورد فوری دریافت کنند (تصویر بالا). گوگل می‌خواهد Gemini چیزی فراتر از یک چت‌بات باشد - هدف آن این است که یک دستیار هوش مصنوعی عملی باشد که واقعاً آنچه را که اتفاق می‌افتد، ببیند. چه شناسایی یک مورد، توضیح چیزی فنی یا کمک به عیب‌یابی یک مشکل، گوگل می‌خواهد Gemini چیزی فراتر از یک چت‌بات باشد - هدف آن این است که یک دستیار هوش مصنوعی عملی باشد که واقعاً آنچه را که اتفاق می‌افتد، ببیند.

دومین ویژگی، یک قابلیت جدید اشتراک‌گذاری صفحه نمایش است که به کاربران اجازه می‌دهد صفحه نمایش خود را به Gemini Live نشان دهند (تصویر زیر). سپس هوش مصنوعی می‌تواند آنها را در انجام وظایف راهنمایی کند، کمک‌های ویژه برنامه ارائه دهد یا اطلاعات را از محتوای نمایش داده شده خلاصه کند. هدف گوگل این است که کمک دیجیتالی کمتر شبیه یک چت‌بات باشد و بیشتر شبیه یک دستیار هوش مصنوعی همیشگی باشد که می‌تواند عناصر روی صفحه را در زمان واقعی تفسیر و به آنها پاسخ دهد.

با این حال، این ویژگی‌ها رایگان نخواهند بود. گوگل تجزیه و تحلیل ویدیو در زمان واقعی و اشتراک‌گذاری صفحه نمایش را پشت طرح AI Premium خود قرار می‌دهد که 20 دلار در ماه هزینه دارد. این اقدام از روند صنعت در قرار دادن قابلیت‌های پیشرفته هوش مصنوعی در پشت پرداخت‌ها پیروی می‌کند، مانند دسترسی GPT-4.5 OpenAI از طریق ChatGPT Plus. همچنین این سوال وجود دارد: چقدر به گوگل اعتماد دارید که به دوربین تلفن شما دسترسی داشته باشد؟

گوگل قبلاً این قابلیت‌ها را سال گذشته برای شرکت کنندگان در WMC 2024 به نمایش گذاشت (تصویر زیر)، اگرچه در آن زمان پروژه آسترا نامیده می‌شد. از طریق دوربین، Gemini می‌توانست نقاط دیدنی و اشیاء را شناسایی کند و به خاطر بیاورد که عینک نمایش دهنده کجاست. با فعال بودن اشتراک‌گذاری صفحه نمایش، Gemini می‌توانست در کارهایی مانند خرید یا ارائه پشتیبانی فنی با یک اسکن ساده دوربین کمک کند.

در حالی که این نمایش چشمگیر بود، Ars Technica خاطرنشان می‌کند که هوش مصنوعی فعلی با تجزیه و تحلیل ویدیو در شرایط کمتر ایده‌آل (یعنی غیر فیلمنامه‌ای) مشکل دارد. با این حال، این به‌روزرسانی تکامل یافته‌تر است و واکنش‌های اولیه مثبت بوده است، به طوری که کاربران بتا از پتانسیل یک دستیار هوش مصنوعی که می‌تواند محیط خود را ببیند و به آن پاسخ دهد، تمجید می‌کنند. بقیه جهان به زودی خودشان خواهند دید. گوگل تایید کرد که این به‌روزرسانی‌ها در اواخر این ماه در برنامه Gemini در اندروید منتشر می‌شوند و انتظار می‌رود به زودی در iOS نیز در دسترس باشد.