هوش مصنوعی گوگل آن‌طور که ما فکر می‌کنیم نیست!

نسل بعدی مدل هوش مصنوعی مولد گوگل، Gemini که مدت‌ها وعده آن را داده بود بالاخره این هفته عرضه می‌شود. با این حال قرار است مدل قدرتمندتر و توانمندتر Gemini سال آینده وارد بازار شود.

تاریخ انتشار: ۰۹:۵۶ - ۱۸ آذر ۱۴۰۲

به گزارش خبر آنلاین، در کنفرانس مطبوعاتی مجازی، اعضای تیم Google DeepMind، نیروی محرک پشت هوش مصنوعی «Gemini»، در کنار Google Research، مروری بر سطح بالایی از Gemini و قابلیت‌های آن ارائه کردند. براساس شواهد، در واقع Gemini فقط یک هوش مصنوعی نیست بلکه یک خانواده از مدل‌های هوش مصنوعی است که در سه مدل ارائه می‌شود:

«Gemini Nano» جمینی نانو، مدلی برای اجرا بر روی دستگاه‌های تلفن همراه مانند Pixel ۸ Pro

«Gemini Pro» جمینی پرو، مدل ساده جمینی

«Gemini Ultra» جمینی اولترا، مدل پرچمدار جمینی

Gemini Nano در دو اندازه مدل Nano-۱ (۱.۸ میلیارد پارامتر) و Nano-۲ (۳.۲۵ میلیارد پارامتر) عرضه می‌شود که به ترتیب دستگاه‌های با حافظه کم و بالا را هدف قرار می‌دهند.

در عین حال، Gemini Nano به زودی در پیش نمایش از طریق برنامه AI Core گوگل که به تازگی منتشر شده است، به صورت انحصاری برای اندروید ۱۴ در پیکسل ۸ پرو راه اندازی خواهد شد. Gemini Nano در ابتدا در پیکسل ۸ پرو و سپس در دیگر دستگاه‌های Android، ویژگی‌هایی که Google در جریان رونمایی پیکسل ۸ پرو در ماه اکتبر پیش‌نمایش کرد، مانند خلاصه‌سازی در برنامه Recorder و پاسخ‌های پیشنهادی برای برنامه‌های پیام‌رسانی پشتیبانی‌شده، را تقویت می‌کند.

ساده‌ترین مکان برای امتحان Gemini Pro نیز، هوش مصنوعی Bard است، رقیب ChatGPT Google، که از امروز با یک نسخه تنظیم‌شده از Gemini Pro، حداقل به زبان انگلیسی در ایالات متحده (فقط برای متن، نه تصویر) پشتیبانی می‌شود. گفته می‌شود Gemini Pro با تنظیم دقیق، قابلیت‌های استدلال، برنامه‌ریزی و درک بهتر نسبت به مدل قبلی که Bard را هدایت می‌کرد، ارائه می‌دهد.

Gemini Pro همچنین در تاریخ ۱۳ دسامبر برای مشتریان سازمانی با استفاده از Vertex AI، پلتفرم یادگیری ماشینی کاملاً مدیریت شده گوگل، راه اندازی می‌شود و سپس به مجموعه توسعه دهندگان Generative AI Studio گوگل می‌رود. Gemini در ماه‌های آینده در محصولات Google مانند Duet AI، Chrome و Ads و همچنین به عنوان بخشی از جستجوی Google وارد خواهد شد.

اما چیز زیادی برای گفتن در مورد Gemini Pro، یا حداقل نسخه دقیق Gemini Pro که Bard را تقویت می‌کند، نیست. Gemini Pro در کار‌هایی مانند خلاصه کردن محتوا، فکر و نوشتن توانایی بیشتری دارد و از GPT-۳.۵ OpenAI، سلف GPT-۴، در شش معیار، از جمله یکی (GSM۸K) که استدلال ریاضی را می‌سنجد، بهتر عمل می‌کند. اما GPT-۳.۵ بیش از یک سال قدمت دارد ودر این مرحله به سختی می‌توان از آن پیشی گرفت.

پس «Gemini Ultra» چقدر تاثیر گذار است؟

مانند Gemini Pro، این مدل یعنی Gemini Ultra نیز از قبل آموزش داده شده و بر روی مجموعه بزرگی از پایگاه‌های کد، متن به زبان‌های مختلف، صدا، تصاویر و ویدئو‌ها تنظیم شده است. Gemini Ultra می‌تواند اطلاعات «ریز» را در متن، تصاویر، صدا و کد درک کند و به سؤالات مربوط به موضوعات پیچیده، به‌ویژه ریاضی و فیزیک پاسخ دهد.

از این نظر، Gemini Ultra چندین کار را بهتر از مدل چندوجهی خود OpenAI، GPT-۴ با Vision، که فقط می‌تواند زمینه دو حالت کلمات و تصاویر را درک کند، انجام می‌دهد. Gemini Ultra می‌تواند گفتار را رونویسی کند و به سؤالات مربوط به صدا و ویدیو، مثلاً این بپرسید «در این کلیپ چه می‌گذرد؟»، علاوه بر آثار هنری و عکس‌ها پاسخ دهد.

رویکرد استاندارد برای ایجاد مدل‌های چندوجهی شامل آموزش اجزای جداگانه برای روش‌های مختلف است. این مدل‌ها در انجام وظایف خاصی مانند توصیف یک تصویر بسیار خوب هستند، اما آن‌ها واقعاً با وظایف استدلال مفهومی و پیچیده‌تر مشکل دارند؛ بنابراین Gemini، طوری طراحی شده است که به صورت بومی چندوجهی باشد.

با این حال درباره مجموعه داده‌های آموزشی Gemini، اطلاعاتی در دسترس نیست؛ اما گوگل بار‌ها از پاسخ دادن به سوالات خبرنگاران در مورد نحوه جمع‌آوری داده‌های آموزشی Gemini، محل دریافت داده‌های آموزشی و اینکه آیا هر کدام از ارائه دهندگان آموزش، از شخص ثالث مجوز گرفته است، پاسخ نداده است، ظاهرا گوگل بخشی از داده‌ها که از منابع عمومی وب بوده را برای کیفیت مطالب و نامناسب بودن «فیلتر» کرده است.

گوگل اولین کسی نیست که داده‌های آموزشی خود را در دسترس قرار نمی‌دهد. داده‌ها نه تنها یک مزیت رقابتی دارند، بلکه منبع بالقوه دعوای حقوقی مربوط به استفاده منصفانه را دارند. مایکروسافت، GitHub، OpenAI و Stability AI از جمله فروشندگان مولد هوش مصنوعی هستند که در طرح‌هایی که آن‌ها را به نقض قانون IP با آموزش سیستم‌های هوش مصنوعی خود در مورد محتوای دارای حق چاپ، از جمله آثار هنری و کتاب‌های الکترونیکی، بدون ارائه اعتبار یا پرداخت به سازندگان متهم می‌کنند، شکایت می‌کنند.

رقابت تنگاتنگ «Gemini Ultra» با هوش مصنوعی‌های دیگر

در GSM۸K، هوش مصنوعی Gemini Ultra به ۹۴.۴ درصد از سؤالات ریاضی به درستی پاسخ می‌دهد در حالی که در مورد GPT-۴ توانایی پاسخ‌دهی ۹۲ درصد است. در معیار DROP برای درک مطلب، توانایی Gemini Ultra و GPT-۴ به ترتیب به ۸۲.۴% و ۸۰.۹% می‌رسد. در VQAv۲، یک معیار درک تصویر «عصبی»، Gemini ۰.۶ درصد بهتر از GPT-۴ با Vision است و Gemini Ultra، هوش مصنوعی GPT-۴ را تنها با ۰.۵ درصد در مجموعه استدلال سخت Big-Bench برتری می‌دهد.

Gemini Ultra در معیار جدیدتر MMMU، برای استدلال چندوجهی، از GPT-۴ با Vision پیشی گرفته و به امتیاز ۵۹.۴% می‌رسد. اما در یک مجموعه آزمایشی برای استدلال عقل سلیم HellaSwag، مدل Gemini Ultra در واقع کمی از امتیاز GPT-۴، ۹۵.۳ ٪ با امتیاز ۸۷.۸%، فاصله دارد.

در عین حال به گفته متخصصان، اینکه Gemini Ultra، مانند دیگر مدل‌های هوش مصنوعی مولد، قربانی توهم شود، یعنی با اطمینان حقایق را ابداع کند، یک مشکل تحقیقاتی حل نشد بوده است. احتمالاً با توجه به اینکه حتی بهترین مدل‌های هوش مصنوعی مولد امروزی به روش‌های خاصی به شکلی مشکل‌ساز و مضر پاسخ می‌دهند، این مشکل برای Gemini Ultra نیز در محدوده امکان‌پذیر، قرار می‌گیرد است. تقریباً به طور قطع به اندازه سایر مدل‌های هوش مصنوعی مولد «آنگلوسنتریک» است.

گفته می‌شود در حالی که Gemini Ultra می‌تواند بین حدود ۱۰۰ زبان ترجمه کند، کار خاصی برای بومی‌سازی این مدل در کشور‌های جهانی جنوب انجام نشده است.

در یکی دیگر از محدودیت‌های کلیدی، در حالی که معماری Gemini Ultra از تولید تصویر پشتیبانی می‌کند، همانطور که Gemini Pro در تئوری انجام می‌دهد، این قابلیت به نسخه تولید شده مدل در زمان عرضه راه پیدا نمی‌کند. این شاید به این دلیل است که مکانیسم کمی پیچیده‌تر از نحوه تولید تصاویر ChatGPT است. Gemini به‌جای ارسال درخواست‌ها به یک تولیدکننده تصویر مانند DALL-E ۳، در مورد ChatGPT، تصاویر را به‌صورت «بومی» بدون مرحله‌ای میانجی خروجی می‌دهد.

گوگل در کنفرانس سالانه توسعه‌دهندگان I/O خود قول داد که Gemini قابلیت‌های چندوجهی چشمگیر که در مدل‌های قبلی دیده نمی‌شود و کارآمدی در ابزار و API یکپارچه‌سازی ارائه کند. در مصاحبه‌ای رئیس و یکی از بنیانگذاران DeepMind، Gemini را به عنوان معرفی قابلیت‌های جدید به حوزه هوش مصنوعی تولید متن، مانند برنامه ریزی و توانایی حل مشکلات توصیف کرد.

ممکن است Gemini Ultra قادر به انجام همه این‌ها و حتی بیشترباشد؛ اما کنفرانس توجیهی برگزار شده به خصوص با توجه به اشتباهات هوش مصنوعی نسل قبلی و اخیر گوگل، قانع کننده نبود. گوگل از اوایل سال جاری در حال پیشرفت در زمینه هوش مصنوعی مولد است و پس از OpenAI و ChatGPT پرطرفدار این شرکت در حال رقابت است. Bard در ماه فوریه به دلیل ناتوانی در پاسخگویی صحیح به سوالات اساسی آزاد شد و کارمندان Google، از جمله تیم اخلاقی این شرکت، نسبت به جدول زمانی راه اندازی سریع ابراز نگرانی کردند.

بعداً گزارش‌هایی منتشر شد مبنی بر اینکه گوگل پیمانکاران شخص ثالثی را که بیش از حد کار می‌کردند و حقوق کمتری دریافت می‌کردند از Appen و Accenture استخدام کرد تا داده‌های آموزشی Bard را حاشیه‌نویسی کنند. همین امر ممکن است در مورد Gemini نیز صادق باشد. گوگل آن را تکذیب نکرد و گفته شده است که حاشیه نویسان «حداقل دستمزد محلی» را دریافت می‌کردند.

اکنون، اگر منصف باشیم، گوگل در حال پیشرفت است به این معنا که Bard از زمان راه‌اندازی به طور قابل توجهی بهبود یافته است و گوگل با موفقیت ده‌ها محصول، برنامه و سرویس خود را با ویژگی‌های جدید مبتنی بر هوش مصنوعی تزریق کرده است که توسط مدل‌های بومی مانند Palm ۲ و Imagen ارائه شده است.

توسعه Gemini با مشکل مواجه شده است

گفته می‌شود Gemini که طبق گزارش‌های مستقیم از مدیران ارشد گوگل، جف دین، ارشدترین مدیر تحقیقاتی هوش مصنوعی شرکت، با وظایفی مانند رسیدگی مطمئن به پرسش‌های غیرانگلیسی دست و پنجه نرم می‌کند که موجب تاخیر در راه‌اندازی Gemini شد. جمینی اولترا فقط برای مشتریان منتخب، توسعه‌دهندگان، شرکا و «کارشناسان ایمنی و مسئولیت» قبل از عرضه برای توسعه‌دهندگان و مشتریان سازمانی و پس از آن «Bard» در اوایل سال آینده در دسترس خواهد بود.

با این حال هنوز قابلیت‌های جدیدی برای Gemini Ultra وجود دارد و همچنین استراتژی کسب درآمد برای Gemini کشف نشده است؛ بنابراین همچنان ما مانده‌ایم و Gemini Pro؛ و احتمالاً یک Gemini Ultra ضعیف، به خصوص اگر پنجره زمینه مدل ۲۴۰۰۰ کلمه باقی بماند همانطور که در وایت پیپر فنی مشخص شده است. (پنجره زمینه به متنی اشاره دارد که مدل، قبل از تولید هر متن اضافی در نظر می‌گیرد.) GPT-۴ به راحتی آن پنجره زمینه ~۱۰۰۰۰۰ کلمه را شکست می‌دهد، اما پنجره زمینه مسلما همه چیز نیست. تا زمانی که نتوانیم مدل را در دست بگیریم، نباید قضاوت کنیم.

ممکن است بازاریابی گوگل، تلگراف مبنی بر اینکه Gemini چیزی واقعاً قابل توجه خواهد بود به جای یک حرکت جزئی سوزن مولد هوش مصنوعی، مقصر عرضه امروز محصول باشد یا شاید ساختن مدل‌های پیشرفته هوش مصنوعی واقعاً سخت باشد حتی اگر کل بخش هوش مصنوعی دوباره سازماندهی شود تا روند کار را بهبود بخشد.