گوگل با رونمایی از نسل تازه مدلهای هوش مصنوعی خود، رسماً فصل جدیدی از رقابت در این حوزه را آغاز کرده است. «Gemini 3» نهتنها ادامه منطقی مسیر گذشته است، بلکه نقطه عطفی برای رسیدن به سطحی تازه از فهم، استدلال و تعامل انسانمحور به شمار میرود. این مدل که از دل چند سال تحقیق فشرده در Google DeepMind بیرون آمده، اکنون قرار است موتور محرک بسیاری از سرویسها، اپلیکیشنها و ابزارهای توسعه باشد؛ درست همانطور که سران گوگل در معرفی رسمی آن تأکید کردند، Gemini 3 بهگونهای طراحی شده تا بتواند هر ایدهای را به واقعیت تبدیل کند.
جهش بزرگ در استدلال چند وجهی
یکی از مهمترین بخشهای این رونمایی، تأکید گوگل بر تواناییهای استدلالی بیسابقه Gemini 3 است. نسخه Pro این مدل توانسته در اغلب بنچمارکهای معتبر، رکوردهای جدیدی به جا بگذارد و از نسل پیشین خود فاصلهای چشمگیر بگیرد. امتیاز تاریخی 1501 در LMArena، عملکرد دکتریسطح در آزمون Humanity’s Last Exam و نتایج چشمگیر آن در GPQA Diamond نشان میدهد که این مدل درک عمیقی از مسائل پیچیده دارد و میتواند استدلالهایی با لایههای متعدد ارائه دهد.
اما جهش واقعی زمانی دیده میشود که مدل از مرز متن عبور کرده و به سراغ دادههای بصری، ویدئویی، صوتی و حتی فضاهای سهبعدی میرود. نمرات بالا در آزمونهایی مانند MMMU-Pro و Video-MMMU ثابت میکند که Gemini 3 میتواند میان اطلاعات متنی و تصویری پیوندی معنادار برقرار کند؛ چیزی که پیشتر تنها در مدلهای پژوهشی بسیار سنگین دیده میشد.
Deep Think؛ سطح تازهای از عمق و دقت
گوگل همزمان با ارائه نسخه اصلی، از حالت «Gemini 3 Deep Think» پرده برداشت؛ حالتی که توانایی استدلال مدل را یک پله دیگر ارتقا میدهد. در این حالت، مدل با حوصله بیشتری مسیرهای مختلف حل مسئله را بررسی میکند، فرضیهها را میسنجد و در نهایت به نتیجهای دست مییابد که از نظر دقت و انسجام بالاتر باشد. نتایج تستهای رسمی نشان میدهد Deep Think در آزمونهای دشوار مانند ARC-AGI-2 عملکردی بیرقیب داشته و توانسته چالشهایی را حل کند که حتی مدلهای قدرتمند پیشین به آنها نزدیک هم نمیشدند.
یادگیری در هر قالب؛ از کتابخانهها تا ویدئوهای طولانی
Gemini 3 بهگونهای طراحی شده تا کاربران بتوانند در هر قالبی که راحتتر هستند یاد بگیرند. اگر فردی بخواهد یک مهارت خانوادگی مثل دستور پختهای قدیمی را حفظ کند، مدل قادر است نسخههای دستنویس را تشخیص دهد، آنها را دیجیتالی و ترجمه کند و حتی به قالب یک کتابچه تصویری دربیاورد. از سوی دیگر، اگر یک محقق نیاز داشته باشد دهها مقاله پیچیده علمی یا یک دوره کامل ویدئویی را خلاصه و تحلیل کند، Gemini 3 میتواند با تکیه بر پنجره متنی یکمیلیون توکنی خود، دادهها را به شکل یک راهنمای تعاملی، فلشکارتهای هوشمند یا نمودارهای تعلیمی بازسازی کند.
قابلیت تحلیل ویدئو نیز یکی از جذابترین بخشهای معرفی جدید بود. این مدل قادر است یک مسابقه ورزشی آماتور مثل پیکلبال را تحلیل کند و با بررسی فرم بدن و سبک بازی، برنامهای برای بهبود مهارت ارائه دهد؛ قابلیتی که پیشتر تنها در ابزارهای تخصصی و گرانقیمت دیده میشد.
نقش Gemini 3 در آینده جستوجو
گوگل اعلام کرد که برای اولینبار Gemini 3 از همان روز رونمایی در «AI Mode in Search» فعال شده است. این یعنی کاربران هنگام جستوجو با نسل تازهای از رابطهای تولیدی روبهرو میشوند: شبیهسازیهای زنده، بخشهای تصویری پویا و ابزارهای تعاملی که در لحظه ساخته میشوند. اگر یک دانشآموز بخواهد بفهمد RNA polymerase چهطور کار میکند، اکنون میتواند از طریق سرچ، یک مدل بصری و انیمیشنی کامل دریافت کند که موضوع را به سادهترین شکل توضیح میدهد—آن هم با دقتی در حد یک مقاله علمی معتبر.
ساخت هر ایدهای؛ از بازی سهبعدی تا اپلیکیشن کامل
گوگل تأکید کرده که Gemini 3 فقط برای پاسخ دادن ساخته نشده؛ بلکه آمده تا خلق کند. در تستهای توسعه، این مدل از نظر قدرت و اجرای دستورهای پیچیده، عملکردی خارقالعاده نشان داده است. توانایی ساخت UI تعاملی، برنامهنویسی حالتمحور و حتی طراحی بازیهای سهبعدی تنها بخشی از مهارتهایی است که گوگل به آن اشاره کرده.
این مدل با امتیاز بالای 1487 در WebDev Arena و عملکرد قوی در Terminal-Bench 2.0 ثابت کرده که برای توسعهدهندگان، نه یک ابزار کمکی، بلکه یک شریک کاری تمامعیار است. از ساخت بازیهای رترو تا طراحی دنیاهای سهبعدی مبتنی بر وکسل، همهچیز با چند خط دستور قابل پیادهسازی است.
معرفی Google Antigravity؛ پلتفرمی برای توسعهدهی خودکار
یکی از بخشهای مهم و جذاب رونمایی، معرفی پلتفرم «Google Antigravity» بود. محیطی که توسعهدهندگان را یک قدم از کدنویسی سنتی جلوتر میبرد. در این محیط، عاملهای هوش مصنوعی نهتنها پیشنهاد نمیدهند، بلکه خودشان بهصورت مستقل برنامهریزی میکنند، در مرورگر کار میکنند، کد مینویسند، در ترمینال تست میگیرند و اپلیکیشن را تحویل میدهند. این همان نقطهای است که توسعه نرمافزار از «نویسش» فاصله میگیرد و به «ساخت وظیفهمحور» تبدیل میشود.
Antigravity همچنین با مدلهای جانبی مانند Gemini 2.5 Computer Use و Nano Banana ادغام شده تا تجربهای یکپارچه از توسعه مبتنی بر عاملها ارائه دهد.
برنامهریزی هوشمند و اجرای خودکار وظایف پیچیده
Gemini 3 فقط برای تحلیل یا تولید محتوا نیست. بلکه برای انجام کارها نیز ساخته شده است. مدل جدید در آزمون Vending-Bench 2 که مدیریت یک کسبوکار شبیهسازیشده را میسنجد، عملکردی بیمانند داشته و توانسته یک سال کامل را بدون لغزش برنامهریزی کند. این توانایی به این معناست که کاربران میتوانند فراتر از پرسیدن سؤال، انجام کارهای چندمرحلهای را نیز به مدل بسپارند؛ از رزرو خدمات محلی گرفته تا مرتبسازی هوشمند ایمیلها.
ارتقای امنیت و مسئولیتپذیری در مدلهای نسل جدید
گوگل در این رونمایی تأکید ویژهای بر امنیت کرده است. Gemini 3 به گفته مهندسان شرکت، پایدارترین و امنترین مدل تاریخ گوگل است. با مقاومت بیشتر در برابر حملات، کاهش رفتار چاپلوسانه و محافظت بیشتر در برابر سوءاستفادههای سایبری. این مدل تحت آزمایشهای گسترده در همکاری با نهادهای بینالمللی قرار گرفته و قبل از انتشار عمومی، مراحل ارزیابی سختگیرانهای را پشت سر گذاشته است.
آغاز دوره تازه Gemini؛ در محصولات و پلتفرمها
با آغاز عرضه رسمی این مدل، کاربران عادی، توسعهدهندگان و کسبوکارها همگی به نسخههای مختلف Gemini 3 دسترسی پیدا میکنند. این مدل در اپلیکیشن Gemini، حالت جستوجوی هوش مصنوعی، Google AI Studio، Vertex AI و حتی ابزارهای مستقل برنامهنویسی عرضه میشود. گوگل همچنین وعده داده که نسخههای بیشتری از سری Gemini 3 در ماههای آینده ارائه خواهد شد.
منبع: blog.google



