در دنیای رقابتی هوش مصنوعی، یک مدل ویرایش تصویر مرموز با نام “نانو بنانا” به سرعت توانست صدرنشین جدول LMArena، یکی از معتبرترین پلتفرمهای رتبهبندی مدلهای هوش مصنوعی، شود. این مدل که در رقابتهای رو در رو به راحتی حریفان خود را شکست میداد، اکنون توسط Google DeepMind به طور رسمی معرفی شده است. “نانو بنانا” در واقع نام مستعار Gemini 2.5 Flash Image است که به عنوان ابزاری بومی برای ویرایش تصاویر در Gemini، با هدف بهبود ثبات و دقت در ویرایشها، توسعه یافته است.
پیش از معرفی رسمی، کارکنان گوگل با برخی نکات کوچک به این موضوع اشاره کرده بودند. اما اکنون که این مدل به طور رسمی عرضه شده است، Google DeepMind اعلام کرده که Gemini در ویرایش تصاویر کاربران عملکرد بهتر و پایدارتری خواهد داشت. محصولاتی از این دست، ما را یک گام به دنیای پس از فتوشاپ نزدیکتر میکنند. به جای یادگیری پیچیدگیهای فنی نرمافزارهای ویرایش تصویر که سالها زمان میبرد، ویرایشگرهای تصویر هوش مصنوعی در تئوری این امکان را برای هر کسی فراهم میکنند که با چند دستور متنی یا صوتی ساده، یک تصویر را ویرایش کند.
قابلیتهای مدل جدید Gemini
تیم Google DeepMind میگوید که این مدل به گونهای آموزش دیده است که سوژهها در ویرایشهای مختلف تصاویر تولید شده توسط هوش مصنوعی، ثبات بیشتری داشته باشند. این مسئله به دلیل ماهیت غیرقابل پیشبینی مدلهای هوش مصنوعی تصویر، همواره یکی از چالشهای اصلی بوده است. این گزارش خبری در کارینا وب به بررسی تجربه عملی این مدل نیز پرداخته است. طبق آزمایشهای انجام شده، مدل “نانو بنانا” به خوبی کار میکند، اگرچه بینقص نیست.
قابلیت آپلود و ویرایش بومی تصاویر در Gemini از آوریل سال جاری وجود داشته است. با مدل بهروز شده Gemini، گوگل میگوید میتوانید کارهایی مانند تغییر لباس و مکان یک سوژه را انجام دهید، در حالی که شباهت آن حفظ میشود. همچنین میتوانید چندین عکس را آپلود کرده و سوژهها را در یک تصویر با هم داشته باشید، یا جزئیات خاصی را در یک تصویر آپلود شده اضافه یا تغییر دهید، مثلاً ببینید یک اتاق با رنگ یا مبلمان متفاوت چگونه به نظر میرسد.
با این حال، همانطور که Google DeepMind در اطلاعیه خود نیز اشاره کرد، ممکن است این مدل همیشه نتواند جزئیات دقیق، متن در تصویر و ناسازگاریها را به درستی انجام دهد. به عنوان مثال، در یک آزمایش با تصویر یک سگ، بدن سگ به درستی به حالت مورد نظر تغییر نکرد و بافت موی آن بیش از حد صاف به نظر میرسید، اگرچه رنگبندی، اندازه و شکل کلی آن ثابت ماند.
ویژگیهای امنیتی و نتیجهگیری
تمام تصاویر تولید شده توسط این مدل دارای یک واترمارک قابل مشاهده و یک واترمارک نامرئی به نام SynthID هستند تا هرگونه ابهام در مورد واقعی یا تولید شده توسط هوش مصنوعی بودن آنها برطرف شود. این بهروزرسانی اکنون در اپلیکیشن Gemini در دسترس است و میتوانید خودتان آن را امتحان کنید. این بهروزرسانیها گام مهمی در جهت بهبود تجربه کاربری و افزایش دقت ابزارهای هوش مصنوعی به شمار میآیند و نوید آیندهای را میدهند که در آن ویرایش تصویر برای همه قابل دسترستر خواهد بود.



