لوگو کارینا وب

گوگل از مدل ویرایش تصویر هوش مصنوعی “نانو بنانا” که صدرنشین جدول LMArena بود، رونمایی کرد

مدل مرموز و قدرتمند ویرایش تصویر هوش مصنوعی "نانو بنانا" که اخیراً صدرنشین جدول LMArena، محبوب‌ترین تابلوی امتیازدهی هوش مصنوعی شد، اکنون توسط Google DeepMind فاش شده است. این مدل در واقع نام مستعار Gemini 2.5 Flash Image است که به کاربران امکان ویرایش تصاویر را با دستورات متنی و صوتی ساده می‌دهد و گامی به سوی دنیای پس از فتوشاپ به شمار می‌رود. این گزارش خبری در کارینا وب به جزئیات این مدل جدید و قابلیت‌های آن خواهد پرداخت.

فهرست مطالعه سریع:

در دنیای رقابتی هوش مصنوعی، یک مدل ویرایش تصویر مرموز با نام “نانو بنانا” به سرعت توانست صدرنشین جدول LMArena، یکی از معتبرترین پلتفرم‌های رتبه‌بندی مدل‌های هوش مصنوعی، شود. این مدل که در رقابت‌های رو در رو به راحتی حریفان خود را شکست می‌داد، اکنون توسط Google DeepMind به طور رسمی معرفی شده است. “نانو بنانا” در واقع نام مستعار Gemini 2.5 Flash Image است که به عنوان ابزاری بومی برای ویرایش تصاویر در Gemini، با هدف بهبود ثبات و دقت در ویرایش‌ها، توسعه یافته است.

پیش از معرفی رسمی، کارکنان گوگل با برخی نکات کوچک به این موضوع اشاره کرده بودند. اما اکنون که این مدل به طور رسمی عرضه شده است، Google DeepMind اعلام کرده که Gemini در ویرایش تصاویر کاربران عملکرد بهتر و پایدارتری خواهد داشت. محصولاتی از این دست، ما را یک گام به دنیای پس از فتوشاپ نزدیک‌تر می‌کنند. به جای یادگیری پیچیدگی‌های فنی نرم‌افزارهای ویرایش تصویر که سال‌ها زمان می‌برد، ویرایشگرهای تصویر هوش مصنوعی در تئوری این امکان را برای هر کسی فراهم می‌کنند که با چند دستور متنی یا صوتی ساده، یک تصویر را ویرایش کند.

 

قابلیت‌های مدل جدید Gemini

تیم Google DeepMind می‌گوید که این مدل به گونه‌ای آموزش دیده است که سوژه‌ها در ویرایش‌های مختلف تصاویر تولید شده توسط هوش مصنوعی، ثبات بیشتری داشته باشند. این مسئله به دلیل ماهیت غیرقابل پیش‌بینی مدل‌های هوش مصنوعی تصویر، همواره یکی از چالش‌های اصلی بوده است. این گزارش خبری در کارینا وب به بررسی تجربه عملی این مدل نیز پرداخته است. طبق آزمایش‌های انجام شده، مدل “نانو بنانا” به خوبی کار می‌کند، اگرچه بی‌نقص نیست.

قابلیت آپلود و ویرایش بومی تصاویر در Gemini از آوریل سال جاری وجود داشته است. با مدل به‌روز شده Gemini، گوگل می‌گوید می‌توانید کارهایی مانند تغییر لباس و مکان یک سوژه را انجام دهید، در حالی که شباهت آن حفظ می‌شود. همچنین می‌توانید چندین عکس را آپلود کرده و سوژه‌ها را در یک تصویر با هم داشته باشید، یا جزئیات خاصی را در یک تصویر آپلود شده اضافه یا تغییر دهید، مثلاً ببینید یک اتاق با رنگ یا مبلمان متفاوت چگونه به نظر می‌رسد.

با این حال، همانطور که Google DeepMind در اطلاعیه خود نیز اشاره کرد، ممکن است این مدل همیشه نتواند جزئیات دقیق، متن در تصویر و ناسازگاری‌ها را به درستی انجام دهد. به عنوان مثال، در یک آزمایش با تصویر یک سگ، بدن سگ به درستی به حالت مورد نظر تغییر نکرد و بافت موی آن بیش از حد صاف به نظر می‌رسید، اگرچه رنگ‌بندی، اندازه و شکل کلی آن ثابت ماند.

 

ویژگی‌های امنیتی و نتیجه‌گیری

تمام تصاویر تولید شده توسط این مدل دارای یک واترمارک قابل مشاهده و یک واترمارک نامرئی به نام SynthID هستند تا هرگونه ابهام در مورد واقعی یا تولید شده توسط هوش مصنوعی بودن آنها برطرف شود. این به‌روزرسانی اکنون در اپلیکیشن Gemini در دسترس است و می‌توانید خودتان آن را امتحان کنید. این به‌روزرسانی‌ها گام مهمی در جهت بهبود تجربه کاربری و افزایش دقت ابزارهای هوش مصنوعی به شمار می‌آیند و نوید آینده‌ای را می‌دهند که در آن ویرایش تصویر برای همه قابل دسترس‌تر خواهد بود.

تصویر کارینا وب
کارینا وب

ما اینجا براتون روی بهترین آموزش ها، مقالات و اخبار بروز دیجیتال مارکتینگ، سئو SEO سایت، هوش مصنوعی و کدنویسی و شبکه و امنیت سایبری کار میکنیم. تا با هم رشد کنیم :) سوال یا انتقادی داشتین کامنت بزارین همین زیر چون قول میدیم که سریع بخونیم و جواب بدیم :))

دیگر مقالات و اخبار

نظرات

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *