گوگل از مدل ویرایش تصویر هوش مصنوعی "نانو بنانا" که صدرنشین جدول LMArena بود، رونمایی کرد

در دنیای رقابتی هوش مصنوعی، یک مدل ویرایش تصویر مرموز با نام “نانو بنانا” به سرعت توانست صدرنشین جدول LMArena، یکی از معتبرترین پلتفرم‌های رتبه‌بندی مدل‌های هوش مصنوعی، شود. این مدل که در رقابت‌های رو در رو به راحتی حریفان خود را شکست می‌داد، اکنون توسط Google DeepMind به طور رسمی معرفی شده است. “نانو بنانا” در واقع نام مستعار Gemini 2.5 Flash Image است که به عنوان ابزاری بومی برای ویرایش تصاویر در Gemini، با هدف بهبود ثبات و دقت در ویرایش‌ها، توسعه یافته است.

پیش از معرفی رسمی، کارکنان گوگل با برخی نکات کوچک به این موضوع اشاره کرده بودند. اما اکنون که این مدل به طور رسمی عرضه شده است، Google DeepMind اعلام کرده که Gemini در ویرایش تصاویر کاربران عملکرد بهتر و پایدارتری خواهد داشت. محصولاتی از این دست، ما را یک گام به دنیای پس از فتوشاپ نزدیک‌تر می‌کنند. به جای یادگیری پیچیدگی‌های فنی نرم‌افزارهای ویرایش تصویر که سال‌ها زمان می‌برد، ویرایشگرهای تصویر هوش مصنوعی در تئوری این امکان را برای هر کسی فراهم می‌کنند که با چند دستور متنی یا صوتی ساده، یک تصویر را ویرایش کند.

قابلیت‌های مدل جدید Gemini

تیم Google DeepMind می‌گوید که این مدل به گونه‌ای آموزش دیده است که سوژه‌ها در ویرایش‌های مختلف تصاویر تولید شده توسط هوش مصنوعی، ثبات بیشتری داشته باشند. این مسئله به دلیل ماهیت غیرقابل پیش‌بینی مدل‌های هوش مصنوعی تصویر، همواره یکی از چالش‌های اصلی بوده است. این گزارش خبری در کارینا وب به بررسی تجربه عملی این مدل نیز پرداخته است. طبق آزمایش‌های انجام شده، مدل “نانو بنانا” به خوبی کار می‌کند، اگرچه بی‌نقص نیست.

قابلیت آپلود و ویرایش بومی تصاویر در Gemini از آوریل سال جاری وجود داشته است. با مدل به‌روز شده Gemini، گوگل می‌گوید می‌توانید کارهایی مانند تغییر لباس و مکان یک سوژه را انجام دهید، در حالی که شباهت آن حفظ می‌شود. همچنین می‌توانید چندین عکس را آپلود کرده و سوژه‌ها را در یک تصویر با هم داشته باشید، یا جزئیات خاصی را در یک تصویر آپلود شده اضافه یا تغییر دهید، مثلاً ببینید یک اتاق با رنگ یا مبلمان متفاوت چگونه به نظر می‌رسد.

اپل در رویداد جدید خود، سخت‌افزار هوش مصنوعی آیفون را در کانون توجه قرار داد، نه ویژگی‌ها را

با این حال، همانطور که Google DeepMind در اطلاعیه خود نیز اشاره کرد، ممکن است این مدل همیشه نتواند جزئیات دقیق، متن در تصویر و ناسازگاری‌ها را به درستی انجام دهد. به عنوان مثال، در یک آزمایش با تصویر یک سگ، بدن سگ به درستی به حالت مورد نظر تغییر نکرد و بافت موی آن بیش از حد صاف به نظر می‌رسید، اگرچه رنگ‌بندی، اندازه و شکل کلی آن ثابت ماند.

ویژگی‌های امنیتی و نتیجه‌گیری

تمام تصاویر تولید شده توسط این مدل دارای یک واترمارک قابل مشاهده و یک واترمارک نامرئی به نام SynthID هستند تا هرگونه ابهام در مورد واقعی یا تولید شده توسط هوش مصنوعی بودن آنها برطرف شود. این به‌روزرسانی اکنون در اپلیکیشن Gemini در دسترس است و می‌توانید خودتان آن را امتحان کنید. این به‌روزرسانی‌ها گام مهمی در جهت بهبود تجربه کاربری و افزایش دقت ابزارهای هوش مصنوعی به شمار می‌آیند و نوید آینده‌ای را می‌دهند که در آن ویرایش تصویر برای همه قابل دسترس‌تر خواهد بود.

دیدگاهتان را بنویسید

خدمات دیگر...

مشاوره

تولید محتوا

سئو سایت

طراحی سایت

خدمات دیگر...

مشاوره

تولید محتوا

سئو سایت

طراحی سایت

گوگل از مدل ویرایش تصویر هوش مصنوعی “نانو بنانا” که صدرنشین جدول LMArena بود، رونمایی کرد

فهرست مطالعه سریع:

قابلیت‌های مدل جدید Gemini

ویژگی‌های امنیتی و نتیجه‌گیری

کارینا وب

دیگر مقالات و اخبار

بهترین لوکیشن های عکاسی در کاشان

اشتباهات رایج سئو در تهران که کسب‌وکار شما را نابود می‌کند

سئو برای رستوران‌ها و کافه‌ها در تهران: راهنمای دیده شدن در نتایج محلی

سئو سایت املاک در تهران: چگونه مشتری واقعی برای خرید یا اجاره پیدا کنیم؟

نظرات

دیدگاهتان را بنویسید لغو پاسخ