شرکت گوگل با معرفی مدل هوش مصنوعی آیمجن ۴ گامی بزرگ در حوزه خلق تصویر از متن برداشته است. این مدل که در رویداد Google I/O ۲۰۲۵ معرفی شد، نسبت به نسخههای قبلی خود پیشرفتهای قابل توجهی در کیفیت و سرعت تولید تصاویر دارد. آیمجن ۴ با تمرکز بر دقت، جزئیات و نورپردازی طبیعی، به ابزاری قدرتمند برای طراحان، توسعهدهندگان و حتی کاربران عادی تبدیل شده است.
ویژگیهای برجسته ایمجن ۴
در این گزارش خبری در کارینا وب، به بررسی مهمترین قابلیتهای این مدل میپردازیم:
- صحنههای پیچیده و چندلایه: آیمجن ۴ در مدیریت ترکیببندیهای شلوغ و پیچیده عالی عمل میکند. اگر دستورات متنی شما شامل چندین کاراکتر، محیطهای چندلایه یا تعاملات خاص باشد، این مدل تصاویر منسجمی را بدون درهمریختگی یا تداخل عناصر مختلف تولید میکند.
- نورپردازی طبیعی و سایههای دقیق: یکی از ویژگیهای برجسته آیمجن ۴، قابلیت رندر کردن نور و سایه با جزئیات دقیق و نویز کم است. این ویژگی برای خلق محیطهای واقعگرایانه یا صحنههای دراماتیک که عمق و اتمسفر در آنها اهمیت دارد، بسیار مناسب است.
- جزئیات بالا و وضوح بیشتر: از بافت پوست و چینهای پارچه گرفته تا قطعات مکانیکی و انعکاسها، آیمجن ۴ در خلق جزئیات خیرهکننده عمل میکند. این مدل برای رندرهای نمای نزدیک و لحظات سینمایی بسیار مناسب است و تصاویر را با کیفیت بالا و بدون آرتیفکتهای ناخواسته تولید میکند.
- تولید متن دقیق: یکی از مشکلات رایج مدلهای تولید تصویر هوش مصنوعی، ناتوانی در نوشتن متنهای خوانا و بدون خطا بود. آیمجن ۴ این مشکل را حل کرده است. این مدل میتواند متنهای خوانا و دقیقی را برای تابلوها، پوسترها، کارتپستالها و المانهای رابط کاربری تولید کند.
خانواده ایمجن ۴: نسخههای ایمجن ۴ و ایمجن ۴ اولترا
گوگل دو نسخه از این مدل را برای پاسخگویی به نیازهای مختلف کاربران ارائه کرده است:
- آیمجن ۴: این مدل پرچمدار، برای انجام اکثر کارهای تولید تصویر مناسب است و نسبت به نسخه قبلی خود، آیمجن ۳، بهبودهای قابل توجهی در کیفیت، به ویژه در تولید متن، دارد. هزینه استفاده از این مدل ۰.۰۴ دلار به ازای هر تصویر است.
- آیمجن ۴ اولترا: این نسخه برای تولید تصاویری طراحی شده که نیاز به دقت بالا در پیروی از دستورات متنی دارند. آیمجن ۴ اولترا نتایجی بسیار دقیقتر و منطبق بر پرامپتهای پیچیده ارائه میدهد و هزینه استفاده از آن ۰.۰۶ دلار به ازای هر تصویر است.
برای حفظ اعتماد و شفافیت، تمام تصاویر تولیدشده توسط مدلهای ایمجن ۴ به یک واترمارک دیجیتال نامرئی SynthID مجهز هستند.
دسترسی به ایمجن ۴
در حال حاضر، آیمجن ۴ در قالب پیشنمایش پولی در API جیمنای (Gemini API) و برای تست محدود و رایگان در Google AI Studio در دسترس قرار گرفته است. همچنین، استودیوهای بازیسازی میتوانند از طریق پلتفرم Layer به این مدل دسترسی داشته باشند. گوگل در آینده نزدیک، این مدل را در پلتفرمهای دیگر خود مانند Gemini، Google Slides، Vids و Docs نیز ادغام خواهد کرد.
منبع: googleblog.com