قدرت‌نمایی کلود اوپوس ۴.۵ (Claude Opus 4.5)؛ عبور از سد GPT-5.1 و جمینای ۳ پرو

نتایج تازه‌ترین بنچمارک‌ها نشان می‌دهد که مدل هوش مصنوعی Claude Opus 4.5 با عملکردی فراتر از انتظار، به عنوان یکی از قدرتمندترین مدل‌ها برای حل مسائل واقعی و تخصصی ظاهر شده است. بر اساس داده‌های منتشر شده، این مدل در آزمون‌های کلیدی توانسته است رقبای سرسخت خود از شرکت‌های گوگل و OpenAI را شکست دهد.

در آزمون معتبر SWE-bench که توانایی حل مسائل واقعی برنامه‌نویسی را می‌سنجد، کلود اوپوس ۴.۵ به امتیاز شگفت‌انگیز ۸۰.۹٪ دست یافته است. برای مقایسه، مدل Gemini 3 Pro امتیاز ۷۶.۲٪ و مدل GPT-5.1 امتیاز ۷۶.۳٪ را کسب کرده‌اند. این برتری نشان‌دهنده قابلیت اطمینان بالای این مدل در رفع باگ‌های نرم‌افزاری است.

همچنین، در این گزارش خبری از کارینا وب که به بررسی جزئیات فنی می‌پردازیم، مشاهده می‌شود که برتری اوپوس ۴.۵ تنها به کدنویسی محدود نمی‌شود. در آزمون Terminal-Bench که مهارت در محیط خط فرمان را می‌سنجد، این مدل با امتیاز ۵۹.۳٪، بالاتر از جمینای ۳ پرو (۵۴.۲٪) و با اختلاف قابل توجهی بالاتر از GPT-5.1 (با ۴۷.۶٪) قرار گرفته است.

یکی از نکات برجسته این گزارش، جهش فوق‌العاده در مهارت‌های حل مسئله انتزاعی و غیرکلامی است. کلود اوپوس ۴.۵ در این بخش امتیاز ۳۷.۶٪ را ثبت کرده است که بیش از دو برابر امتیاز GPT-5.1 (با ۱۷.۶٪) و بالاتر از جمینای ۳ پرو (۳۱.۱٪) است. این موضوع نشان‌دهنده بهبود بنیادی در نحوه “تفکر” و استدلال مدل است.

در آزمون دشوار “Humanity’s Last Exam” که مرزهای دانش بشری را هدف قرار می‌دهد، اوپوس ۴.۵ با کمک جستجوی وب به امتیاز ۴۳.۲٪ رسیده است که عملکردی هم‌تراز با جمینای ۳ پرو و در لبه تکنولوژی محسوب می‌شود.

در نهایت، در تست‌های مربوط به عامل‌های هوشمند مالی (Agentic tasks)، اگرچه جمینای ۳ پرو با سود نهایی ۵,۴۷۸ دلار همچنان پیشتاز است، اما اوپوس ۴.۵ با ثبت سود ۴,۹۶۷ دلار (که ۲۳٪ بیشتر از نسخه Sonnet 4.5 است)، توانایی‌های خود را در مدیریت وظایف طولانی‌مدت و پیچیده اقتصادی اثبات کرده است.

گوگل پس از سال‌ها، سرانجام به کاربران اجازه می‌دهد آدرس Gmail خود را تغییر دهند

منبع: Vellum.ai