نتایج تازهترین بنچمارکها نشان میدهد که مدل هوش مصنوعی Claude Opus 4.5 با عملکردی فراتر از انتظار، به عنوان یکی از قدرتمندترین مدلها برای حل مسائل واقعی و تخصصی ظاهر شده است. بر اساس دادههای منتشر شده، این مدل در آزمونهای کلیدی توانسته است رقبای سرسخت خود از شرکتهای گوگل و OpenAI را شکست دهد.
در آزمون معتبر SWE-bench که توانایی حل مسائل واقعی برنامهنویسی را میسنجد، کلود اوپوس ۴.۵ به امتیاز شگفتانگیز ۸۰.۹٪ دست یافته است. برای مقایسه، مدل Gemini 3 Pro امتیاز ۷۶.۲٪ و مدل GPT-5.1 امتیاز ۷۶.۳٪ را کسب کردهاند. این برتری نشاندهنده قابلیت اطمینان بالای این مدل در رفع باگهای نرمافزاری است.
همچنین، در این گزارش خبری از کارینا وب که به بررسی جزئیات فنی میپردازیم، مشاهده میشود که برتری اوپوس ۴.۵ تنها به کدنویسی محدود نمیشود. در آزمون Terminal-Bench که مهارت در محیط خط فرمان را میسنجد، این مدل با امتیاز ۵۹.۳٪، بالاتر از جمینای ۳ پرو (۵۴.۲٪) و با اختلاف قابل توجهی بالاتر از GPT-5.1 (با ۴۷.۶٪) قرار گرفته است.
یکی از نکات برجسته این گزارش، جهش فوقالعاده در مهارتهای حل مسئله انتزاعی و غیرکلامی است. کلود اوپوس ۴.۵ در این بخش امتیاز ۳۷.۶٪ را ثبت کرده است که بیش از دو برابر امتیاز GPT-5.1 (با ۱۷.۶٪) و بالاتر از جمینای ۳ پرو (۳۱.۱٪) است. این موضوع نشاندهنده بهبود بنیادی در نحوه “تفکر” و استدلال مدل است.
در آزمون دشوار “Humanity’s Last Exam” که مرزهای دانش بشری را هدف قرار میدهد، اوپوس ۴.۵ با کمک جستجوی وب به امتیاز ۴۳.۲٪ رسیده است که عملکردی همتراز با جمینای ۳ پرو و در لبه تکنولوژی محسوب میشود.
در نهایت، در تستهای مربوط به عاملهای هوشمند مالی (Agentic tasks)، اگرچه جمینای ۳ پرو با سود نهایی ۵,۴۷۸ دلار همچنان پیشتاز است، اما اوپوس ۴.۵ با ثبت سود ۴,۹۶۷ دلار (که ۲۳٪ بیشتر از نسخه Sonnet 4.5 است)، تواناییهای خود را در مدیریت وظایف طولانیمدت و پیچیده اقتصادی اثبات کرده است.
منبع: Vellum.ai



