لوگو کارینا وب

قدرت‌نمایی کلود اوپوس ۴.۵ (Claude Opus 4.5)؛ عبور از سد GPT-5.1 و جمینای ۳ پرو

مدل زبانی جدید آنتروپیک، Claude Opus 4.5، با ثبت رکوردهای خیره‌کننده در بنچمارک‌های کدنویسی و استدلال انتزاعی، استانداردهای جدیدی را تعریف کرده است. این مدل با کسب امتیاز ۸۰.۹٪ در آزمون SWE-bench، رقبای اصلی خود یعنی GPT-5.1 و Gemini 3 Pro را پشت سر گذاشته و جهشی بزرگ در حل مسائل پیچیده غیرکلامی نشان داده است.

فهرست مطالعه سریع:

نتایج تازه‌ترین بنچمارک‌ها نشان می‌دهد که مدل هوش مصنوعی Claude Opus 4.5 با عملکردی فراتر از انتظار، به عنوان یکی از قدرتمندترین مدل‌ها برای حل مسائل واقعی و تخصصی ظاهر شده است. بر اساس داده‌های منتشر شده، این مدل در آزمون‌های کلیدی توانسته است رقبای سرسخت خود از شرکت‌های گوگل و OpenAI را شکست دهد.

در آزمون معتبر SWE-bench که توانایی حل مسائل واقعی برنامه‌نویسی را می‌سنجد، کلود اوپوس ۴.۵ به امتیاز شگفت‌انگیز ۸۰.۹٪ دست یافته است. برای مقایسه، مدل Gemini 3 Pro امتیاز ۷۶.۲٪ و مدل GPT-5.1 امتیاز ۷۶.۳٪ را کسب کرده‌اند. این برتری نشان‌دهنده قابلیت اطمینان بالای این مدل در رفع باگ‌های نرم‌افزاری است.

همچنین، در این گزارش خبری از کارینا وب که به بررسی جزئیات فنی می‌پردازیم، مشاهده می‌شود که برتری اوپوس ۴.۵ تنها به کدنویسی محدود نمی‌شود. در آزمون Terminal-Bench که مهارت در محیط خط فرمان را می‌سنجد، این مدل با امتیاز ۵۹.۳٪، بالاتر از جمینای ۳ پرو (۵۴.۲٪) و با اختلاف قابل توجهی بالاتر از GPT-5.1 (با ۴۷.۶٪) قرار گرفته است.

یکی از نکات برجسته این گزارش، جهش فوق‌العاده در مهارت‌های حل مسئله انتزاعی و غیرکلامی است. کلود اوپوس ۴.۵ در این بخش امتیاز ۳۷.۶٪ را ثبت کرده است که بیش از دو برابر امتیاز GPT-5.1 (با ۱۷.۶٪) و بالاتر از جمینای ۳ پرو (۳۱.۱٪) است. این موضوع نشان‌دهنده بهبود بنیادی در نحوه “تفکر” و استدلال مدل است.

در آزمون دشوار “Humanity’s Last Exam” که مرزهای دانش بشری را هدف قرار می‌دهد، اوپوس ۴.۵ با کمک جستجوی وب به امتیاز ۴۳.۲٪ رسیده است که عملکردی هم‌تراز با جمینای ۳ پرو و در لبه تکنولوژی محسوب می‌شود.

در نهایت، در تست‌های مربوط به عامل‌های هوشمند مالی (Agentic tasks)، اگرچه جمینای ۳ پرو با سود نهایی ۵,۴۷۸ دلار همچنان پیشتاز است، اما اوپوس ۴.۵ با ثبت سود ۴,۹۶۷ دلار (که ۲۳٪ بیشتر از نسخه Sonnet 4.5 است)، توانایی‌های خود را در مدیریت وظایف طولانی‌مدت و پیچیده اقتصادی اثبات کرده است.

منبع: Vellum.ai

تصویر کارینا وب
کارینا وب

ما اینجا براتون روی بهترین آموزش ها، مقالات و اخبار بروز دیجیتال مارکتینگ، سئو SEO سایت، هوش مصنوعی و کدنویسی و شبکه و امنیت سایبری کار میکنیم. تا با هم رشد کنیم :) سوال یا انتقادی داشتین کامنت بزارین همین زیر چون قول میدیم که سریع بخونیم و جواب بدیم :))

دیگر مقالات و اخبار

نظرات

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *