شرکت انتروپیک (Anthropic) بهطور رسمی از مدل جدید هوش مصنوعی خود با نام Claude Sonnet 4.5 رونمایی کرده است. به گفته این شرکت، این مدل در حال حاضر بهترین ابزار کدنویسی هوش مصنوعی در جهان است. بر اساس نتایج بنچمارکهای معتبر، این مدل نه تنها از نسخههای قبلی خودش بلکه از رقبا سرسختی مانند Gemini 2.5 Pro گوگل و GPT-5 شرکت OpenAI نیز عملکرد بهتری داشته است.
این مدل تنها کمتر از شش ماه پس از عرضه مدلهای Sonnet 4 و Opus 4 منتشر شده و نسخه ارتقاءیافتهای از همان Sonnet 4 محسوب میشود.
عملکرد بیرقیب در بنچمارکها
برای بررسی صحت این ادعاها، نگاهی به نتایج چند بنچمارک بیاندازیم. در بنچمارک OSWorld که برای سنجش توانایی مدلها در انجام وظایف واقعی کامپیوتری طراحی شده، Sonnet 4.5 امتیاز ۶۱.۴٪ را کسب کرده است؛ این عدد، حدود ۱۷٪ بهتر از مدل Opus 4.1 است که قیمت بالاتری دارد. جالب است که فقط چهار ماه پیش، مدل Sonnet 4 با امتیاز ۴۲.۲٪ در صدر این لیست قرار داشت.
در بنچمارک مهم دیگری به نام SWE-Bench Verified که تواناییهای واقعی مهندسی نرمافزار را میسنجد، این مدل موفق به کسب نتایج قوی شده و طبق ادعای انتروپیک، میتواند برنامههای قابل استفاده در محیط تولید (production-ready) بسازد، نه صرفاً نمونههای اولیه.
دیوید هرشی، محقق ارشد هوش مصنوعی در انتروپیک، گفته که عملکرد واقعی مدل را نمیتوان فقط با بنچمارکها توصیف کرد. او اشاره کرده که در برخی آزمایشهای اولیه با مشتریان سازمانی، مشاهده شده این مدل توانسته تا ۳۰ ساعت بهصورت خودکار و بدون توقف کدنویسی کند.
۳۰ ساعت کار خودکار و بدون وقفه
یکی از ویژگیهای برجسته Sonnet 4.5، توانایی انجام کارهای طولانیمدت است. این مدل میتواند بیش از ۳۰ ساعت به صورت پیوسته روی پروژههای چندمرحلهای کار کند — که این رقم نسبت به مدل Opus 4 (با حدود ۷ ساعت توان عملیاتی) یک پیشرفت چشمگیر است.
این توانمندی، گامی مهم برای ساخت عاملهای هوش مصنوعی (agentic systems) به شمار میرود. به گفته دیوید هرشی، مدل در طول این ۳۰ ساعت نهتنها یک اپلیکیشن ساخته، بلکه سرویسهای دیتابیس راهاندازی کرده، دامنه خریده و حتی یک ممیزی امنیتی SOC 2 انجام داده است.
برای کسبوکارها، چنین قابلیتهایی میتواند به کاهش نیاز به نظارت انسانی، پایین آوردن هزینهها و افزایش سرعت عملیات منجر شود.
ایمنترین مدل انتروپیک تا به امروز
انتروپیک میگوید Claude Sonnet 4.5 ایمنترین مدل در تاریخ این شرکت است. آموزشهای گستردهای برای کاهش رفتارهای نگرانکننده مانند چاپلوسی، فریب، قدرتطلبی و تشویق تفکر توهمی در آن اعمال شدهاند — رفتارهایی که اخیراً در مدلهای رقیب، مشکلاتی ایجاد کردهاند.
همچنین محافظتهای این مدل در برابر حملات تزریق پرامپت (prompt injection) تقویت شده و تحت چارچوب سطح ایمنی ۳ (ASL-3) منتشر شده است. این سطح شامل فیلترهایی برای جلوگیری از تولید محتواهای خطرناک در حوزههای شیمیایی، بیولوژیکی، و هستهای است.
ابزارها و قابلیتهای جدید در دسترس همگان
مدل Sonnet 4.5 همراه با مجموعهای از ارتقاءها و ابزارهای جدید ارائه شده است:
- Claude Code: رابط ترمینال جدید به همراه قابلیت چکپوینت که امکان ذخیرهسازی مراحل و بازگشت به وضعیت قبلی را فراهم میکند.
- ساخت فایلها: اکنون امکان ساخت مستقیم فایلهای اکسل، اسلاید و سندهای متنی در چت فراهم شده است.
- Claude for Chrome: افزونه کروم برای کاربران پلن Max که پیشتر در لیست انتظار بودند، در دسترس قرار گرفته.
- Claude Agent SDK: این SDK زیرساختهای داخلی توسعه Claude را در اختیار برنامهنویسان قرار میدهد تا بتوانند عاملهای هوش مصنوعی خود را بسازند.
- Imagine with Claude: یک پیشنمایش تحقیقاتی موقتی برای مشترکین Max که توانایی تولید نرمافزار در لحظه را نمایش میدهد.
قیمتگذاری و جایگاه در بازار
قیمت استفاده از API این مدل بدون تغییر باقی مانده: ۳ دلار برای هر یک میلیون توکن ورودی و ۱۵ دلار برای توکنهای خروجی.
مدلهای Claude در سال گذشته بهشدت بین توسعهدهندگان و شرکتها محبوب شدهاند، بهویژه به خاطر عملکردشان در کارهای مهندسی نرمافزار. گزارش شده که شرکتهایی مانند اپل و متا از این مدلها به صورت داخلی استفاده میکنند. همچنین انتروپیک از طریق ارائه API به اپلیکیشنهایی مانند Cursor، Windsurf و Replit، موفق به ایجاد یک جریان درآمدی خوب شده است.
براساس یک مطالعه، بیشترین استفاده از Claude در سطح جهان مربوط به کارهای ریاضی و کدنویسی (۳۶٪) بوده و حدود ۷۷٪ از درخواستهای API برای اتوماسیون وظایف است، نه صرفاً مشاوره.
بازخورد مشتریان اولیه
- مایکل ترول، مدیرعامل Cursor: «عملکرد کدنویسی Sonnet 4.5 در سطح بهترینهای جهانه، مخصوصاً در پروژههایی که زمانبر هستن.»
- جف وانگ، مدیرعامل Windsurf: «Sonnet 4.5 نماینده نسل جدیدی از مدلهای کدنویسیه.»
- GitHub Copilot: «ارزیابیهای اولیه ما نشان میدهد مدل در استدلال چندمرحلهای و درک کد پیشرفت قابل توجهی داشته.»
- Canva: «این مدل هوشمندتر از قبل به نظر میرسه و جهشی بزرگ برای افزایش قابلیتهای ما در خدمترسانی به بیش از ۲۴۰ میلیون کاربر محسوب میشه.»
- Devin: «Sonnet 4.5 دقت برنامهریزی رو ۱۸٪ و امتیازات کلی رو ۱۲٪ افزایش داده. این بزرگترین جهشیه که از زمان عرضه Claude Sonnet 3.6 دیدیم.»
منبع: anthropic.com



