الجی AI Research از مدل جدید هوش مصنوعی خود به نام EXAONE Deep رونمایی کرد. این مدل با توانایی استدلال پیشرفته، در حل مسائل پیچیده ریاضی، علوم و برنامهنویسی عملکردی پیشرو دارد.
طبق اعلام الجی، توسعه مدلهای هوش مصنوعی با توانایی استدلال قوی یک چالش جهانی است و در حال حاضر تنها تعداد کمی از سازمانهایی که مدلهای پایهای در اختیار دارند، به طور جدی در این حوزه فعالیت میکنند. EXAONE Deep قصد دارد تا با مدلهای برتر دنیا رقابت کند و مهارت استدلالی قابل توجهی ارائه دهد.
این شرکت تمرکز خود را بر افزایش قابل ملاحظه توانایی استدلال این مدل در حوزههای کلیدی گذاشته است. همچنین، EXAONE Deep توانایی بالایی در درک و استفاده از دانش در طیف گستردهای از موضوعات نشان داده است.
عملکرد چشمگیر EXAONE Deep
بررسیهای منتشر شده از سوی الجی نشان میدهند که این مدل عملکرد فوقالعادهای از خود نشان داده است:
- ریاضی: مدل 32 میلیارد پارامتری (32B) EXAONE Deep توانست از یک مدل رقیب پیشی بگیرد، در حالی که تنها 5٪ از اندازه آن بود. همچنین، مدلهای 7.8B و 2.4B در تمام معیارهای اصلی ریاضی برای اندازههای خود در صدر جدول قرار گرفتند.
- علوم و برنامهنویسی: مدلهای 7.8B و 2.4B به رتبه اول در تمامی آزمونهای معیار این حوزهها دست یافتند.
- MMLU: مدل 32B امتیاز 83.0 را در آزمون MMLU کسب کرد که به گفته الجی، بالاترین عملکرد برای یک مدل کرهای در این آزمایش است.
شناخت بینالمللی
تواناییهای مدل 32B EXAONE Deep باعث شد که به سرعت در لیست «مدلهای برجسته هوش مصنوعی» سازمان تحقیقاتی غیرانتفاعی آمریکایی Epoch AI قرار گیرد. این مدل در کنار نسخه قبلی خود، یعنی EXAONE 3.5، تنها نماینده کرهای است که طی دو سال گذشته در این لیست معتبر قرار گرفته است.
مهارت برتر در ریاضیات
EXAONE Deep در تمامی اندازههای خود (32B، 7.8B و 2.4B) توانایی فوقالعادهای در حل مسائل ریاضی نشان داده است. بر اساس آزمونهای مبتنی بر برنامه درسی سال تحصیلی 2025، تمامی این مدلها از مدلهای استدلالی جهانی همرده خود عملکرد بهتری داشتند.
مدل 32B امتیاز 94.5 را در یک آزمون جامع ریاضی و 90.0 را در آزمون AIME 2024 کسب کرد که یکی از ملاکهای صلاحیت برای المپیاد ریاضی ایالات متحده است.
در آزمون AIME 2025، مدل 32B توانست عملکردی مشابه DeepSeek-R1 (یک مدل 671B بسیار بزرگتر) داشته باشد. این نتیجه نشاندهنده کارایی یادگیری و استدلال منطقی قوی این مدل است، به ویژه در مواجهه با مسائل پیچیده ریاضی.
مدلهای کوچکتر 7.8B و 2.4B نیز در آزمونهای مرجع مدلهای سبک و مبتنی بر دستگاه، رتبههای برتر را به خود اختصاص دادند. مدل 7.8B امتیاز 94.8 را در آزمون MATH-500 و 59.6 را در AIME 2025 کسب کرد. مدل 2.4B نیز امتیازهای 92.3 و 47.9 را در این آزمونها به دست آورد.
برتری در علوم و برنامهنویسی
EXAONE Deep همچنین در زمینه استدلال علمی حرفهای و کدنویسی نرمافزار عملکرد بینظیری داشته است.
مدل 32B امتیاز 66.1 را در آزمون GPQA Diamond که توانایی حل مسائل در فیزیک، شیمی و زیستشناسی در سطح دکتری را ارزیابی میکند، به دست آورد. همچنین، در آزمون LiveCodeBench که مهارت کدنویسی را میسنجد، امتیاز 59.5 را کسب کرد و نشان داد که توانایی بالایی برای کاربردهای پیشرفته در این حوزهها دارد.
مدلهای 7.8B و 2.4B همین روند موفقیت را ادامه دادند و در آزمونهای GPQA Diamond و LiveCodeBench به رتبه اول در دستهبندی اندازه مدلهای خود دست یافتند. این موفقیت ادامهدهنده نتایج درخشان مدل EXAONE 3.5 2.4B است که قبلاً در دستهبندی Edge رتبه اول را در فهرست LLM Hugging Face کسب کرده بود.
افزایش دانش عمومی
علاوه بر قابلیتهای استدلالی تخصصی، EXAONE Deep بهبود قابل توجهی در درک دانش عمومی نیز نشان داده است.
مدل 32B امتیاز 83.0 را در آزمون MMLU کسب کرد که نشان میدهد این مدل نه تنها در حوزههای خاص، بلکه درک وسیعتر و جامعتری از موضوعات مختلف دارد.
الجی AI Research باور دارد که پیشرفتهای استدلالی EXAONE Deep گامی بزرگ بهسوی آیندهای است که در آن هوش مصنوعی میتواند مسائل پیچیده را حل کرده و با تحقیقات و نوآوریهای مستمر، زندگی انسانها را سادهتر و غنیتر کند.