میانبرهای منحصر‌به‌فرد ریاضی مدل‌های زبانی برای پیش‌بینی سناریوهای پویا

در حین خواندن یک داستان یا بازی شطرنج، ذهن انسان به‌طور ناخودآگاه تغییرات در وضعیت جهان را دنبال می‌کند؛ به عبارتی، رویدادها را به‌صورت پیوسته ردیابی می‌کنیم تا پیش‌بینی کنیم که چه اتفاقی در آینده خواهد افتاد. مدل‌های زبانی مانند ChatGPT نیز عملکرد مشابهی دارند؛ آن‌ها هنگام تکمیل یک کد یا حدس زدن جمله بعدی شما، تغییرات را در «ذهن» داخلی خود دنبال می‌کنند. با این حال، پیش‌بینی‌های آن‌ها همیشه دقیق نیست چون گاهی الگوهای فکری‌شان اشتباه است.

محققان MIT در مطالعه‌ای جدید که در همکاری بین آزمایشگاه علوم رایانه و هوش مصنوعی (CSAIL) و بخش مهندسی برق و علوم رایانه انجام شده، دریافته‌اند که مدل‌های زبانی در عوض پیروی از روند منطقی گام‌به‌گام، از میان‌برهای ریاضی زیرکانه برای پردازش وضعیت‌های پویا استفاده می‌کنند. آن‌ها با تحلیل توان مدل‌ها در ردیابی موقعیت اشیا در حال حرکت سریع، متوجه شدند می‌توان با دستکاری برخی مکانیزم‌های داخلی، توان پیش‌بینی این سیستم‌ها را بهبود داد.

بازی پوسته‌ای

محققان برای تشریح فرآیندهای درونی مدل‌ها، از یک آزمایش جالب الهام‌گرفته از بازی‌های تمرکزی کلاسیک استفاده کردند؛ همان بازی که یک شیء زیر لیوان پنهان و سپس جابجا می‌شود. در این آزمایش، مدل‌ها باید ترتیب نهایی چند عدد (یا همان جایگشت) را حدس می‌زدند. آن‌ها پشت‌سرهم یک رشته ارقام اولیه مانند «۴۲۱۳۵» می‌گرفتند و دستورالعمل‌هایی مثل جابجایی عدد ۴ به موقعیت سوم و…، اما بدون دیدن نتیجه نهایی.

مدل‌های مبتنی بر ترنسفورمر، به‌مرور یاد گرفتند که چگونه ترتیب نهایی را پیش‌بینی کنند. آن‌ها به‌جای اجرای مستقیم دستورات، اطلاعات را بین مراحل مختلف پردازش کرده و از تجمیع نتایج، جایگشت نهایی را محاسبه کردند.

یکی از الگوهای اصلی که شناسایی شد، «الگوریتم تجمیعی» (Associative Algorithm) بود که مراحل نزدیک را گروه‌بندی کرده و در نهایت یک تخمین کلی ارائه می‌داد. ساختار این فرایند شبیه به درخت است: ترتیب اولیه به‌عنوان ریشه، مراحل بعدی در شاخه‌ها و در انتها با ضرب نتایج هر شاخه، به پاسخ نهایی می‌رسد.

الگوی دیگر یعنی «الگوریتم تجمیعی-زوجیت» (Parity-Associative)، با حذف تدریجی گزینه‌ها قبل از گروه‌بندی کار می‌کند. این الگوریتم ابتدا تعداد جابجایی‌ها را بررسی می‌کند که فرد است یا زوج، سپس داده‌ها را مانند الگوریتم اول گروه‌بندی و ضرب می‌نماید.

پشت پرده ذهن مدل‌های زبانی

برای کشف چگونگی عملکرد این الگوریتم‌ها، محققان از ابزارهایی مانند «بررسی اطلاعات» (probing) استفاده کردند؛ روشی که مسیر اطلاعات درون شبکه را مشخص می‌سازد. همچنین از «وصله‌گذاری فعال‌سازی» (activation patching) بهره بردند؛ روشی که در آن بخشی از اطلاعات سیستم به‌طور مصنوعی تغییر داده می‌شود تا مشاهده شود که مدل چگونه واکنش نشان می‌دهد.

نتایج نشان داد که الگوریتم تجمیعی سریع‌تر یاد می‌گیرد و در رشته‌های طولانی عملکرد بهتری دارد. الگوریتم دوم اما، به‌دلیل اتکا به قواعد سریع‌البیان (heuristics) – یعنی میان‌برهای ذهنی برای حل سریع مسائل – در دستورالعمل‌های پیچیده‌تر با مشکل مواجه می‌شود.

بلیندا لی، دانشجوی دکتری MIT و نویسنده اصلی مقاله می‌گوید: «به‌جای اینکه مدل‌ها را وادار کنیم مانند انسان داده‌ها را به‌صورت خطی تفسیر کنند، بهتر است رویکرد طبیعی خودشان یعنی تشکیل سلسله‌مراتب اطلاعات را تقویت نماییم.»

کاربردها و آینده پیش‌رو

این پژوهش بر روی مدل‌های زبانی کوچک با داده‌های مصنوعی صورت گرفته، اما مشخص شد که اندازه مدل تأثیر زیادی بر نتیجه ندارد. بنابراین می‌توانگونه ارتباطات را در مدل‌هایی مانند GPT-4 نیز انتظار داشت. تیم تحقیقاتی قصد دارد این روش‌ها را در برابر وظایف واقعی‌تر مانند دنبال‌کردن کد یا پیگیری روایت داستان‌ها امتحان کند.

در پایان، «کیون وفا» پست‌دکترای دانشگاه هاروارد که در این پژوهش مشارکت نداشت، گفت: «بسیاری از کاربردهای مدل‌های زبانی بزرگ – از ارائه دستور پخت گرفته تا ردیابی جزئیات مکالمه – نیازمند پیگیری وضعیت است. این مقاله، درک ما از نحوه عملکرد این مدل‌ها را ارتقا می‌دهد و راه‌های جدیدی برای بهبود عملکردشان باز می‌کند.»

این تحقیق توسط بلینـدا لی با همکاری «زیفان گو» و «جیکوب آندریاس» (استاد مهندسی برق و علوم رایانه MIT) انجام شده و از سوی بنیادهایی مانند Open Philanthropy، مؤسسه MIT Quest for Intelligence، بنیاد ملی علوم آمریکا و بورسیه Sloan Research پشتیبانی شده است. این مقاله در کنفرانس بین‌المللی یادگیری ماشین (ICML) ارائه شد.

منبع:
https://arxiv.org/html/2503.02854v1

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *