مدلهای زبانی بزرگ مانند ChatGPT میتوانند در چند ثانیه یک مقاله بنویسند یا برنامه غذایی طراحی کنند. اما تا همین اواخر، شکست دادن آنها کار سادهای بود. این مدلها که بر اساس الگوهای زبانی به سؤالات کاربران پاسخ میدهند، اغلب در حل مسائل ریاضی دچار مشکل میشدند و در استدلالهای پیچیده کارایی خوبی نداشتند. با این حال، ناگهان توانایی آنها در این زمینهها به طرز چشمگیری بهتر شده است.
مدلهای جدیدی از LLMها که تحت عنوان مدلهای استدلالی شناخته میشوند، اکنون برای حل مسائل پیچیده آموزش داده میشوند. درست مانند انسانها، این مدلها نیز برای فکر کردن و یافتن پاسخ مناسب نیاز به زمان دارند. نکته جالب توجه اینکه پژوهشگران موسسه تحقیقاتی مغز مکگاورن در MIT دریافتهاند که نوع مسائلی که بیشترین زمان پردازش را از مدلهای استدلالی میگیرد، دقیقاً همان مسائلی است که انسانها نیز در حل آنها بیشترین تأمل را نشان میدهند. به عبارت دیگر، همانطور که در ژورنال PNAS گزارش شده است، «هزینه تفکر» برای مدلهای استدلالی مشابه انسانهاست.
این تحقیق توسط پروفسور اولینا فدورنکو، استاد بخش علوم مغز و شناخت و پژوهشگر موسسه مکگاورن رهبری شده است. به گفته او، بالا رفتن شباهت بین عملکرد این مدلها و انسانها به هیچوجه برنامهریزی شده نبوده است. او میگوید: «کسانی که این مدلها را میسازند قصد ندارند آنها را شبیه انسان بسازند؛ هدفشان فقط ساختن سیستمی است که در شرایط مختلف عملکرد خوبی داشته باشد. جالب اینجاست که اکنون شاهد همگرایی بین عملکرد مدلها و تفکر انسانی هستیم.»
مدلهای استدلالی مانند بسیاری از سیستمهای هوش مصنوعی بر پایه شبکههای عصبی مصنوعی هستند؛ ابزارهایی محاسباتی که با دریافت داده و مسئله، یاد میگیرند چطور آن را پردازش کنند. این مدلها در سالهای اخیر در انجام بعضی از وظایف شبیه به مغز انسان بسیار موفق عمل کردهاند. اما برخی از دانشمندان معتقد بودند که هوش مصنوعی هنوز آمادگی کافی برای انجام وظایف پیچیدهتری مانند استدلال ندارد.
فدورنکو میگوید: «تا همین اواخر معتقد بودم که این مدلها در کارهایی مثل درک زبان و ادراک خوباند، اما برای رسیدن به استدلال هنوز راه زیادی در پیش دارند. اما مدلهای استدلالی جدید نشان دادند میتوانند در حل مسائل ریاضی و حتی نوشتن کد کامپیوتری عملکردی بهتر داشته باشند.»
طبق توضیح آندریا گرگور دیواردا، پژوهشگر فوقدکتری در آزمایشگاه فدورنکو، این مدلها مسائل را مرحله به مرحله حل میکنند. او میگوید: «در مقطعی توسعهدهندگان فهمیدند که مدلها باید فضای بیشتری برای انجام محاسبات لازم به منظور حل مسائل پیچیده داشته باشند.» زمانی که مدلها اجازه پیدا کردند مسئله را به بخشهای کوچکتر تقسیم کرده و مرحلهبهمرحله جلو بروند، عملکردشان به شکل قابل توجهی بهتر شد.
برای آموزش مدلها جهت حل مرحلهای مسائل و رسیدن به پاسخهای درست، از تکنیک یادگیری تقویتی استفاده میشود. یعنی مدلها برای پاسخهای درست پاداش میگیرند و در برابر پاسخهای غلط جریمه میشوند. این کار به آنها یاد میدهد راههایی را دنبال کنند که منجر به دریافت پاداش میشود و در نتیجه احتمال رسیدن به پاسخ درست افزایش مییابد.
اما تأخیر اندک در پاسخگویی مدلهای استدلالی نسبت به نسل قبلی مدلها به علت این گامهای استنتاجی ارزشمند است؛ چون پاسخ نهایی از دقت بسیار بیشتری برخوردار است.
از سوی دیگر، پژوهشگران متوجه شدند که هرچقدر حل یک مسئله برای انسانها زمانبرتر باشد، مدلها نیز در حل دقیق همان مسئله توکنهای بیشتری تولید میکردند. لازم به ذکر است که تحلیل زمان صرفشده توسط مدلها با زمان پاسخدهی انسانها قابل قیاس نیست، زیرا به سختافزار وابسته است. بنابراین، پژوهشگران به جای زمان، تعداد «توکنها» — واحدهایی که مدلها در روند حل مسئله تولید میکنند — را به عنوان معیاری برای پیچیدگی در نظر گرفتند.
در این تحلیل، انسانها و مدلها با هفت نوع مختلف مسئله از جمله ریاضی و استدلال شهودی مواجه شدند. هرچقدر یک مسئله سختتر بود، هم انسان بیشتر زمان صرف کرد هم مدل توکنهای بیشتری ایجاد کرد. مسائل محاسبات عددی سادهترین و کمهزینهترین نوع بودند، در حالی که چالشهای بصری معروف به “ARC challenge” که نیازمند استنتاج تغییرات در الگوهای رنگ و فرم هستند، بیشترین هزینه ذهنی را داشتند — هم برای انسان و هم برای مدل.
مطابقت شگفتانگیز بین «هزینه تفکر» در مدلها و انسانها نشانهای از شباهت در نوع پردازش اطلاعات بین آنهاست. البته هنوز مشخص نیست آیا چگونگی بازنمایی اطلاعات در مغز و مدلها یکسان است یا خیر. همچنین، سوال مهم دیگر این است که آیا مدلها قادر به حل مسائل مبتنی بر دانش دنیای واقعی خواهند بود، آنهم دانشی که در دادههای آموزشی آنها صراحتاً وجود نداشته باشد.
فدورنکو خاطرنشان میکند که با وجود اینکه مدلها هنگام حل مسائل نوعی «مکالمه درونی» تولید میکنند، این امر لزوماً به معنای استفاده از زبان برای فکر کردن نیست. به گفته او، «اگر خروجیهای حین استدلال مدل را نگاه کنید، گاهی شامل جملات اشتباه یا بیمعنی است؛ با این حال در نهایت پاسخ درستی ارائه میدهد. به نظر میرسد تفکر واقعی در فضایی انتزاعی و غیرزبانی انجام میشود؛ مشابه با انسانها که هنگام فکر کردن الزاماً از زبان استفاده نمیکنند.»
منبع: PNAS
