مدلهای زبانی بزرگ (LLMs) مانند GPT هنگام مواجهه با مسائلی خارج از محدوده آموزششان، به جای پاسخهای دقیق و منطقی، اغلب جملاتی روان اما بیمعنا تولید میکنند. نتایج یک مطالعه جدید نشان میدهد که این مدلها در شرایطی که با مسائل ناآشنا روبهرو میشوند، تنها سعی میکنند با استفاده از جملاتی طبیعی و قانعکننده، ظاهر یک پاسخ درست را ایجاد کنند، حتی اگر در واقع اشتباه باشد.
روش Chain-of-Thought همیشه پاسخگو نیست
در سالهای اخیر، یک روش محبوب به نام Chain-of-Thought (زنجیره تفکر) برای بهبود دقت مدلها در مسائل پیچیده پیشنهاد شده است. در این روش، مدلها به جای ارائه پاسخ سریع، فرآیند استدلال خود را مرحلهبهمرحله شرح میدهند. اما تحقیقات اخیر نشان میدهد که این روش هم در شرایط خاص و خارج از حوزه تمرین شده، کارایی چشمگیری ندارد و مدلها همچنان “چیزهای بیمعنا ولی روان” ارائه میدهند.
محدودیتهای مدلهای زبانی در بیرون از حوزه آموزشی
مطالعه جدیدی که توسط پژوهشگران انجام شده، دو مجموعه داده جداگانه طراحی کرده تا عملکرد مدلهای معروفی مانند GPT-4 را با استفاده از روش زنجیره تفکر مورد آزمون قرار دهد. نتایج نشان داد وقتی سوالات از جنس مواردی بودند که مدل قبلا آموزش دیده بود، عملکرد قابل قبولی داشت. اما به محض آنکه نوع سوالات کمی متفاوت یا خارج از الگوی آشنا میشدند، مدل به طرز نگرانکنندهای جملاتی تولید میکرد که از نظر زبانی طبیعی اما از نظر مفهومی پوچ بودند.
چالش پیشروی توسعهدهندگان
برای توسعهدهندگان هوش مصنوعی، این یافته اهمیت ویژهای دارد. بسیاری بر این باورند که افزودن قابلیت استدلال مرحلهای میتواند مدلها را “هوشمندتر” کند، اما واقعیت این است که بدون ارزیابی دقیق و بهینهسازی هدفمند، این روش لزوماً بهبود چندانی ایجاد نمیکند. پژوهشگران توصیه میکنند که توسعهدهندگان بهجای تکیه صرف بر تکنیکهایی مثل Chain-of-Thought، از ابزارهایی برای ارزیابی عملکرد مدل تحت سناریوهای نامعمول نیز استفاده کنند.
جمعبندی
در حالی که مدلهای زبانی بزرگ پیشرفتهای چشمگیری در تولید زبان طبیعی داشتهاند، همچنان در برابر مسائل ناآشنا و خارج از حوزه آموزششان ضعف دارند. جملات تولیدشده اگرچه از لحاظ زبانشناسی صحیح و روان بهنظر میرسند، اما ممکن است از نظر استدلالی کاملاً نادرست یا بیمعنا باشند. توسعهدهندگان باید از این یافتهها برای طراحی دقیقتر تستها و بهینهسازی مدلها بهره ببرند.