مدل‌های زبانی بزرگ هنگام استدلال خارج از محدوده آموزش خود «مزخرف روان» تولید می‌کنند

مدل‌های زبانی بزرگ (LLMs) مانند GPT هنگام مواجهه با مسائلی خارج از محدوده آموزش‌شان، به جای پاسخ‌های دقیق و منطقی، اغلب جملاتی روان اما بی‌معنا تولید می‌کنند. نتایج یک مطالعه جدید نشان می‌دهد که این مدل‌ها در شرایطی که با مسائل ناآشنا روبه‌رو می‌شوند، تنها سعی می‌کنند با استفاده از جملاتی طبیعی و قانع‌کننده، ظاهر یک پاسخ درست را ایجاد کنند، حتی اگر در واقع اشتباه باشد.

روش Chain-of-Thought همیشه پاسخگو نیست

در سال‌های اخیر، یک روش محبوب به نام Chain-of-Thought (زنجیره تفکر) برای بهبود دقت مدل‌ها در مسائل پیچیده پیشنهاد شده است. در این روش، مدل‌ها به جای ارائه پاسخ سریع، فرآیند استدلال خود را مرحله‌به‌مرحله شرح می‌دهند. اما تحقیقات اخیر نشان می‌دهد که این روش هم در شرایط خاص و خارج از حوزه تمرین شده، کارایی چشمگیری ندارد و مدل‌ها همچنان “چیزهای بی‌معنا ولی روان” ارائه می‌دهند.

محدودیت‌های مدل‌های زبانی در بیرون از حوزه آموزشی

مطالعه جدیدی که توسط پژوهشگران انجام شده، دو مجموعه داده جداگانه طراحی کرده تا عملکرد مدل‌های معروفی مانند GPT-4 را با استفاده از روش زنجیره تفکر مورد آزمون قرار دهد. نتایج نشان داد وقتی سوالات از جنس مواردی بودند که مدل قبلا آموزش دیده بود، عملکرد قابل قبولی داشت. اما به محض آنکه نوع سوالات کمی متفاوت یا خارج از الگوی آشنا می‌شدند، مدل به طرز نگران‌کننده‌ای جملاتی تولید می‌کرد که از نظر زبانی طبیعی اما از نظر مفهومی پوچ بودند.

چالش پیش‌روی توسعه‌دهندگان

برای توسعه‌دهندگان هوش مصنوعی، این یافته اهمیت ویژه‌ای دارد. بسیاری بر این باورند که افزودن قابلیت استدلال مرحله‌ای می‌تواند مدل‌ها را “هوشمندتر” کند، اما واقعیت این است که بدون ارزیابی دقیق و بهینه‌سازی هدفمند، این روش لزوماً بهبود چندانی ایجاد نمی‌کند. پژوهشگران توصیه می‌کنند که توسعه‌دهندگان به‌جای تکیه صرف بر تکنیک‌هایی مثل Chain-of-Thought، از ابزارهایی برای ارزیابی عملکرد مدل تحت سناریوهای نامعمول نیز استفاده کنند.

جمع‌بندی

در حالی که مدل‌های زبانی بزرگ پیشرفت‌های چشمگیری در تولید زبان طبیعی داشته‌اند، همچنان در برابر مسائل ناآشنا و خارج از حوزه آموزش‌شان ضعف دارند. جملات تولیدشده اگرچه از لحاظ زبان‌شناسی صحیح و روان به‌نظر می‌رسند، اما ممکن است از نظر استدلالی کاملاً نادرست یا بی‌معنا باشند. توسعه‌دهندگان باید از این یافته‌ها برای طراحی دقیق‌تر تست‌ها و بهینه‌سازی مدل‌ها بهره ببرند.

مشاهده منبع

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *