محققان اخیراً نسبت به خطرات «بیشتمریندادن فاجعهبار» در مدلهای زبانی بزرگ (LLMها) هشدار دادهاند. این هشدار بر اساس مطالعهای صورت گرفته که در آن دو نسخه متفاوت از مدل OLMo-1b با یکدیگر مقایسه شدهاند. یکی از این نسخهها با ۲.۳ تریلیون توکن آموزش داده شده و دیگری با ۳ تریلیون توکن.
در نگاه اول، استفاده از دادههای بیشتر برای آموزش ممکن است منطقی به نظر برسد؛ اما طبق نتایج این تحقیق، رسیدن به سطوح بالاتر از دادههای مشخصشده نه تنها باعث بهبود عملکرد مدل نمیشود، بلکه احتمال دارد باعث تضعیف چشمگیر کیفیت و توانایی مدل در انجام وظایف گوناگون شود. محققان این پدیده را نوعی «بیشتمریندهی» توصیف کردهاند، شبیه به زمانی که یک انسان بیش از حد تمرین کند و نتیجهاش کاهش بازدهی و بروز خطاهای بیشتر باشد.
بر اساس گزارش منتشرشده، مدلهایی که بیش از حد تمرین داده شدهاند، ممکن است دچار مشکلاتی مانند حفظ نادرست اطلاعات، تولید پاسخهای غیرقابلاعتماد و کاهش توانایی در تعمیمپذیری به مسائل جدید شوند. این موضوع، بهویژه برای کاربردهایی که به دقت و قابلیت اعتماد بالا نیاز دارند مانند تعامل با کاربران در چتباتها یا استفاده در تصمیمگیریهای تجاری، میتواند خطرناک باشد.
مطالعه انجامشده همچنین اشاره میکند که افزودن بیرویه داده به روند آموزش، باعث افزایش مصرف انرژی و منابع محاسباتی میشود، بدون اینکه نتایج قابل توجهی حاصل گردد. در واقع، این کار میتواند منجر به صرف هزینههای هنگفت و آسیب به محیط زیست نیز بشود.
این یافته، بار دیگر اهمیت طراحی دقیق فرآیند آموزش مدلهای هوش مصنوعی را برجسته میکند. محققان پیشنهاد میکنند که لازم است توازن مناسبی بین اندازه مدل، مقدار داده مورد استفاده و منابع محاسباتی برقرار شود تا از پدیده «بیشتمریندادن» و اثرات منفی آن جلوگیری شود.
به طور کلی، اگرچه پیشرفت فناوری مدلهای زبانی بزرگ بسیار سریع بوده، اما این سرعت نباید جایگزین دقت و مراقبت در طراحی فرآیندهای یادگیری این مدلها شود. انتخاب درست میزان دادهها و توجه به محدودیتهای موجود، میتواند باعث خلق مدلهایی هوشمندتر، مؤثرتر و پایدارتر شود.
منبع: venturebeat.com