در قرن هفدهم، یوهانس کپلر، ستارهشناس آلمانی، قوانین حرکت سیارات را کشف کرد؛ قوانینی که امکان پیشبینی دقیق موقعیت سیارات منظومه شمسی در گردش به دور خورشید را فراهم کرد. با این حال، چهار دهه بعد، آیزاک نیوتن با ارائه قوانین جهانی گرانش، درک اساسیتری از چرایی این حرکات ارائه داد. قوانین نیوتن به ما اجازه دادند تا مفاهیمی مانند حرکت گلوله توپ، تأثیر جزر و مد ماه بر زمین یا حتی نحوه پرتاب ماهواره به سمت ماه یا سیارات را فراتر از حرکت ساده سیارات تحلیل و پیشبینی کنیم.
امروزه سیستمهای هوش مصنوعی پیشرفته نیز در انجام پیشبینیهای خاص، مشابه با پیشبینی مدار سیارات توسط کپلر، بسیار دقیق عمل میکنند. اما آیا این مدلها واقعا دلایل این پیشبینیها را درک میکنند؟ آیا آنها دانش عمیقی از دنیای واقعی دارند؟ با توجه به وابستگی روزافزون جوامع به سیستمهای هوش مصنوعی، پژوهشگران در حال تلاشاند تا بررسی کنند که این مدلها چگونه کار میکنند و چه میزان از دنیای واقعی را واقعاً درک کردهاند.
پژوهشگران آزمایشگاه اطلاعات و سیستمهای تصمیمگیری MIT (LIDS) با همکاری دانشگاه هاروارد، اخیراً روشی نوین برای سنجش عمق درک این سیستمها ارائه کردهاند؛ این که آیا مدلهای زبانی بزرگ (LLMs) تنها توان پیشبینی دارند یا میتوانند فرآیندی از فهم و تعمیمسازی شبیه به مدلهای دنیای واقعی ارائه دهند. پاسخ اولیه آنها در بررسیهای انجامشده چندان امیدوارکننده نیست.
نتایج این تحقیق در کنفرانس بینالمللی یادگیری ماشین (ICML) در ونکوور ارائه شد. در این پژوهش، «کیون وافا» پستداک دانشگاه هاروارد، «پیتر جی. چَنگ» دانشجوی دکترای MIT و سه محقق دیگر از MIT مشارکت داشتند.
به گفته وافا، انسانها سالهاست که از پیشبینی دقیق به درک مدلهای دنیای واقعی رسیدهاند. پرسش اصلی آنها این بوده که آیا مدلهای بنیادین (foundation models) — یعنی نوعی از مدلهای پیشرفته یادگیری ماشین — نیز توانستهاند چنین جهشی داشته باشند یا نه.
محققان برای سنجش سطح درک این مدلها، معیار جدیدی به نام «تمایل القایی» (inductive bias) معرفی کردهاند. این معیار میزان گرایش یک مدل به نتیجهگیریهایی را میسنجد که با واقعیت دنیای بیرون همراستا باشد، بر پایه دادههای گستردهای که مدل از آنها آموزش دیده است.
یکی از سادهترین سناریوهای آزمایشی آنها مدل شبکهای یکبعدی بود که در آن مثلاً یک قورباغه روی برگهای نیلوفر در یک خط حرکت میکند و اقداماتش را اعلام میکند (چپ، راست یا ایست). سؤال این بود: آیا مدل میتواند تنها با شنیدن این فرمانها، ساختار کلی را درک کند؟ پاسخ مثبت بود، اما با پیچیدهتر شدن مدلها و افزودن ابعاد بیشتر، قدرت درک مدلها به شدت کاهش یافت.
مثال پیچیدهتر، بازی Othello بود؛ جایی که مدلهای هوش مصنوعی میتوانند حرکات مجاز را پیشبینی کنند، اما در درک چیدمان کامل صفحه، بهویژه مهرههایی که فعلاً بلااستفادهاند، ضعف دارند.
نتیجه کلی تحقیق این بود که با افزایش پیچیدگی سیستمها، مدلهای پیشبینی عملکرد بسیار ضعیفتری در تطابق با مدل واقعی جهان نشان میدهند. این بدان معناست که اغلب مدلها در مرحله پیشبینی باقی ماندهاند و هنوز به درک عمیق از قوانین زیرین نرسیدهاند.
به ویژه در حوزههایی مثل شیمی، داروسازی و زیستفناوری که دانشمندان در پی استفاده از این مدلها برای کشف مواد یا ساختارهای جدید هستند، این موضوع اهمیت دوچندانی دارد. به گفته وافا: «حتی در مکانیک پایهای نیز هنوز مسیر زیادی برای پیمودن وجود دارد.»
در پایان، پژوهشگران میگویند اگر بتوانیم از معیارهایی مانند تمایل القایی به عنوان ابزار استاندارد ارزیابی مدلها استفاده کنیم، نهتنها میتوانیم مدلهای فعلی را بهتر بسنجیم، بلکه در مسیر بهینهسازی آموزش آنها هم گامهای مؤثرتری برخواهیم داشت.