محققان موسسه MIT اخیراً به بررسی نحوه پردازش دادهها توسط مدلهای زبانی بزرگ (LLM) پرداختهاند و نشانههایی از شباهت آنها به مغز انسان یافتهاند. این مدلها برخلاف نسخههای اولیه خود که فقط قادر به پردازش متن بودند، اکنون میتوانند وظایف متنوعی را روی دادههای مختلف انجام دهند. به عنوان مثال، آنها میتوانند زبانهای مختلف را درک کنند، کدهای رایانهای تولید کنند، مسائل ریاضی را حل کنند، یا به سؤالات مربوط به تصاویر و صدا پاسخ دهند.
دانشمندان علوم اعصاب باور دارند که مغز انسان دارای یک «مرکز معنایی» در قسمت جلویی لوب تمپورال است که اطلاعات مختلفی از جمله دادههای بصری و لمسی را یکپارچه میکند. این مرکز معنایی به «شاخههای خاص هر نوع داده» متصل است که اطلاعات را به آن منتقل میکنند. تحقیقات MIT نشان داده است که مدلهای زبانی بزرگ نیز روند مشابهی را دنبال میکنند و دادهها را بهصورت انتزاعی در یک مرکز کلی پردازش میکنند. برای مثال، اگر زبانی که مدل بر آن تسلط دارد انگلیسی باشد، این زبان را بهعنوان یک واسطه مرکزی برای پردازش ورودیها در سایر زبانها مانند ژاپنی، حل مسائل ریاضی و پردازش کد رایانهای به کار میبرد.
علاوه بر این، محققان دریافتند که میتوانند با استفاده از متن در زبان غالب مدل، بر مرکز معنایی آن تأثیر بگذارند و خروجیهای آن را تغییر دهند، حتی زمانی که مدل در حال پردازش دادهها به زبانهای دیگر است. این یافتهها میتواند به طراحی مدلهای زبانی پیشرفتهتری که قادر به مدیریت دادههای متنوعتر هستند، کمک کند.
یکپارچهسازی دادههای متنوع
این مطالعه بر اساس پژوهشهای پیشین انجام شد که نشان میداد مدلهای زبانی مبتنی بر انگلیسی، این زبان را برای پردازش دادهها در زبانهای مختلف به کار میگیرند. وو و همکارانش این ایده را گسترش دادند و بررسی عمیقتری روی مکانیسمهای داخلی این مدلها انجام دادند.
یک مدل زبانی بزرگ از لایههای پیوستهای تشکیل شده که متن ورودی را به کلمات یا زیرکلمات (توکنها) تقسیم میکند. سپس مدل یک نمایش ویژه برای هر توکن ایجاد میکند که به آن امکان میدهد رابطه بین توکنها را درک کند و کلمه بعدی را در یک دنباله تولید کند. در مورد تصاویر یا صداها، این توکنها به قسمتهایی از یک تصویر یا بخشهایی از یک کلیپ صوتی مربوط میشوند.
محققان دریافتند که لایههای اولیه مدل، دادهها را به زبان یا نوع اطلاعات خاص خود پردازش میکنند، مشابه همان فرآیند «شاخههای خاص داده» در مغز انسان. سپس، مدل زبانی، این توکنها را به نمایشهای مستقل از زبان تبدیل میکند و در لایههای داخلی خود، استدلال بیشتری روی آنها انجام میدهد، مشابه عملکرد مرکز معنایی مغز.
مدل زبانی به دادههایی که معنای مشابهی دارند، نمایشهای مشابهی اختصاص میدهد، بدون توجه به نوع داده مانند تصویر، صدا، کد رایانهای یا مسائل ریاضی. به عنوان مثال، حتی اگر تصویر و توضیح متنی آن دادههای متفاوتی باشند، مدل به آنها نمایشهای مشابهی اختصاص میدهد.
برای آزمایش این فرضیه، محققان مجموعهای از جملات هممعنی را که به دو زبان مختلف نوشته شده بودند، از طریق مدل عبور دادند و میزان شباهت نمایشهای داخلی آنها را ارزیابی کردند. همچنین آزمایش دیگری انجام شد که در آن، یک مدل زبانی انگلیسیمحور با ورودیهایی به زبانهای دیگر مانند چینی آزمایش شد، سپس بررسی شد که نمایش داخلی این مدل چقدر به زبان انگلیسی نزدیکتر از زبان اصلی ورودی است. این آزمایشها برای سایر انواع داده نیز تکرار شدند.
استفاده از مرکز معنایی
محققان معتقدند که مدلهای زبانی بزرگ ممکن است این راهبرد مرکز معنایی را در طول فرایند آموزش خود توسعه دهند، زیرا این روش، اقتصادیترین راه برای پردازش دادههای متنوع است. وو توضیح میدهد: «هزاران زبان در جهان وجود دارد، اما بسیاری از دانشها بین آنها مشترک هستند، مانند دانش عمومی یا دانش مبتنی بر واقعیت. بنابراین مدل نیازی به تکرار این دانش در زبانهای مختلف ندارد.»
همچنین، محققان دریافتند که میتوانند با مداخله در لایههای داخلی مدل و استفاده از متن انگلیسی در هنگام پردازش زبانهای دیگر، خروجی مدل را تغییر دهند. این ویژگی میتواند برای افزایش کارایی مدلهای زبانی در پردازش دادههای متنوع استفاده شود.
با این حال، برخی مفاهیم یا دانش خاصی وجود دارند که به زبانهای مختلف قابل ترجمه نیستند، مانند دانشهای فرهنگی خاص. در چنین مواردی، ممکن است دانشمندان بخواهند که مدلها دارای مکانیسمهای پردازش خاص زبانهای مختلف باشند.
وو در این باره میگوید: «چالش این است که چگونه میتوان تا حد امکان اطلاعات را بهصورت مشترک پردازش کرد، اما در عین حال، امکان پردازش خاص زبانهای مختلف را نیز فراهم نمود. این موضوع میتواند در تحقیقات آینده درباره معماری مدلها بررسی شود.»
علاوه بر این، این یافتهها میتوانند به بهبود مدلهای چندزبانه کمک کنند. غالباً، یک مدل انگلیسیمحور که یاد میگیرد به زبان دیگری صحبت کند، دقت خود را در زبان انگلیسی از دست میدهد. درک بهتر مرکز معنایی یک مدل زبانی میتواند به محققان کمک کند تا از این تداخل زبانی جلوگیری کنند.
این تحقیق، که ارتباط جالبی بین هوش مصنوعی و علوم اعصاب ایجاد میکند، میتواند مبنایی برای توسعه مدلهای زبانی چندوجهی بهتر باشد. این پژوهش توسط آزمایشگاه هوش مصنوعی MIT-IBM Watson پشتیبانی مالی شده است.
منبع: مطالعه اصلی