مدل‌های زبانی بزرگ مشابه مغز انسان داده‌های متنوع را به‌صورت کلی پردازش می‌کنند

محققان موسسه MIT اخیراً به بررسی نحوه پردازش داده‌ها توسط مدل‌های زبانی بزرگ (LLM) پرداخته‌اند و نشانه‌هایی از شباهت آن‌ها به مغز انسان یافته‌اند. این مدل‌ها برخلاف نسخه‌های اولیه خود که فقط قادر به پردازش متن بودند، اکنون می‌توانند وظایف متنوعی را روی داده‌های مختلف انجام دهند. به عنوان مثال، آن‌ها می‌توانند زبان‌های مختلف را درک کنند، کدهای رایانه‌ای تولید کنند، مسائل ریاضی را حل کنند، یا به سؤالات مربوط به تصاویر و صدا پاسخ دهند.

دانشمندان علوم اعصاب باور دارند که مغز انسان دارای یک «مرکز معنایی» در قسمت جلویی لوب تمپورال است که اطلاعات مختلفی از جمله داده‌های بصری و لمسی را یکپارچه می‌کند. این مرکز معنایی به «شاخه‌های خاص هر نوع داده» متصل است که اطلاعات را به آن منتقل می‌کنند. تحقیقات MIT نشان داده است که مدل‌های زبانی بزرگ نیز روند مشابهی را دنبال می‌کنند و داده‌ها را به‌صورت انتزاعی در یک مرکز کلی پردازش می‌کنند. برای مثال، اگر زبانی که مدل بر آن تسلط دارد انگلیسی باشد، این زبان را به‌عنوان یک واسطه مرکزی برای پردازش ورودی‌ها در سایر زبان‌ها مانند ژاپنی، حل مسائل ریاضی و پردازش کد رایانه‌ای به کار می‌برد.

علاوه بر این، محققان دریافتند که می‌توانند با استفاده از متن در زبان غالب مدل، بر مرکز معنایی آن تأثیر بگذارند و خروجی‌های آن را تغییر دهند، حتی زمانی که مدل در حال پردازش داده‌ها به زبان‌های دیگر است. این یافته‌ها می‌تواند به طراحی مدل‌های زبانی پیشرفته‌تری که قادر به مدیریت داده‌های متنوع‌تر هستند، کمک کند.

یکپارچه‌سازی داده‌های متنوع

این مطالعه بر اساس پژوهش‌های پیشین انجام شد که نشان می‌داد مدل‌های زبانی مبتنی بر انگلیسی، این زبان را برای پردازش داده‌ها در زبان‌های مختلف به کار می‌گیرند. وو و همکارانش این ایده را گسترش دادند و بررسی عمیق‌تری روی مکانیسم‌های داخلی این مدل‌ها انجام دادند.

یک مدل زبانی بزرگ از لایه‌های پیوسته‌ای تشکیل شده که متن ورودی را به کلمات یا زیرکلمات (توکن‌ها) تقسیم می‌کند. سپس مدل یک نمایش ویژه برای هر توکن ایجاد می‌کند که به آن امکان می‌دهد رابطه بین توکن‌ها را درک کند و کلمه بعدی را در یک دنباله تولید کند. در مورد تصاویر یا صداها، این توکن‌ها به قسمت‌هایی از یک تصویر یا بخش‌هایی از یک کلیپ صوتی مربوط می‌شوند.

محققان دریافتند که لایه‌های اولیه مدل، داده‌ها را به زبان یا نوع اطلاعات خاص خود پردازش می‌کنند، مشابه همان فرآیند «شاخه‌های خاص داده» در مغز انسان. سپس، مدل زبانی، این توکن‌ها را به نمایش‌های مستقل از زبان تبدیل می‌کند و در لایه‌های داخلی خود، استدلال بیشتری روی آن‌ها انجام می‌دهد، مشابه عملکرد مرکز معنایی مغز.

مدل زبانی به داده‌هایی که معنای مشابهی دارند، نمایش‌های مشابهی اختصاص می‌دهد، بدون توجه به نوع داده مانند تصویر، صدا، کد رایانه‌ای یا مسائل ریاضی. به عنوان مثال، حتی اگر تصویر و توضیح متنی آن داده‌های متفاوتی باشند، مدل به آن‌ها نمایش‌های مشابهی اختصاص می‌دهد.

برای آزمایش این فرضیه، محققان مجموعه‌ای از جملات هم‌معنی را که به دو زبان مختلف نوشته شده بودند، از طریق مدل عبور دادند و میزان شباهت نمایش‌های داخلی آن‌ها را ارزیابی کردند. همچنین آزمایش دیگری انجام شد که در آن، یک مدل زبانی انگلیسی‌محور با ورودی‌هایی به زبان‌های دیگر مانند چینی آزمایش شد، سپس بررسی شد که نمایش داخلی این مدل چقدر به زبان انگلیسی نزدیک‌تر از زبان اصلی ورودی است. این آزمایش‌ها برای سایر انواع داده نیز تکرار شدند.

استفاده از مرکز معنایی

محققان معتقدند که مدل‌های زبانی بزرگ ممکن است این راهبرد مرکز معنایی را در طول فرایند آموزش خود توسعه دهند، زیرا این روش، اقتصادی‌ترین راه برای پردازش داده‌های متنوع است. وو توضیح می‌دهد: «هزاران زبان در جهان وجود دارد، اما بسیاری از دانش‌ها بین آن‌ها مشترک هستند، مانند دانش عمومی یا دانش مبتنی بر واقعیت. بنابراین مدل نیازی به تکرار این دانش در زبان‌های مختلف ندارد.»

همچنین، محققان دریافتند که می‌توانند با مداخله در لایه‌های داخلی مدل و استفاده از متن انگلیسی در هنگام پردازش زبان‌های دیگر، خروجی مدل را تغییر دهند. این ویژگی می‌تواند برای افزایش کارایی مدل‌های زبانی در پردازش داده‌های متنوع استفاده شود.

با این حال، برخی مفاهیم یا دانش خاصی وجود دارند که به زبان‌های مختلف قابل ترجمه نیستند، مانند دانش‌های فرهنگی خاص. در چنین مواردی، ممکن است دانشمندان بخواهند که مدل‌ها دارای مکانیسم‌های پردازش خاص زبان‌های مختلف باشند.

وو در این باره می‌گوید: «چالش این است که چگونه می‌توان تا حد امکان اطلاعات را به‌صورت مشترک پردازش کرد، اما در عین حال، امکان پردازش خاص زبان‌های مختلف را نیز فراهم نمود. این موضوع می‌تواند در تحقیقات آینده درباره معماری مدل‌ها بررسی شود.»

علاوه بر این، این یافته‌ها می‌توانند به بهبود مدل‌های چندزبانه کمک کنند. غالباً، یک مدل انگلیسی‌محور که یاد می‌گیرد به زبان دیگری صحبت کند، دقت خود را در زبان انگلیسی از دست می‌دهد. درک بهتر مرکز معنایی یک مدل زبانی می‌تواند به محققان کمک کند تا از این تداخل زبانی جلوگیری کنند.

این تحقیق، که ارتباط جالبی بین هوش مصنوعی و علوم اعصاب ایجاد می‌کند، می‌تواند مبنایی برای توسعه مدل‌های زبانی چندوجهی بهتر باشد. این پژوهش توسط آزمایشگاه هوش مصنوعی MIT-IBM Watson پشتیبانی مالی شده است.

منبع: مطالعه اصلی

اخبار هوش مصنوعی

مدل‌های زبانی بزرگ مشابه مغز انسان داده‌های متنوع را به‌صورت کلی پردازش می‌کنند

یکپارچه‌سازی داده‌های متنوع

استفاده از مرکز معنایی

سینا نشاط

دیدگاهتان را بنویسید لغو پاسخ