یک روش جدید آموزشی می‌تواند به بهبود عملکرد هوش مصنوعی در شرایط نامطمئن کمک کند

یک ربات خانگی که در یک کارخانه برای انجام وظایف خانه آموزش دیده است، ممکن است نتواند به‌خوبی سینک را تمیز کند یا زباله‌ها را بیرون ببرد وقتی‌که در آشپزخانه یک کاربر واقعی مستقر می‌شود، زیرا این محیط جدید با فضای آموزشی آن متفاوت است.

مهندسان معمولاً تلاش می‌کنند محیط شبیه‌سازی شده آموزش را تا حد ممکن به دنیای واقعی که ربات در آن مستقر خواهد شد، نزدیک کنند. اما اکنون، پژوهشگران MIT و چندین مؤسسه دیگر به نتیجه‌ای متفاوت دست یافته‌اند: گاهی اوقات، آموزش در یک محیط کاملاً متفاوت می‌تواند منجر به عملکرد بهتری برای یک عامل هوش مصنوعی شود.

نتایج تحقیقات آن‌ها نشان می‌دهد که در برخی موارد، آموزش یک عامل هوش مصنوعی در یک دنیای شبیه‌سازی‌شده با عدم قطعیت یا “نویز” کمتر می‌تواند عملکرد بهتری نسبت به آموزش در دنیایی با سطح نویز مشابه محیط آزمون داشته باشد.

محققان این پدیده غیرمنتظره را **اثر آموزش در محیط داخلی** نام نهاده‌اند.

سرنا بونو، دستیار پژوهشی در آزمایشگاه رسانه MIT و نویسنده ارشد این مطالعه، توضیح می‌دهد:
> “اگر یادگیری بازی تنیس را در یک محیط داخلی بدون نویز شروع کنیم، ممکن است بتوانیم به‌راحتی حرکت‌های مختلف را یاد بگیریم. سپس، اگر به یک محیط پر سر و صدا‌تر مانند یک زمین تنیس در باد منتقل شویم، ممکن است احتمال بازی کردن بهتر برایمان بیشتر باشد تا زمانی‌که از ابتدا در محیط پر نویز یادگیری کنیم.”

### آزمایش روی بازی‌های ویدیویی

این محققان این پدیده را با آموزش عوامل هوش مصنوعی برای بازی‌های آتاری بررسی کردند. در این بازی‌ها، عناصر تصادفی اضافه شد تا عدم قطعیت و نویز ایجاد شود. نتایج آن‌ها نشان داد که اثر آموزش در محیط داخلی به‌طور پیوسته در بین بازی‌ها و تغییرات آن‌ها رخ می‌دهد.

این تیم امیدوار است که این یافته‌ها باعث تحریک تحقیقات بیشتری شود تا روش‌های بهتری برای آموزش عوامل هوش مصنوعی توسعه یابد. اسپاندان مادان، یکی از نویسندگان این پژوهش و دانشجوی تحصیلات تکمیلی در دانشگاه هاروارد، می‌گوید:
> “این یک دیدگاه کاملاً جدید برای تفکر است. به‌جای تلاش برای تطبیق محیط‌های آموزشی و آزمایش، شاید بتوانیم محیط‌های شبیه‌سازی شده‌ای بسازیم که در آن، عامل هوش مصنوعی بهتر یاد بگیرد.”

این پژوهش توسط تیمی مرکب از محققانی از MIT، هاروارد، و دانشگاه ییل انجام شده و نتایج آن در کنفرانس انجمن پیشرفت هوش مصنوعی ارائه خواهد شد.

### چالش‌های آموزشی در یادگیری تقویتی

محققان برای درک اینکه چرا عوامل یادگیری تقویتی هنگام آزمایش در محیط‌های متفاوت عملکرد ضعیفی دارند، مطالعه‌شان را آغاز کردند. یادگیری تقویتی یک روش آزمایشی-خطایی است که عامل با کاوش در یک فضای آموزشی و انجام اقداماتی که پاداش را به حداکثر می‌رسانند، آموزش می‌بیند.

تیم پژوهشی یک تکنیک برای افزودن مقدار معینی از نویز به یکی از عناصر کلیدی یادگیری تقویتی به نام **تابع انتقال** توسعه داد. این تابع انتقال احتمال انتقال عامل از یک حالت به حالت دیگر را بر اساس عملی که انتخاب می‌کند، تعریف می‌کند.

به‌عنوان مثال، اگر عامل در حال بازی پک‌من باشد، تابع انتقال ممکن است احتمال حرکت ارواح بازی به مسیرهای بالا، پایین، چپ یا راست را تعریف کند. در یک یادگیری تقویتی استاندارد، عامل هم در محیط آموزشی و هم در محیط آزمایشی با استفاده از یک تابع انتقال ثابت آموزش داده و ارزیابی می‌شود.

تیم پژوهشی نویز را به تابع انتقال پک‌من اضافه کرد و همان‌طور که انتظار می‌رفت، نویز عملکرد عامل را کاهش داد. اما وقتی عامل را با نسخه بدون نویز پک‌من آموزش داده و سپس در محیطی با نویز آزمایش کردند، عامل عملکرد بهتری نسبت به حالتی که در محیط نویزی آموزش دیده بود، از خود نشان داد.

### توضیحی برای اثر آموزش در محیط داخلی

برای بررسی عمیق‌تر علت این پدیده، پژوهشگران به تحلیلی از الگوهای کاوش عوامل هوش مصنوعی پرداختند. آن‌ها دریافتند که اگر عامل‌هایی که در محیط‌های بدون نویز آموزش دیده‌اند و کسانی که در محیط‌های نویزی آموزش دیده‌اند، الگوهای مشابهی از کاوش را در پیش بگیرند، عامل بدون نویز عملکرد بهتری خواهد داشت.

اما اگر الگوهای کاوش متفاوت باشد، عامل آموزش‌دیده در محیط نویزی معمولاً عملکرد بهتری خواهد داشت. دلیل این امر می‌تواند این باشد که عامل در محیط نویزی مجبور است الگوهایی را یاد بگیرد که در محیط بدون نویز قابل یادگیری نیستند.

سرنا بونو توضیح می‌دهد:
> “اگر من فقط ضربه‌های فور‌هند تنیس را در یک محیط بدون نویز یاد بگیرم، اما در محیط نویزی مجبور شوم ضربه‌های بک‌هند را هم یاد بگیرم، احتمالاً عملکرد خوبی در آن محیط نخواهم داشت.”

### مسیر تحقیقاتی آینده

پژوهشگران امیدوارند اثر آموزش در محیط داخلی را در محیط‌های پیچیده‌تر یا با تکنیک‌های مختلفی مانند بینایی ماشین و پردازش زبان طبیعی نیز بررسی کنند. همچنین قصد دارند محیط‌های آموزشی جدیدی طراحی کنند که بر اساس این اثر کار کنند و بتوانند به عوامل هوش مصنوعی کمک کنند تا در شرایط نامطمئن بهتر عمل کنند.

منبع: [MIT News](https://news.mit.edu/)

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *