یک روش جدید آموزشی میتواند به بهبود عملکرد هوش مصنوعی در شرایط نامطمئن کمک کند
یک ربات خانگی که در یک کارخانه برای انجام وظایف خانه آموزش دیده است، ممکن است نتواند بهخوبی سینک را تمیز کند یا زبالهها را بیرون ببرد وقتیکه در آشپزخانه یک کاربر واقعی مستقر میشود، زیرا این محیط جدید با فضای آموزشی آن متفاوت است.
مهندسان معمولاً تلاش میکنند محیط شبیهسازی شده آموزش را تا حد ممکن به دنیای واقعی که ربات در آن مستقر خواهد شد، نزدیک کنند. اما اکنون، پژوهشگران MIT و چندین مؤسسه دیگر به نتیجهای متفاوت دست یافتهاند: گاهی اوقات، آموزش در یک محیط کاملاً متفاوت میتواند منجر به عملکرد بهتری برای یک عامل هوش مصنوعی شود.
نتایج تحقیقات آنها نشان میدهد که در برخی موارد، آموزش یک عامل هوش مصنوعی در یک دنیای شبیهسازیشده با عدم قطعیت یا “نویز” کمتر میتواند عملکرد بهتری نسبت به آموزش در دنیایی با سطح نویز مشابه محیط آزمون داشته باشد.
محققان این پدیده غیرمنتظره را **اثر آموزش در محیط داخلی** نام نهادهاند.
سرنا بونو، دستیار پژوهشی در آزمایشگاه رسانه MIT و نویسنده ارشد این مطالعه، توضیح میدهد:
> “اگر یادگیری بازی تنیس را در یک محیط داخلی بدون نویز شروع کنیم، ممکن است بتوانیم بهراحتی حرکتهای مختلف را یاد بگیریم. سپس، اگر به یک محیط پر سر و صداتر مانند یک زمین تنیس در باد منتقل شویم، ممکن است احتمال بازی کردن بهتر برایمان بیشتر باشد تا زمانیکه از ابتدا در محیط پر نویز یادگیری کنیم.”
### آزمایش روی بازیهای ویدیویی
این محققان این پدیده را با آموزش عوامل هوش مصنوعی برای بازیهای آتاری بررسی کردند. در این بازیها، عناصر تصادفی اضافه شد تا عدم قطعیت و نویز ایجاد شود. نتایج آنها نشان داد که اثر آموزش در محیط داخلی بهطور پیوسته در بین بازیها و تغییرات آنها رخ میدهد.
این تیم امیدوار است که این یافتهها باعث تحریک تحقیقات بیشتری شود تا روشهای بهتری برای آموزش عوامل هوش مصنوعی توسعه یابد. اسپاندان مادان، یکی از نویسندگان این پژوهش و دانشجوی تحصیلات تکمیلی در دانشگاه هاروارد، میگوید:
> “این یک دیدگاه کاملاً جدید برای تفکر است. بهجای تلاش برای تطبیق محیطهای آموزشی و آزمایش، شاید بتوانیم محیطهای شبیهسازی شدهای بسازیم که در آن، عامل هوش مصنوعی بهتر یاد بگیرد.”
این پژوهش توسط تیمی مرکب از محققانی از MIT، هاروارد، و دانشگاه ییل انجام شده و نتایج آن در کنفرانس انجمن پیشرفت هوش مصنوعی ارائه خواهد شد.
### چالشهای آموزشی در یادگیری تقویتی
محققان برای درک اینکه چرا عوامل یادگیری تقویتی هنگام آزمایش در محیطهای متفاوت عملکرد ضعیفی دارند، مطالعهشان را آغاز کردند. یادگیری تقویتی یک روش آزمایشی-خطایی است که عامل با کاوش در یک فضای آموزشی و انجام اقداماتی که پاداش را به حداکثر میرسانند، آموزش میبیند.
تیم پژوهشی یک تکنیک برای افزودن مقدار معینی از نویز به یکی از عناصر کلیدی یادگیری تقویتی به نام **تابع انتقال** توسعه داد. این تابع انتقال احتمال انتقال عامل از یک حالت به حالت دیگر را بر اساس عملی که انتخاب میکند، تعریف میکند.
بهعنوان مثال، اگر عامل در حال بازی پکمن باشد، تابع انتقال ممکن است احتمال حرکت ارواح بازی به مسیرهای بالا، پایین، چپ یا راست را تعریف کند. در یک یادگیری تقویتی استاندارد، عامل هم در محیط آموزشی و هم در محیط آزمایشی با استفاده از یک تابع انتقال ثابت آموزش داده و ارزیابی میشود.
تیم پژوهشی نویز را به تابع انتقال پکمن اضافه کرد و همانطور که انتظار میرفت، نویز عملکرد عامل را کاهش داد. اما وقتی عامل را با نسخه بدون نویز پکمن آموزش داده و سپس در محیطی با نویز آزمایش کردند، عامل عملکرد بهتری نسبت به حالتی که در محیط نویزی آموزش دیده بود، از خود نشان داد.
### توضیحی برای اثر آموزش در محیط داخلی
برای بررسی عمیقتر علت این پدیده، پژوهشگران به تحلیلی از الگوهای کاوش عوامل هوش مصنوعی پرداختند. آنها دریافتند که اگر عاملهایی که در محیطهای بدون نویز آموزش دیدهاند و کسانی که در محیطهای نویزی آموزش دیدهاند، الگوهای مشابهی از کاوش را در پیش بگیرند، عامل بدون نویز عملکرد بهتری خواهد داشت.
اما اگر الگوهای کاوش متفاوت باشد، عامل آموزشدیده در محیط نویزی معمولاً عملکرد بهتری خواهد داشت. دلیل این امر میتواند این باشد که عامل در محیط نویزی مجبور است الگوهایی را یاد بگیرد که در محیط بدون نویز قابل یادگیری نیستند.
سرنا بونو توضیح میدهد:
> “اگر من فقط ضربههای فورهند تنیس را در یک محیط بدون نویز یاد بگیرم، اما در محیط نویزی مجبور شوم ضربههای بکهند را هم یاد بگیرم، احتمالاً عملکرد خوبی در آن محیط نخواهم داشت.”
### مسیر تحقیقاتی آینده
پژوهشگران امیدوارند اثر آموزش در محیط داخلی را در محیطهای پیچیدهتر یا با تکنیکهای مختلفی مانند بینایی ماشین و پردازش زبان طبیعی نیز بررسی کنند. همچنین قصد دارند محیطهای آموزشی جدیدی طراحی کنند که بر اساس این اثر کار کنند و بتوانند به عوامل هوش مصنوعی کمک کنند تا در شرایط نامطمئن بهتر عمل کنند.
منبع: [MIT News](https://news.mit.edu/)