تصور کنید یک ربات در حال کمک کردن به شما برای شستن ظروف است. شما از آن میخواهید که یک کاسه صابونی را از سینک بیرون بیاورد، اما پنجه ربات کمی از هدف خود منحرف میشود.
با استفاده از یک چارچوب جدید که توسط محققان MIT و NVIDIA توسعه داده شده، میتوانید رفتار ربات را تنها با چند تعامل ساده اصلاح کنید. این روش به شما این امکان را میدهد که به سادگی به کاسه اشاره کنید، مسیر آن را روی صفحه نمایش رسم کنید یا حتی بازوی ربات را در مسیر صحیح کمی حرکت دهید.
برخلاف روشهای دیگر اصلاح رفتار ربات، این تکنیک نیازی به جمعآوری دادههای جدید و آموزش مجدد مدل یادگیری ماشینی که مغز ربات را هدایت میکند، ندارد. در عوض، این سیستم به ربات اجازه میدهد که با استفاده از بازخوردهای انسانی در لحظه، دنبالهای از اقدامات قابل اجرا را انتخاب کند که تا حد امکان به خواسته کاربر نزدیک باشد.
زمانی که محققان این چارچوب را آزمایش کردند، میزان موفقیت آن ۲۱ درصد بیشتر از روشی بود که از بازخوردهای انسانی استفاده نمیکرد.
در درازمدت، این چارچوب میتواند کاربران را قادر سازد تا یک ربات آموزشدیده در کارخانه را برای انجام انواع کارهای خانگی راهنمایی کنند، حتی اگر آن ربات هرگز قبلاً این محیط یا اشیای آن را ندیده باشد.
فیلیکس یانوی وانگ، دانشجوی مهندسی برق و علوم کامپیوتر و نویسنده اصلی مقالهای درباره این روش، میگوید: «ما نمیتوانیم از کاربران عادی انتظار داشته باشیم که کار جمعآوری داده و تنظیم مدل شبکه عصبی را انجام دهند. کاربر انتظار دارد که ربات از همان ابتدا درست کار کند و اگر اینگونه نباشد، میخواهد مکانیزمی شهودی برای شخصیسازی آن داشته باشد. این همان چالشی است که ما در این تحقیق بررسی کردیم.»
کاهش ناهماهنگیها
در سالهای اخیر، محققان شروع به استفاده از مدلهای پیشآموزشدیده هوش مصنوعی مولد کردهاند تا یک “سیاست” یا مجموعهای از قوانین را برای انجام اقدامات مشخص توسط ربات یاد بگیرند. این مدلها توانایی حل چندین وظیفه پیچیده را دارند.
در طول فرآیند یادگیری، مدل تنها حرکات ممکن ربات را مشاهده میکند، بنابراین یاد میگیرد که مسیرهای معتبری برای ربات تولید کند.
با این حال، هرچند این مسیرها معتبر هستند، اما همیشه با هدف کاربر در دنیای واقعی مطابقت ندارند. به عنوان مثال، ممکن است ربات برای برداشتن جعبهها از قفسه، آموزشدیده باشد بدون اینکه چیزی را واژگون کند، اما اگر ساختار قفسهای که در خانه شما قرار دارد با آنچه در دادههای آموزشی دیده متفاوت باشد، ممکن است در انجام این کار ناموفق باشد.
معمولاً، مهندسان دادههای جدیدی از وظایف جدید جمعآوری کرده و مدل را مجدداً آموزش میدهند، که فرآیندی پرهزینه و زمانبر است و نیاز به تخصص در یادگیری ماشینی دارد.
در عوض، محققان MIT قصد داشتند راهی را توسعه دهند که کاربران بتوانند در زمان اجرای ربات، رفتار آن را هدایت کنند.
اما اگر یک انسان بخواهد به ربات بازخورد بدهد، این امکان وجود دارد که ربات حرکتی نامعتبر انجام دهد، مثلاً شاید به درستی به جعبه برسد، اما در این مسیر کتابهای روی قفسه را به زمین بیندازد.
وانگ توضیح میدهد: «ما میخواهیم به کاربر اجازه دهیم بدون ایجاد چنین اشتباهاتی با ربات تعامل داشته باشد، تا رفتاری از ربات مشاهده شود که هم مطابق با خواسته کاربر باشد و هم از نظر فیزیکی صحیح و امکانپذیر.»
روشهای اصلاح ربات
این چارچوب سه روش شهودی را برای اصلاح رفتار ربات ارائه میدهد، که هر یک مزایای خاص خود را دارند:
- کاربر میتواند به سادگی به شی مورد نظر در یک رابط کاربری که نمای دوربین ربات را نمایش میدهد، اشاره کند.
- کاربر میتواند مسیری را روی رابط کاربری رسم کند، تا دقیقا نحوه رسیدن ربات به شی را مشخص کند.
- کاربر همچنین میتواند بازوی ربات را به صورت فیزیکی در جهت مورد نظر حرکت دهد.
وانگ میگوید: «هنگامی که شما یک تصویر دو بعدی از محیط را برای اجرای اقدامات در فضایی سهبعدی استفاده میکنید، اطلاعاتی از بین میرود. حرکت فیزیکی بازوی ربات مستقیمترین راه برای انتقال نیت کاربر بدون از دست دادن اطلاعات است.»
نمونهبرداری برای موفقیت
برای جلوگیری از انجام حرکات نامعتبر توسط ربات، محققان از یک فرایند خاص نمونهبرداری استفاده میکنند. این تکنیک به مدل کمک میکند که از میان حرکات معتبر، گزینهای را انتخاب کند که بیشترین همخوانی را با هدف کاربر دارد.
وانگ میگوید: «به جای اینکه مستقیماً خواسته کاربر را تحمیل کنیم، ما به ربات ایدهای از نیت کاربر میدهیم، اما اجازه میدهیم که فرایند نمونهبرداری بر اساس رفتارهای آموختهشده خودش نوسان کند.»
استفاده از این شیوه نمونهبرداری باعث شد که چارچوب محققان در مقایسه با دیگر روشهای موجود، عملکرد بهتری در شبیهسازیها و آزمایشهای واقعی با یک بازوی رباتیک در یک آشپزخانه اسباببازی داشته باشد.
این روش ممکن است همیشه وظیفه را به سرعت کامل نکند، اما به کاربر این امکان را میدهد که به سرعت ربات را اصلاح کند، بهجای اینکه منتظر بماند تا اشتباه انجام شود و سپس دستور جدیدی صادر کند.
علاوه بر این، پس از اینکه کاربر چند بار ربات را هدایت کند تا کاسه درست را بردارد، ربات میتواند این اصلاحات را ثبت کرده و در آموزشهای آینده از آن استفاده کند. بنابراین، در روزهای بعد، بدون نیاز به هدایت کاربر، کاسه درست را برمیدارد.
وانگ تأکید میکند: «اما کلید این پیشرفت مستمر، داشتن راهی برای تعامل مستقیم کاربر با ربات است، که ما در این تحقیق نشان دادیم.»
در آینده، محققان قصد دارند سرعت فرایند نمونهبرداری را افزایش دهند، درحالیکه عملکرد آن را حفظ یا بهبود ببخشند. همچنین، آنها علاقه دارند این روش را در محیطهای جدید مورد آزمایش قرار دهند.