تصور کنید یک ربات در حال کمک کردن به شما برای شستن ظروف است. شما از آن می‌خواهید که یک کاسه صابونی را از سینک بیرون بیاورد، اما پنجه ربات کمی از هدف خود منحرف می‌شود.

با استفاده از یک چارچوب جدید که توسط محققان MIT و NVIDIA توسعه داده شده، می‌توانید رفتار ربات را تنها با چند تعامل ساده اصلاح کنید. این روش به شما این امکان را می‌دهد که به سادگی به کاسه اشاره کنید، مسیر آن را روی صفحه نمایش رسم کنید یا حتی بازوی ربات را در مسیر صحیح کمی حرکت دهید.

برخلاف روش‌های دیگر اصلاح رفتار ربات، این تکنیک نیازی به جمع‌آوری داده‌های جدید و آموزش مجدد مدل یادگیری ماشینی که مغز ربات را هدایت می‌کند، ندارد. در عوض، این سیستم به ربات اجازه می‌دهد که با استفاده از بازخوردهای انسانی در لحظه، دنباله‌ای از اقدامات قابل اجرا را انتخاب کند که تا حد امکان به خواسته کاربر نزدیک باشد.

زمانی که محققان این چارچوب را آزمایش کردند، میزان موفقیت آن ۲۱ درصد بیشتر از روشی بود که از بازخوردهای انسانی استفاده نمی‌کرد.

در درازمدت، این چارچوب می‌تواند کاربران را قادر سازد تا یک ربات آموزش‌دیده در کارخانه را برای انجام انواع کارهای خانگی راهنمایی کنند، حتی اگر آن ربات هرگز قبلاً این محیط یا اشیای آن را ندیده باشد.

فیلیکس یان‌وی وانگ، دانشجوی مهندسی برق و علوم کامپیوتر و نویسنده اصلی مقاله‌ای درباره این روش، می‌گوید: «ما نمی‌توانیم از کاربران عادی انتظار داشته باشیم که کار جمع‌آوری داده و تنظیم مدل شبکه عصبی را انجام دهند. کاربر انتظار دارد که ربات از همان ابتدا درست کار کند و اگر این‌گونه نباشد، می‌خواهد مکانیزمی شهودی برای شخصی‌سازی آن داشته باشد. این همان چالشی است که ما در این تحقیق بررسی کردیم.»

کاهش ناهماهنگی‌ها

در سال‌های اخیر، محققان شروع به استفاده از مدل‌های پیش‌آموزش‌دیده هوش مصنوعی مولد کرده‌اند تا یک “سیاست” یا مجموعه‌ای از قوانین را برای انجام اقدامات مشخص توسط ربات یاد بگیرند. این مدل‌ها توانایی حل چندین وظیفه پیچیده را دارند.

در طول فرآیند یادگیری، مدل تنها حرکات ممکن ربات را مشاهده می‌کند، بنابراین یاد می‌گیرد که مسیرهای معتبری برای ربات تولید کند.

با این حال، هرچند این مسیرها معتبر هستند، اما همیشه با هدف کاربر در دنیای واقعی مطابقت ندارند. به عنوان مثال، ممکن است ربات برای برداشتن جعبه‌ها از قفسه، آموزش‌دیده باشد بدون اینکه چیزی را واژگون کند، اما اگر ساختار قفسه‌ای که در خانه شما قرار دارد با آنچه در داده‌های آموزشی دیده متفاوت باشد، ممکن است در انجام این کار ناموفق باشد.

معمولاً، مهندسان داده‌های جدیدی از وظایف جدید جمع‌آوری کرده و مدل را مجدداً آموزش می‌دهند، که فرآیندی پرهزینه و زمان‌بر است و نیاز به تخصص در یادگیری ماشینی دارد.

در عوض، محققان MIT قصد داشتند راهی را توسعه دهند که کاربران بتوانند در زمان اجرای ربات، رفتار آن را هدایت کنند.

اما اگر یک انسان بخواهد به ربات بازخورد بدهد، این امکان وجود دارد که ربات حرکتی نامعتبر انجام دهد، مثلاً شاید به درستی به جعبه برسد، اما در این مسیر کتاب‌های روی قفسه را به زمین بیندازد.

وانگ توضیح می‌دهد: «ما می‌خواهیم به کاربر اجازه دهیم بدون ایجاد چنین اشتباهاتی با ربات تعامل داشته باشد، تا رفتاری از ربات مشاهده شود که هم مطابق با خواسته کاربر باشد و هم از نظر فیزیکی صحیح و امکان‌پذیر.»

روش‌های اصلاح ربات

این چارچوب سه روش شهودی را برای اصلاح رفتار ربات ارائه می‌دهد، که هر یک مزایای خاص خود را دارند:

  • کاربر می‌تواند به سادگی به شی مورد نظر در یک رابط کاربری که نمای دوربین ربات را نمایش می‌دهد، اشاره کند.
  • کاربر می‌تواند مسیری را روی رابط کاربری رسم کند، تا دقیقا نحوه رسیدن ربات به شی را مشخص کند.
  • کاربر همچنین می‌تواند بازوی ربات را به صورت فیزیکی در جهت مورد نظر حرکت دهد.

وانگ می‌گوید: «هنگامی که شما یک تصویر دو بعدی از محیط را برای اجرای اقدامات در فضایی سه‌بعدی استفاده می‌کنید، اطلاعاتی از بین می‌رود. حرکت فیزیکی بازوی ربات مستقیم‌ترین راه برای انتقال نیت کاربر بدون از دست دادن اطلاعات است.»

نمونه‌برداری برای موفقیت

برای جلوگیری از انجام حرکات نامعتبر توسط ربات، محققان از یک فرایند خاص نمونه‌برداری استفاده می‌کنند. این تکنیک به مدل کمک می‌کند که از میان حرکات معتبر، گزینه‌ای را انتخاب کند که بیشترین همخوانی را با هدف کاربر دارد.

وانگ می‌گوید: «به جای اینکه مستقیماً خواسته کاربر را تحمیل کنیم، ما به ربات ایده‌ای از نیت کاربر می‌دهیم، اما اجازه می‌دهیم که فرایند نمونه‌برداری بر اساس رفتارهای آموخته‌شده خودش نوسان کند.»

استفاده از این شیوه نمونه‌برداری باعث شد که چارچوب محققان در مقایسه با دیگر روش‌های موجود، عملکرد بهتری در شبیه‌سازی‌ها و آزمایش‌های واقعی با یک بازوی رباتیک در یک آشپزخانه اسباب‌بازی داشته باشد.

این روش ممکن است همیشه وظیفه را به سرعت کامل نکند، اما به کاربر این امکان را می‌دهد که به سرعت ربات را اصلاح کند، به‌جای اینکه منتظر بماند تا اشتباه انجام شود و سپس دستور جدیدی صادر کند.

علاوه بر این، پس از اینکه کاربر چند بار ربات را هدایت کند تا کاسه درست را بردارد، ربات می‌تواند این اصلاحات را ثبت کرده و در آموزش‌های آینده از آن استفاده کند. بنابراین، در روزهای بعد، بدون نیاز به هدایت کاربر، کاسه درست را برمی‌دارد.

وانگ تأکید می‌کند: «اما کلید این پیشرفت مستمر، داشتن راهی برای تعامل مستقیم کاربر با ربات است، که ما در این تحقیق نشان دادیم.»

در آینده، محققان قصد دارند سرعت فرایند نمونه‌برداری را افزایش دهند، درحالی‌که عملکرد آن را حفظ یا بهبود ببخشند. همچنین، آنها علاقه دارند این روش را در محیط‌های جدید مورد آزمایش قرار دهند.

لینک منبع

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *