آموزش ربات‌ها برای نقشه‌برداری از محیط‌های وسیع

ربات‌هایی که برای یافتن کارگران گرفتار در معادنی با سازه‌های فرو ریخته وارد عمل می‌شوند، باید بتوانند به سرعت محیط اطراف را شناسایی کنند، مسیر خود را پیدا کرده و یک نقشه دقیق از محیط اطراف طراحی کنند. این چالش بزرگ به‌ویژه در شرایط بحرانی، نیازمند ابزارهایی قدرتمند در درک و تحلیل سریع داده‌های بصری است.

در سال‌های اخیر، محققان با بهره‌گیری از مدل‌های یادگیری ماشین برای حل این چالش تلاش کرده‌اند. این مدل‌ها از تصاویر دوربین‌های ربات برای ایجاد نقشه استفاده می‌کنند. با این‌حال، حتی بهترین مدل‌ها تنها می‌توانند تعداد محدودی تصویر را پردازش کنند که این امر برای عملیات‌های سریع جست‌وجو و نجات در دنیای واقعی کافی نیست.

اکنون تیمی از پژوهشگران مؤسسه فناوری ماساچوست (MIT) موفق به توسعه سیستمی شده‌اند که با استفاده از ترکیبی از تکنیک‌های مدرن بینایی ماشین مبتنی بر هوش مصنوعی و روش‌های کلاسیک بینایی کامپیوتری، می‌تواند تعداد نامحدودی از تصاویر را پردازش کند. این سیستم، امکان تولید نقشه‌های سه‌بُعدی از محیط‌های پیچیده‌ مانند راهروهای شلوغ در ظرف تنها چند ثانیه را فراهم می‌کند.

این سیستم جدید به جای ساخت نقشه به‌طور یکجا، بخش‌های کوچکتری از نقشه (submap) را ایجاد و به‌تدریج به هم متصل می‌کند. با این روش، در حین ساخت نقشه کامل، موقعیت ربات نیز به‌صورت زنده و لحظه‌ای تخمین زده می‌شود.

در مقایسه با روش‌های قبلی، این فناوری نیازی به دوربین‌های کالیبره‌شده یا تنظیمات دشوار توسط متخصص ندارد و پیاده‌سازی آن بسیار ساده‌تر است. همین مزیت‌ها باعث می‌شود این روش در کاربردهای واقعی عملی‌تر و قابل توسعه‌تر باشد.

علاوه‌ بر کاربردهای امداد و نجات، این فناوری می‌تواند در توسعه اپلیکیشن‌های واقعیت مجازی و افزوده برای هدست‌ها یا برای ربات‌های صنعتی در انبارهای بزرگ کاربرد داشته باشد تا سریع‌تر مسیر اجسام را پیدا کنند.

دومینیک ماجو، دانشجوی دکترا در MIT و نویسنده اصلی این پژوهش می‌گوید: «برای انجام وظایف پیچیده‌تر، ربات‌ها نیاز به نقشه‌های پیچیده‌تری از جهان اطراف دارند. اما از سوی دیگر، نمی‌خواهیم این فرایند را در عمل دشوار کنیم. ما نشان دادیم که می‌توان با یک ابزار ساده و خارج از جعبه (out-of-the-box)، بازسازی سه‌بعدی دقیقی را در چند ثانیه انجام داد.»

ماجو به همراه هیونگتا لی، پژوهشگر پسا‌دکترا و لوکا کارلونه، استاد یار مهندسی هوافضا و محقق ارشد در آزمایشگاه SPARK در MIT، این تحقیق را انجام داده‌اند. نتایج این پژوهش قرار است در کنفرانس سیستم‌های پردازش اطلاعات عصبی ارائه شود.

نقشه‌برداری آسان‌تر با ایده‌ای متفاوت

یکی از چالش‌های همیشگی در ناوبری ربات‌ها، فناوری SLAM (تعیین موقعیت و نقشه‌برداری همزمان) است. در این روش، ربات باید در همان حال که مسیر خود را تعیین می‌کند، محیط اطراف را نیز نقشه‌برداری کند.

روش‌های سنتی برای حل این مسئله یا در موقعیت‌های دشوار شکست می‌خورند، یا مستلزم آن هستند که دوربین‌های ربات کالیبره شده باشند. به همین خاطر دانشمندان به سراغ مدل‌های یادگیری ماشین رفته‌اند که بتوانند این مهارت را از داده‌ها بیاموزند.

اما حتی مدل‌های قوی هوش مصنوعی معمولاً تنها قادرند حدود ۶۰ عکس را پردازش کنند و این برای محیط‌های گسترده کافی نیست. پژوهشگران MIT سیستمی طراحی کرده‌اند که به جای آنکه تلاش کند یک نقشه کامل را به یک‌باره ایجاد کند، بخش‌هایی از نقشه را تولید و سپس آن‌ها را با هم ترکیب می‌کند. در این صورت، سامانه از همان تعداد تصویر محدود بیشتر استفاده می‌کند بدون آن‌که دقت یا سرعت را از دست بدهد.

البته در مراحل اولیه، این روش بدون اشکال نبود. به گفته ماجو، خطاهای کوچک در نحوه پردازش تصویر باعث می‌شد اتصال این بخش‌ها به‌درستی انجام نشود. برای رفع این مشکل، او سراغ مقالات بینایی کامپیوتری دهه ۸۰ و ۹۰ رفت. با تمرکز بر تئوری‌های قدیمی‌تر، آن‌ها موفق شدند با استفاده از ریاضی، روشی انعطاف‌پذیر ابداع کنند که بتواند حتی نقشه‌های دگرگون‌شده (deformed) را نیز به درستی با یکدیگر هم‌راستا کند.

کاربردهای گسترده در دنیای واقعی

سیستم جدید با استفاده از تصاویر ورودی، یک بازسازی سه‌بعدی دقیق از محیط تولید می‌کند و همچنین موقعیت دوربین‌ها را نیز مشخص می‌کند تا ربات بتواند خود را به‌درستی مکان‌یابی کند.

کارلونه می‌گوید: «زمانی که دومینیک توانست بین روش‌های یادگیری ماشین و رویکردهای سنتی پل بزند، پیاده‌سازی آن بسیار ساده شد. این ترکیب مؤثر و در عین حال ساده، پتانسیل زیادی برای کاربردهای واقعی دارد.»

نتایج آزمایش‌های انجام‌شده نشان می‌دهد این سیستم نسبت به روش‌های رقبا سریع‌تر عمل کرده و خطای کمتری در بازسازی دارد. حتی برای صحنه‌های پیچیده‌ای مثل فضای داخلی کلیسای MIT، توانسته بازسازی دقیق و تقریباً لحظه‌ای داشته باشد. میزان خطا در این بازسازی‌ها کمتر از ۵ سانتی‌متر بوده است.

هدف آینده این تیم، ارتقای دقت بازسازی برای محیط‌های بسیار پیچیده‌تر و پیاده‌سازی این سامانه در ربات‌های واقعی در شرایط دشوار است.

لوکا کارلونه در پایان می‌گوید: «دانستن هندسه کلاسیک خیلی ارزش دارد. اگر بفهمید واقعاً داخل مدل چه اتفاقی می‌افتد، می‌توانید نتایج خیلی بهتری بگیرید و سیستم را در مقیاس وسیع‌تری پیاده‌سازی کنید.»

این پروژه با حمایت بنیاد ملی علوم ایالات متحده، دفتر تحقیقات دریایی آمریکا، و بنیاد تحقیقات ملی کره جنوبی انجام شده است. کارلونه این پروژه را پیش از پیوستن به شرکت آمازون، در دوران مرخصی علمی خود به عنوان یکی از پژوهشگران آمازون، به پایان رسانده است.

منبع: https://arxiv.org/pdf/2505.12549

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *