ابزار هوش مصنوعی تصاویر باکیفیت را سریع‌تر از روش‌های پیشرفته تولید می‌کند

ابزار هوش مصنوعی جدید تصاویر باکیفیت را سریع‌تر از روش‌های پیشرفته تولید می‌کند

توانایی تولید سریع تصاویر باکیفیت برای ایجاد محیط‌های شبیه‌سازی‌شده واقع‌گرایانه ضروری است. این امر می‌تواند به آموزش خودروهای خودران در مواجهه با خطرات غیرمنتظره کمک کند و ایمنی آن‌ها را در خیابان‌های واقعی افزایش دهد.

با این حال، تکنیک‌های هوش مصنوعی مولد که به طور فزاینده‌ای برای ایجاد چنین تصاویری استفاده می‌شوند، محدودیت‌هایی دارند. مدل‌های انتشار (Diffusion Models)، که یکی از انواع پرکاربرد این تکنیک‌ها هستند، می‌توانند تصاویر بسیار واقع‌گرایانه‌ای تولید کنند اما این فرآیند زمان‌بر و از نظر محاسباتی سنگین است. از سوی دیگر، مدل‌های خودبازگشتی (Autoregressive Models) که در پردازش زبان طبیعی برای مدل‌هایی مانند ChatGPT استفاده می‌شوند، سریع‌تر هستند اما تصاویر کم‌کیفیت‌تری تولید می‌کنند که معمولاً شامل خطاهای فراوانی است.

محققان دانشگاه MIT و شرکت NVIDIA راهکاری ترکیبی ارائه داده‌اند که مزایای هر دو روش را با هم ترکیب می‌کند. این ابزار جدید که HART (مخفف Hybrid Autoregressive Transformer) نام دارد، از یک مدل خودبازگشتی برای دریافت کلیات تصویر استفاده می‌کند و سپس یک مدل کوچک انتشار برای بهبود جزئیات تصویر به کار می‌برد.

HART قادر است تصاویری با کیفیتی برابر یا حتی بالاتر از مدل‌های انتشار پیشرفته تولید کند؛ اما این کار را حدود ۹ برابر سریع‌تر انجام می‌دهد.

سرعت بیشتر و مصرف منابع کمتر

فرآیند تولید تصویر در HART نسبت به مدل‌های انتشار سنتی منابع محاسباتی کمتری مصرف می‌کند. این ویژگی امکان اجرای آن را بر روی لپ‌تاپ‌های تجاری یا حتی گوشی‌های هوشمند فراهم می‌کند. کاربران فقط با وارد کردن یک دستور متنی ساده در رابط کاربری HART می‌توانند تصویر دلخواه خود را تولید کنند.

از جمله کاربردهای دیگر HART می‌توان به کمک به محققان برای آموزش ربات‌ها در انجام وظایف پیچیده و همچنین کمک به طراحان در ایجاد صحنه‌های جذاب برای بازی‌های ویدیویی اشاره کرد.

هاوتیان تانگ، از نویسندگان اصلی این تحقیق، می‌گوید: «وقتی یک منظره را نقاشی می‌کنید، اگر همه بوم را یکباره رنگ‌آمیزی کنید، ممکن است نتیجه نهایی مطلوب نباشد. اما اگر ابتدا ساختار اصلی را ترسیم کرده و سپس جزئیات را با ضربات ظریف قلم‌مو اضافه کنید، نقاشی شما بسیار زیباتر خواهد شد. این ایده اصلی پشت HART است.»

این تحقیق با همکاری پژوهشگران دانشگاه MIT، دانشگاه تسینگهوا و شرکت NVIDIA انجام شده و در کنفرانس بین‌المللی Learning Representations ارائه خواهد شد.

بهترین عملکرد از دو دنیای متفاوت

مدل‌های انتشار محبوبی مانند Stable Diffusion و DALL-E به تولید تصاویر بسیار دقیق مشهورند. این مدل‌ها از یک فرآیند تکرارشونده برای زدودن نویز از پیکسل‌ها استفاده می‌کنند. این روش با وجود تولید تصاویر باکیفیت، به دلیل نیاز به مراحل متعدد پردازش، سرعت پایین و هزینه محاسباتی بالایی دارد.

در مقابل، مدل‌های خودبازگشتی با پیش‌بینی تدریجی بخش‌های تصویر، آن را سریع‌تر تولید می‌کنند. اگرچه این روش سرعت بالایی دارد، اما در تصحیح خطاهای خود ناتوان است و اغلب تصاویری با اشتباهات قابل توجه تولید می‌کند.

HART با ترکیب این دو روش، یک مدل خودبازگشتی برای پیش‌بینی محتوای تصویر را با یک مدل کوچک انتشار برای بازیابی جزئیات از دست‌رفته، ادغام می‌کند. این تکنیک امکان اجرای سریع فرآیند تولید تصویر را فراهم کرده و در عین حال، کیفیت تصویر را به میزان قابل توجهی ارتقا می‌دهد.

تانگ توضیح می‌دهد: «ما توانستیم کیفیت بازسازی تصویر را به شدت افزایش دهیم. مدل ما توانایی بازسازی دقیق جزئیات مهم، مانند لبه‌های اشیا، فرم مو، چشم‌ها یا دهان یک فرد را دارد.»

این روش جدید باعث می‌شود که مدل انتشار تنها در ۸ مرحله جزئیات باقی‌مانده تصویر را کامل کند، در حالی که مدل‌های انتشار سنتی معمولاً به بیش از ۳۰ مرحله نیاز دارند. این ویژگی باعث افزایش سرعت و کاهش هزینه‌های پردازشی این مدل در مقایسه با روش‌های معمول شده است.

عملکردی بهتر از مدل‌های بزرگ‌تر

یکی از چالش‌های توسعه HART، ادغام موثر مدل انتشار با مدل خودبازگشتی بود. محققان دریافتند که اگر مدل انتشار را خیلی زود در فرآیند مورد استفاده قرار دهند، خطاهای قابل توجهی ایجاد می‌شود. اما زمانی که از این مدل تنها در مرحله نهایی برای پردازش جزئیات استفاده شد، کیفیت نهایی تصویر به میزان چشم‌گیری افزایش یافت.

این روش ترکیبی، که شامل یک مدل خودبازگشتی با ۷۰۰ میلیون پارامتر و یک مدل سبک انتشار با ۳۷ میلیون پارامتر است، تصاویری با کیفیتی برابر با مدل‌های انتشار دارای ۲ میلیارد پارامتر تولید می‌کند اما این کار را ۹ برابر سریع‌تر انجام می‌دهد. همچنین به میزان ۳۱ درصد کمتر از مدل‌های پیشرفته موجود از منابع پردازشی استفاده می‌کند.

علاوه بر این، از آنجا که HART از مدل‌های خودبازگشتی استفاده می‌کند، سازگاری بیشتری با مدل‌های یکپارچه تولیدی تصویر-متن دارد. در آینده، کاربران می‌توانند با این مدل‌ها تعامل بیشتری داشته و حتی از آن‌ها بخواهند گام‌های مورد نیاز برای انجام وظایف مختلف، مثل مونتاژ یک قطعه مبلمان، را نمایش دهند.

تانگ می‌گوید: «مدل‌های زبانی مانند LLMs در حال تبدیل شدن به یک رابط مناسب برای مدل‌های چندوجهی و مدل‌های استدلالی هستند. یک مدل کارآمد در تولید تصویر، امکانات بی‌شماری را در این زمینه باز خواهد کرد.»

در ادامه، محققان قصد دارند بر روی ترکیب HART با مدل‌های چندوجهی تصویر-متن کار کرده و از این فناوری برای تولید ویدیو و پیش‌بینی صدا بهره ببرند.

این تحقیق با حمایت مالی MIT-IBM Watson AI Lab، MIT و Amazon Science Hub، برنامه سخت‌افزار هوش مصنوعی MIT و بنیاد ملی علوم ایالات متحده انجام شده است. همچنین، NVIDIA سخت‌افزار پردازش گرافیکی مورد نیاز برای آموزش این مدل را تأمین کرده است.

منبع خبر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *