ابزار هوش مصنوعی جدید تصاویر باکیفیت را سریعتر از روشهای پیشرفته تولید میکند
توانایی تولید سریع تصاویر باکیفیت برای ایجاد محیطهای شبیهسازیشده واقعگرایانه ضروری است. این امر میتواند به آموزش خودروهای خودران در مواجهه با خطرات غیرمنتظره کمک کند و ایمنی آنها را در خیابانهای واقعی افزایش دهد.
با این حال، تکنیکهای هوش مصنوعی مولد که به طور فزایندهای برای ایجاد چنین تصاویری استفاده میشوند، محدودیتهایی دارند. مدلهای انتشار (Diffusion Models)، که یکی از انواع پرکاربرد این تکنیکها هستند، میتوانند تصاویر بسیار واقعگرایانهای تولید کنند اما این فرآیند زمانبر و از نظر محاسباتی سنگین است. از سوی دیگر، مدلهای خودبازگشتی (Autoregressive Models) که در پردازش زبان طبیعی برای مدلهایی مانند ChatGPT استفاده میشوند، سریعتر هستند اما تصاویر کمکیفیتتری تولید میکنند که معمولاً شامل خطاهای فراوانی است.
محققان دانشگاه MIT و شرکت NVIDIA راهکاری ترکیبی ارائه دادهاند که مزایای هر دو روش را با هم ترکیب میکند. این ابزار جدید که HART (مخفف Hybrid Autoregressive Transformer) نام دارد، از یک مدل خودبازگشتی برای دریافت کلیات تصویر استفاده میکند و سپس یک مدل کوچک انتشار برای بهبود جزئیات تصویر به کار میبرد.
HART قادر است تصاویری با کیفیتی برابر یا حتی بالاتر از مدلهای انتشار پیشرفته تولید کند؛ اما این کار را حدود ۹ برابر سریعتر انجام میدهد.
سرعت بیشتر و مصرف منابع کمتر
فرآیند تولید تصویر در HART نسبت به مدلهای انتشار سنتی منابع محاسباتی کمتری مصرف میکند. این ویژگی امکان اجرای آن را بر روی لپتاپهای تجاری یا حتی گوشیهای هوشمند فراهم میکند. کاربران فقط با وارد کردن یک دستور متنی ساده در رابط کاربری HART میتوانند تصویر دلخواه خود را تولید کنند.
از جمله کاربردهای دیگر HART میتوان به کمک به محققان برای آموزش رباتها در انجام وظایف پیچیده و همچنین کمک به طراحان در ایجاد صحنههای جذاب برای بازیهای ویدیویی اشاره کرد.
هاوتیان تانگ، از نویسندگان اصلی این تحقیق، میگوید: «وقتی یک منظره را نقاشی میکنید، اگر همه بوم را یکباره رنگآمیزی کنید، ممکن است نتیجه نهایی مطلوب نباشد. اما اگر ابتدا ساختار اصلی را ترسیم کرده و سپس جزئیات را با ضربات ظریف قلممو اضافه کنید، نقاشی شما بسیار زیباتر خواهد شد. این ایده اصلی پشت HART است.»
این تحقیق با همکاری پژوهشگران دانشگاه MIT، دانشگاه تسینگهوا و شرکت NVIDIA انجام شده و در کنفرانس بینالمللی Learning Representations ارائه خواهد شد.
بهترین عملکرد از دو دنیای متفاوت
مدلهای انتشار محبوبی مانند Stable Diffusion و DALL-E به تولید تصاویر بسیار دقیق مشهورند. این مدلها از یک فرآیند تکرارشونده برای زدودن نویز از پیکسلها استفاده میکنند. این روش با وجود تولید تصاویر باکیفیت، به دلیل نیاز به مراحل متعدد پردازش، سرعت پایین و هزینه محاسباتی بالایی دارد.
در مقابل، مدلهای خودبازگشتی با پیشبینی تدریجی بخشهای تصویر، آن را سریعتر تولید میکنند. اگرچه این روش سرعت بالایی دارد، اما در تصحیح خطاهای خود ناتوان است و اغلب تصاویری با اشتباهات قابل توجه تولید میکند.
HART با ترکیب این دو روش، یک مدل خودبازگشتی برای پیشبینی محتوای تصویر را با یک مدل کوچک انتشار برای بازیابی جزئیات از دسترفته، ادغام میکند. این تکنیک امکان اجرای سریع فرآیند تولید تصویر را فراهم کرده و در عین حال، کیفیت تصویر را به میزان قابل توجهی ارتقا میدهد.
تانگ توضیح میدهد: «ما توانستیم کیفیت بازسازی تصویر را به شدت افزایش دهیم. مدل ما توانایی بازسازی دقیق جزئیات مهم، مانند لبههای اشیا، فرم مو، چشمها یا دهان یک فرد را دارد.»
این روش جدید باعث میشود که مدل انتشار تنها در ۸ مرحله جزئیات باقیمانده تصویر را کامل کند، در حالی که مدلهای انتشار سنتی معمولاً به بیش از ۳۰ مرحله نیاز دارند. این ویژگی باعث افزایش سرعت و کاهش هزینههای پردازشی این مدل در مقایسه با روشهای معمول شده است.
عملکردی بهتر از مدلهای بزرگتر
یکی از چالشهای توسعه HART، ادغام موثر مدل انتشار با مدل خودبازگشتی بود. محققان دریافتند که اگر مدل انتشار را خیلی زود در فرآیند مورد استفاده قرار دهند، خطاهای قابل توجهی ایجاد میشود. اما زمانی که از این مدل تنها در مرحله نهایی برای پردازش جزئیات استفاده شد، کیفیت نهایی تصویر به میزان چشمگیری افزایش یافت.
این روش ترکیبی، که شامل یک مدل خودبازگشتی با ۷۰۰ میلیون پارامتر و یک مدل سبک انتشار با ۳۷ میلیون پارامتر است، تصاویری با کیفیتی برابر با مدلهای انتشار دارای ۲ میلیارد پارامتر تولید میکند اما این کار را ۹ برابر سریعتر انجام میدهد. همچنین به میزان ۳۱ درصد کمتر از مدلهای پیشرفته موجود از منابع پردازشی استفاده میکند.
علاوه بر این، از آنجا که HART از مدلهای خودبازگشتی استفاده میکند، سازگاری بیشتری با مدلهای یکپارچه تولیدی تصویر-متن دارد. در آینده، کاربران میتوانند با این مدلها تعامل بیشتری داشته و حتی از آنها بخواهند گامهای مورد نیاز برای انجام وظایف مختلف، مثل مونتاژ یک قطعه مبلمان، را نمایش دهند.
تانگ میگوید: «مدلهای زبانی مانند LLMs در حال تبدیل شدن به یک رابط مناسب برای مدلهای چندوجهی و مدلهای استدلالی هستند. یک مدل کارآمد در تولید تصویر، امکانات بیشماری را در این زمینه باز خواهد کرد.»
در ادامه، محققان قصد دارند بر روی ترکیب HART با مدلهای چندوجهی تصویر-متن کار کرده و از این فناوری برای تولید ویدیو و پیشبینی صدا بهره ببرند.
این تحقیق با حمایت مالی MIT-IBM Watson AI Lab، MIT و Amazon Science Hub، برنامه سختافزار هوش مصنوعی MIT و بنیاد ملی علوم ایالات متحده انجام شده است. همچنین، NVIDIA سختافزار پردازش گرافیکی مورد نیاز برای آموزش این مدل را تأمین کرده است.