انسانها بهصورت طبیعی از طریق ارتباط بین بینایی و شنوایی یاد میگیرند. مثلاً وقتی نوازندهای را میبینیم که ویولنسل مینوازد، میتوانیم حرکات او را با موسیقیای که به گوشمان میرسد هماهنگ کنیم. حالا پژوهشگران MIT و چند دانشگاه و مؤسسه دیگر، روشی نوین برای یادگیری ماشین توسعه دادهاند که به هوش مصنوعی این امکان را میدهد تا بدون دخالت انسان، همین نوع یادگیری ترکیبی از صدا و تصویر را تجربه کند.
این روش میتواند در زمینههایی مانند روزنامهنگاری و تولید فیلم کاربرد داشته باشد؛ جایی که مدل هوش مصنوعی میتواند ساخت محتوای چندرسانهای را با جستوجوی خودکار در ویدیوها و فایلهای صوتی تسهیل کند. در آینده، این فناوری میتواند به رباتها کمک کند تا درک بهتری از محیطهای پیچیده دنیای واقعی پیدا کنند؛ محیطهایی که صدا و تصویر معمولاً بهطور نزدیکی با هم مرتبطاند.
پژوهشگران این مدل را با استفاده از روشی آموزش دادند که کیفیت تطبیق بین لحظهی خاصی از یک فریم ویدئویی و صدایی که در همان لحظه اتفاق میافتد را بهطور قابل توجهی بهبود میبخشد. همچنین با ایجاد تغییراتی در ساختار مدل، توانستند تعادل بین اهداف مختلف آموزشی را حفظ کنند که این موضوع عملکرد کلی سیستم را بهبود داده است.
نتیجه این بهبودها، افزایش دقت سیستم در بازشناسی صحنهها و بازیابی ویدیوها بر اساس صداهای مشخص بوده است. برای مثال، مدل میتواند بهطور دقیق صدای بسته شدن در را با تصویری هماهنگ کند که همان لحظه، در در حال بسته شدن است.
اندرو رودیچنکو، دانشجوی دکترای MIT و یکی از نویسندگان این پژوهش میگوید: «ما در حال ساخت سیستمهای هوش مصنوعی هستیم که بتوانند مانند انسانها، همزمان با پردازش اطلاعات صوتی و تصویری، دنیای اطراف را درک کنند. اگر بتوانیم این فناوری صوت-تصویر را با مدلهای زبانی بزرگ ترکیب کنیم، درهای زیادی به روی کاربردهای جدید باز خواهد شد.»
این پژوهش حاصل همکاری بین دانشگاههایی چون MIT، دانشگاه گوته آلمان، و آزمایشگاه هوش مصنوعی IBM است. تیم تحقیقاتی این ایده را بر اساس مدلی به نام CAV-MAE بسط داده که چند سال قبل معرفی شده بود. این مدل بدون نیاز به برچسبگذاری انسانی، امکان آموزش همزمان دادههای صوتی و تصویری را فراهم میکرد.
در نسخه جدید این مدل که CAV-MAE Sync نام دارد، پژوهشگران صدای ویدیو را به بخشهای کوچکتری تقسیم کردند و برای هر پنجرهی صوتی، یک نمایش داده منحصر به فرد تولید کردند. این کار باعث شد تا مدل بتواند تطابق دقیقی بین فریمهای خاصی از ویدیو و صدای همان لحظه ایجاد کند.
بهگفته ایدسون آراوژو، دانشجوی کارشناسی ارشد در دانشگاه گوته، «بدین ترتیب مدل یاد میگیرد که تطبیق دقیقتری برقرار کند، که همین به بهبود عملکرد مدل در مراحل بعدی کمک میکند.»
همچنین پژوهشگران در ساختار مدل تغییراتی اعمال کردند تا دو هدف مهم مدل؛ یعنی یادگیری تطبیقی (contrastive learning) و بازسازی (reconstruction)، مستقل از هم و با دقت بیشتری انجام شوند. برای این منظور، آنها از دو نوع نشانهی جدید استفاده کردند: نشانههای جهانی برای کمک به بخش تطبیق و نشانههای ثبتشده برای جزئیات مهم در بازسازی.
نتیجه این تلاشها، ارتقاء چشمگیر مدل CAV-MAE Sync در تشخیص و تطبیق صحنههای چندرسانهای و همچنین جستوجوی ویدیو با استفاده از ورودی صوتی است. عملکرد این مدل حتی از مدلهای پیچیدهتر و نیازمند دادههای آموزشی بیشتر نیز بهتر بود.
در آینده، این تیم تحقیقاتی قصد دارد با بهکارگیری مدلهای بهروزتر، کیفیت نمایش دادهها را در CAV-MAE Sync افزایش دهد و همچنین امکان پردازش متن را نیز به نسخههای بعدی اضافه کند. این حرکت میتواند گامی مهم بهسوی توسعه یک مدل زبانی بزرگ ترکیبی صوتی-تصویری باشد.