هوش مصنوعی بدون دخالت انسان ارتباط بین بینایی و صدا را یاد گرفت

انسان‌ها به‌صورت طبیعی از طریق ارتباط بین بینایی و شنوایی یاد می‌گیرند. مثلاً وقتی نوازنده‌ای را می‌بینیم که ویولنسل می‌نوازد، می‌توانیم حرکات او را با موسیقی‌ای که به گوش‌مان می‌رسد هماهنگ کنیم. حالا پژوهشگران MIT و چند دانشگاه و مؤسسه دیگر، روشی نوین برای یادگیری ماشین توسعه داده‌اند که به هوش مصنوعی این امکان را می‌دهد تا بدون دخالت انسان، همین نوع یادگیری ترکیبی از صدا و تصویر را تجربه کند.

این روش می‌تواند در زمینه‌هایی مانند روزنامه‌نگاری و تولید فیلم کاربرد داشته باشد؛ جایی که مدل هوش مصنوعی می‌تواند ساخت محتوای چندرسانه‌ای را با جست‌وجوی خودکار در ویدیوها و فایل‌های صوتی تسهیل کند. در آینده، این فناوری می‌تواند به ربات‌ها کمک کند تا درک بهتری از محیط‌های پیچیده دنیای واقعی پیدا کنند؛ محیط‌هایی که صدا و تصویر معمولاً به‌طور نزدیکی با هم مرتبط‌اند.

پژوهشگران این مدل را با استفاده از روشی آموزش دادند که کیفیت تطبیق بین لحظه‌ی خاصی از یک فریم ویدئویی و صدایی که در همان لحظه اتفاق می‌افتد را به‌طور قابل توجهی بهبود می‌بخشد. همچنین با ایجاد تغییراتی در ساختار مدل، توانستند تعادل بین اهداف مختلف آموزشی را حفظ کنند که این موضوع عملکرد کلی سیستم را بهبود داده است.

نتیجه این بهبودها، افزایش دقت سیستم در بازشناسی صحنه‌ها و بازیابی ویدیوها بر اساس صداهای مشخص بوده است. برای مثال، مدل می‌تواند به‌طور دقیق صدای بسته شدن در را با تصویری هماهنگ کند که همان لحظه، در در حال بسته شدن است.

اندرو رودیچنکو، دانشجوی دکترای MIT و یکی از نویسندگان این پژوهش می‌گوید: «ما در حال ساخت سیستم‌های هوش مصنوعی هستیم که بتوانند مانند انسان‌ها، هم‌زمان با پردازش اطلاعات صوتی و تصویری، دنیای اطراف را درک کنند. اگر بتوانیم این فناوری صوت-تصویر را با مدل‌های زبانی بزرگ ترکیب کنیم، درهای زیادی به روی کاربردهای جدید باز خواهد شد.»

این پژوهش حاصل همکاری بین دانشگاه‌هایی چون MIT، دانشگاه گوته آلمان، و آزمایشگاه هوش مصنوعی IBM است. تیم تحقیقاتی این ایده را بر اساس مدلی به نام CAV-MAE بسط داده‌ که چند سال قبل معرفی شده بود. این مدل بدون نیاز به برچسب‌گذاری انسانی، امکان آموزش هم‌زمان داده‌های صوتی و تصویری را فراهم می‌کرد.

در نسخه جدید این مدل که CAV-MAE Sync نام دارد، پژوهشگران صدای ویدیو را به بخش‌های کوچک‌تری تقسیم کردند و برای هر پنجره‌ی صوتی، یک نمایش داده منحصر به فرد تولید کردند. این کار باعث شد تا مدل بتواند تطابق دقیقی بین فریم‌های خاصی از ویدیو و صدای همان لحظه ایجاد کند.

به‌گفته ایدسون آراوژو، دانشجوی کارشناسی ارشد در دانشگاه گوته، «بدین ترتیب مدل یاد می‌گیرد که تطبیق دقیق‌تری برقرار کند، که همین به بهبود عملکرد مدل در مراحل بعدی کمک می‌کند.»

همچنین پژوهشگران در ساختار مدل تغییراتی اعمال کردند تا دو هدف مهم مدل؛ یعنی یادگیری تطبیقی (contrastive learning) و بازسازی (reconstruction)، مستقل از هم و با دقت بیشتری انجام شوند. برای این منظور، آن‌ها از دو نوع نشانه‌ی جدید استفاده کردند: نشانه‌های جهانی برای کمک به بخش تطبیق و نشانه‌های ثبت‌شده برای جزئیات مهم در بازسازی.

نتیجه این تلاش‌ها، ارتقاء چشمگیر مدل CAV-MAE Sync در تشخیص و تطبیق صحنه‌های چندرسانه‌ای و همچنین جست‌وجوی ویدیو با استفاده از ورودی صوتی است. عملکرد این مدل حتی از مدل‌های پیچیده‌تر و نیازمند داده‌های آموزشی بیشتر نیز بهتر بود.

در آینده، این تیم تحقیقاتی قصد دارد با به‌کارگیری مدل‌های به‌روزتر، کیفیت نمایش داده‌ها را در CAV-MAE Sync افزایش دهد و همچنین امکان پردازش متن را نیز به نسخه‌های بعدی اضافه کند. این حرکت می‌تواند گامی مهم به‌سوی توسعه یک مدل زبانی بزرگ ترکیبی صوتی-تصویری باشد.

منبع:
https://arxiv.org/pdf/2505.01237

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *