مدل‌های بینایی کامپیوتری و چالش‌های آن در بازیابی تصاویر حیات وحش

تصور کنید بتوانید از حدود 11 هزار گونه درخت در آمریکای شمالی عکس بگیرید. در این حالت، تنها بخش کوچکی از میلیون‌ها عکس موجود در دیتاست‌های تصویری طبیعت را فراهم کرده‌اید. این مجموعه‌های عظیم شامل تصاویر مختلفی از پروانه‌ها تا نهنگ‌های گوژپشت هستند و ابزار بسیار مفیدی برای بوم‌شناسان به شمار می‌آیند. این تصاویر نه تنها رفتارهای خاص موجودات، بلکه شرایط نادر، الگوهای مهاجرت، و واکنش به تغییرات آب‌وهوایی را آشکار می‌کنند.

با این حال، اگرچه این دیتاست‌ها بسیار جامع هستند، اما هنوز تماماً کاربردی نیستند. جستجوی تصاویر مرتبط با یک فرضیه در این پایگاه‌های داده وقت‌گیر است. اینجاست که سیستم‌های هوش مصنوعی، مانند مدل‌های چندوجهی متن و تصویر (VLMs)، می‌توانند نقش یک دستیار تحقیقات خودکار را ایفا کنند. این مدل‌ها با یادگیری همزمان متن و تصویر، توانایی شناسایی جزئیات دقیق‌تر مثل درخت‌های خاص در پس‌زمینه عکس‌ها را دارند.

### قدرت مدل‌های VLM در کمک به محققان

آیا VLMها می‌توانند در بازیابی تصاویر برای تحقیقات حیات وحش واقعاً مؤثر باشند؟ تیمی از محققان مؤسسه CSAIL در MIT، کالج دانشگاهی لندن، iNaturalist و دیگر سازمان‌ها برای پاسخ به این پرسش، یک آزمایش عملکرد طراحی کردند. وظیفه مدل‌ها این بود که نتایج مرتبط را از دیتاست “INQUIRE” شامل 5 میلیون تصویر حیات وحش و 250 پروامپت جستجو بازسازماندهی کنند.

#### یافتن یک قورباغه خاص

در این آزمایش‌ها، مشخص شد مدل‌های بزرگ‌تر و پیشرفته‌تر VLM در جستجوهای ساده تصویری عملکرد بهتری دارند. برای مثال، سوالی مانند شناسایی زباله‌های موجود در یک صخره مرجانی به خوبی پاسخ داده شد، اما در پرسش‌هایی که نیاز به دانش تخصصی داشتند، مانند “تشخیص آگزانتیسم در یک قورباغه سبز” (یک بیماری که توانایی ایجاد رنگ زرد در پوست را محدود می‌کند)، دچار مشکل شدند.

نتایج تحقیق نشان داد که این مدل‌ها به داده‌های آموزشی تخصصی‌تر نیاز دارند تا بتوانند پرسش‌های پیچیده‌تر را پردازش کنند. **ادوارد وندرو**، دانشجوی دکترای MIT، می‌گوید:

> “ما می‌خواهیم سیستم‌هایی بسازیم که دقیقاً نتایج مد نظر دانشمندان را بیابند و در پایش تنوع زیستی و تحلیل تغییرات آب‌وهوایی کمک کنند.”

در تست‌های اولیه، مدل‌هایی مانند SigLIP موفق شدند در جستجوهای ساده تعداد تصاویر مرتبط را از 5 میلیون به 100 تصویر کاهش دهند. اما حتی پیشرفته‌ترین مدل‌ها مانند GPT-4، در بازسازماندهی تصاویر برای جستجوهای پیچیده‌تر با دقت پایین (59.6 درصد) عمل کردند.

### دیتاست INQUIRE: راهی به سوی پیشرفت

دیتاست INQUIRE بر اساس گفتگوها با بوم‌شناسان، زیست‌شناسان، و سایر متخصصان تدوین شده است. این گفتگوها موضوعاتی مانند شرایط خاص بدنی و رفتار حیوانات را پوشش می‌دهند. تیمی از مفسران بیش از 180 ساعت صرف جستجوی دیتاست iNaturalist کردند و از میان 200 هزار نتیجه، 33 هزار تصویر برچسب‌گذاری شده را جدا کردند.

به‌عنوان مثال، جستارهایی مانند “یک خرچنگ گوشه‌گیر که از زباله پلاستیکی به عنوان صدف استفاده می‌کند” یا “یک کرکس کالیفرنیایی با برچسب سبز شماره 26” برای شناسایی تصاویر خاص به کار رفتند.

در مقابل، مدل‌های VLM در مواردی که به کلمات کلیدی دانشمندان وابسته بودند، گاهی تصاویر نامربوط ارائه می‌دادند. برای مثال، در پاسخ به جستاری مانند “درختان ردوود با اثر سوختگی”، تصاویر درختانی بدون هیچ نشانی از سوختگی نیز دیده می‌شد.

**سارا بیری**، پژوهشگر MIT، بیان می‌کند:
> “این دیتاست با دقت بسیار بالایی تهیه شده تا نمونه‌هایی واقعی از درخواست‌های علمی را در زمینه‌های مختلف اکولوژی و علوم محیطی ارائه دهد.”

### تلاش برای بهبود عملکرد

محققان در همکاری با iNaturalist برای توسعه سیستمی تلاش می‌کنند که به دانشمندان کمک کند تا تصاویر مد نظرشان را سریع‌تر پیدا کنند. دمو اولیه این سیستم به کاربران اجازه می‌دهد جستجوهای خود را بر اساس گونه‌ها فیلتر کنند.

همچنین این تیم به‌دنبال بهبود الگوریتم‌های بازسازماندهی تصاویر هستند تا مدل‌ها نتایج بهتری ارائه دهند. **جاستین کیتزس** از دانشگاه پیتسبورگ، که در این تحقیق مشارکت نداشته است، به اهمیت این پروژه اشاره می‌کند و می‌گوید:
> “دیتاست‌های تنوع زیستی به سرعت در حال بزرگ شدن هستند و رسیدگی به آن‌ها برای یک دانشمند دشوار است. توانایی جستجوی دقیق‌تر این داده‌ها برای درک بهتر ارتباطات بین گونه‌ها و رفتارها حیاتی است.”

این تحقیق با همکاری دانشمندانی از MIT، University College London، University of Edinburgh، و University of Massachusetts، و با پشتیبانی نهادهایی چون NSF، Royal Society، و World Wildlife Fund انگلستان انجام شده است.

برای اطلاعات بیشتر درباره این پروژه می‌توانید به [این لینک](http://inquire-demo.csail.mit.edu/) مراجعه کنید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *