مدلهای بینایی کامپیوتری و چالشهای آن در بازیابی تصاویر حیات وحش
تصور کنید بتوانید از حدود 11 هزار گونه درخت در آمریکای شمالی عکس بگیرید. در این حالت، تنها بخش کوچکی از میلیونها عکس موجود در دیتاستهای تصویری طبیعت را فراهم کردهاید. این مجموعههای عظیم شامل تصاویر مختلفی از پروانهها تا نهنگهای گوژپشت هستند و ابزار بسیار مفیدی برای بومشناسان به شمار میآیند. این تصاویر نه تنها رفتارهای خاص موجودات، بلکه شرایط نادر، الگوهای مهاجرت، و واکنش به تغییرات آبوهوایی را آشکار میکنند.
با این حال، اگرچه این دیتاستها بسیار جامع هستند، اما هنوز تماماً کاربردی نیستند. جستجوی تصاویر مرتبط با یک فرضیه در این پایگاههای داده وقتگیر است. اینجاست که سیستمهای هوش مصنوعی، مانند مدلهای چندوجهی متن و تصویر (VLMs)، میتوانند نقش یک دستیار تحقیقات خودکار را ایفا کنند. این مدلها با یادگیری همزمان متن و تصویر، توانایی شناسایی جزئیات دقیقتر مثل درختهای خاص در پسزمینه عکسها را دارند.
### قدرت مدلهای VLM در کمک به محققان
آیا VLMها میتوانند در بازیابی تصاویر برای تحقیقات حیات وحش واقعاً مؤثر باشند؟ تیمی از محققان مؤسسه CSAIL در MIT، کالج دانشگاهی لندن، iNaturalist و دیگر سازمانها برای پاسخ به این پرسش، یک آزمایش عملکرد طراحی کردند. وظیفه مدلها این بود که نتایج مرتبط را از دیتاست “INQUIRE” شامل 5 میلیون تصویر حیات وحش و 250 پروامپت جستجو بازسازماندهی کنند.
#### یافتن یک قورباغه خاص
در این آزمایشها، مشخص شد مدلهای بزرگتر و پیشرفتهتر VLM در جستجوهای ساده تصویری عملکرد بهتری دارند. برای مثال، سوالی مانند شناسایی زبالههای موجود در یک صخره مرجانی به خوبی پاسخ داده شد، اما در پرسشهایی که نیاز به دانش تخصصی داشتند، مانند “تشخیص آگزانتیسم در یک قورباغه سبز” (یک بیماری که توانایی ایجاد رنگ زرد در پوست را محدود میکند)، دچار مشکل شدند.
نتایج تحقیق نشان داد که این مدلها به دادههای آموزشی تخصصیتر نیاز دارند تا بتوانند پرسشهای پیچیدهتر را پردازش کنند. **ادوارد وندرو**، دانشجوی دکترای MIT، میگوید:
> “ما میخواهیم سیستمهایی بسازیم که دقیقاً نتایج مد نظر دانشمندان را بیابند و در پایش تنوع زیستی و تحلیل تغییرات آبوهوایی کمک کنند.”
در تستهای اولیه، مدلهایی مانند SigLIP موفق شدند در جستجوهای ساده تعداد تصاویر مرتبط را از 5 میلیون به 100 تصویر کاهش دهند. اما حتی پیشرفتهترین مدلها مانند GPT-4، در بازسازماندهی تصاویر برای جستجوهای پیچیدهتر با دقت پایین (59.6 درصد) عمل کردند.
### دیتاست INQUIRE: راهی به سوی پیشرفت
دیتاست INQUIRE بر اساس گفتگوها با بومشناسان، زیستشناسان، و سایر متخصصان تدوین شده است. این گفتگوها موضوعاتی مانند شرایط خاص بدنی و رفتار حیوانات را پوشش میدهند. تیمی از مفسران بیش از 180 ساعت صرف جستجوی دیتاست iNaturalist کردند و از میان 200 هزار نتیجه، 33 هزار تصویر برچسبگذاری شده را جدا کردند.
بهعنوان مثال، جستارهایی مانند “یک خرچنگ گوشهگیر که از زباله پلاستیکی به عنوان صدف استفاده میکند” یا “یک کرکس کالیفرنیایی با برچسب سبز شماره 26” برای شناسایی تصاویر خاص به کار رفتند.
در مقابل، مدلهای VLM در مواردی که به کلمات کلیدی دانشمندان وابسته بودند، گاهی تصاویر نامربوط ارائه میدادند. برای مثال، در پاسخ به جستاری مانند “درختان ردوود با اثر سوختگی”، تصاویر درختانی بدون هیچ نشانی از سوختگی نیز دیده میشد.
**سارا بیری**، پژوهشگر MIT، بیان میکند:
> “این دیتاست با دقت بسیار بالایی تهیه شده تا نمونههایی واقعی از درخواستهای علمی را در زمینههای مختلف اکولوژی و علوم محیطی ارائه دهد.”
### تلاش برای بهبود عملکرد
محققان در همکاری با iNaturalist برای توسعه سیستمی تلاش میکنند که به دانشمندان کمک کند تا تصاویر مد نظرشان را سریعتر پیدا کنند. دمو اولیه این سیستم به کاربران اجازه میدهد جستجوهای خود را بر اساس گونهها فیلتر کنند.
همچنین این تیم بهدنبال بهبود الگوریتمهای بازسازماندهی تصاویر هستند تا مدلها نتایج بهتری ارائه دهند. **جاستین کیتزس** از دانشگاه پیتسبورگ، که در این تحقیق مشارکت نداشته است، به اهمیت این پروژه اشاره میکند و میگوید:
> “دیتاستهای تنوع زیستی به سرعت در حال بزرگ شدن هستند و رسیدگی به آنها برای یک دانشمند دشوار است. توانایی جستجوی دقیقتر این دادهها برای درک بهتر ارتباطات بین گونهها و رفتارها حیاتی است.”
این تحقیق با همکاری دانشمندانی از MIT، University College London، University of Edinburgh، و University of Massachusetts، و با پشتیبانی نهادهایی چون NSF، Royal Society، و World Wildlife Fund انگلستان انجام شده است.
برای اطلاعات بیشتر درباره این پروژه میتوانید به [این لینک](http://inquire-demo.csail.mit.edu/) مراجعه کنید.