هر ساله هزاران دانشجو در دورههایی شرکت میکنند که به آنها میآموزد چگونه مدلهای هوش مصنوعی را برای کمک به تشخیص بیماری و تعیین درمان مناسب بهکار بگیرند. اما یک عنصر کلیدی در بسیاری از این دورهها نادیده گرفته میشود: آموزش نحوه تشخیص نقصها و سوگیریهای موجود در دادههایی که برای آموزش مدلها استفاده میشود.
لئو آنتونی چلی، پژوهشگر ارشد در مؤسسه مهندسی پزشکی و علوم MIT، پزشک مرکز پزشکی بتایزرائیل دیکونس و استاد دانشگاه هاروارد، در مقالهای جدید به بررسی این موضوع پرداخته و امیدوار است بتواند توسعهدهندگان دورهها را متقاعد کند تا آموزش ارزیابی دقیق دادهها را به بخشی جدی از سرفصلهای خود تبدیل کنند. تحقیقات نشان دادهاند که مدلهایی که عمدتاً بر پایه دادههای بالینی مربوط به مردان سفیدپوست آموزش دیدهاند، زمانی که برای سایر گروهها استفاده میشوند عملکرد مناسبی ندارند.
چطور سوگیری وارد دادهها میشود و برای مقابله با آن چه میتوان کرد؟
هر گونه مشکلی در دادهها، حتماً به مدل منتقل میشود. به عنوان مثال، مشخص شده پالساکسیمترها میزان اکسیژن خون را در افراد رنگینپوست بیش از حد واقعی نشان میدهند، چرا که افراد رنگینپوست در آزمایشهای بالینی این دستگاهها حضور کافی نداشتهاند. اغلب دستگاههای پزشکی برای مردان جوان و سالم بهینهسازی شدهاند، نه برای یک زن ۸۰ ساله با نارسایی قلبی. با این وجود همچنان همه این گروهها را با همان تجهیزات بررسی میکنیم، حتی در حالی که FDA تنها عملکرد دستگاه را در افراد سالم ارزیابی میکند، نه در جمعیتهای متنوعی که در دنیای واقعی بهکار میروند.
علاوه بر این، پروندههای الکترونیکی سلامت طراحی نشدهاند تا پایهای برای یادگیری ماشینی باشند و استفاده از آنها نیازمند دقت بسیار بالاست. اگرچه سیستم فعلی باید جایگزین شود، اما تا پیش از آن باید با خلاقیت از دادههای ناقص فعلی برای ساخت الگوریتمها بهره بگیریم.
ما روی توسعه یک مدل ترنسفورمری برای تحلیل دادههای عددی سلامت الکترونیکی کار میکنیم تا با شناسایی روابط میان آزمونهای آزمایشگاهی، علائم حیاتی و درمانها، تأثیر دادههای ناقص حاصل از عوامل اجتماعی و سوگیریهای پنهان کارکنان درمانی را کاهش دهیم.
چرا مهم است که در دورههای هوش مصنوعی به منابع سوگیری پرداخته شود؟
دوره ما در MIT از سال ۲۰۱۶ آغاز شد. خیلی زود فهمیدیم که دانشجویان بدون آنکه از مشکلات دادهها آگاه باشند، مشغول توسعه مدلهایی میشوند که فقط بر مبنای معیارهای عددی ارزیابی عملکرد بهینه شدهاند. تحلیل ما از دورههای آنلاین نشان داد که از میان ۱۱ دوره مورد بررسی، فقط پنج دوره به مبحث سوگیری در دادهها اشاره کردهاند و تنها دو مورد بهطور جدی به آن پرداختهاند.
هرچند این دورهها ارزشمندند، اما با توجه به تأثیر بالایی که دارند، باید حتماً دانشجویان را با مهارتهای درست آموزشی تجهیز کنیم. هدف ما از این مقاله آن است که بر این کمبود چشمگیر در آموزش فعلی هوش مصنوعی نور بیفکنیم.
توسعهدهندگان دورهها باید چه محتوایی را اضافه کنند؟
مهمترین بخش، ایجاد فهرستی از پرسشها برای آغاز کار است؛ مثل اینکه دادهها از کجا آمدهاند؟ چه کسانی آنها را ثبت کردهاند؟ آیا در محیطی متنوع و عادلانه جمعآوری شدهاند؟ برای نمونه، اگر دادهها از بخش ICU تهیه شده باشند، باید بررسی کرد چه کسانی شانس ورود به ICU را داشتهاند و چه کسانی نه. اینگونه سوگیری در انتخاب نمونهها بهراحتی باعث میشود مدل برای گروههایی مثل اقلیتها کارایی نداشته باشد.
چلی تأکید میکند که ۵۰٪ از محتوای یک دوره هوش مصنوعی باید شناخت دادهها باشد، زیرا مدلسازی در برابر فهم عمیق دادهها کار آسانتری است.
از سال ۲۰۱۴، کنسرسیوم MIT Critical Data گردهماییهایی با عنوان “دیتاتون” برگزار کرده که در آنها پزشکان، پرستاران و دانشمندان داده با همکاری هم به بررسی دادههای سلامت در زمینههای محلی میپردازند. کتابها و مقالات معمولاً بر اساس دادههای محدودِ جمعیتی و از کشورهای ثروتمند نوشته شدهاند، اما ما باید برای ایجاد تفکر انتقادی، افراد با پیشزمینه و نسلهای مختلف را گرد هم آوریم.
در این رویدادها بدون اینکه مستقیماً نحوه تفکر انتقادی را آموزش دهیم، فقط با فراهم کردن یک محیط متنوع، این مهارت بهصورت طبیعی شکل میگیرد.
بنابراین، ما به همه دانشجویان و شرکتکنندگان توصیه میکنیم تا زمانی که واقعاً منشأ دادهها، تجهیزات مورد استفاده برای اندازهگیری، و میزان صحت آنها برای افراد مختلف را نفهمیدهاند، هیچ مدل هوش مصنوعی نسازند.
در سراسر جهان، ما آنها را تشویق میکنیم که بهدنبال استفاده از دادههای محلی باشند. اگرچه مقاومت وجود دارد، زیرا بسیاری از افراد از کیفیت پایین دادههای خود آگاه میشوند، اما ما میگوییم این دقیقا همان نقطه شروع برای اصلاح است. نمیتوان داده بینقص داشت، اما باید در مسیر بهبود آن گام برداشت. پایگاه داده MIMIC حدود یک دهه طول کشید تا فرم مناسبی پیدا کند و فقط زمانی این اتفاق افتاد که دیگران ایرادات آن را مطرح کردند.
ما هنوز پاسخ همه پرسشها را نداریم، اما میتوانیم کاری کنیم که افراد نسبت به مشکلات دادهها آگاه شوند. بسیاری از کسانی که در دیتاتونها شرکت کردهاند، اظهار کردهاند که نگاهشان به این حوزه کاملاً تغییر کرده و حالا بهتر میدانند چگونه از پتانسیل عظیم—but also risk—هوش مصنوعی برخوردار شوند، به شرطی که مسیر را درست بروند.
منبع:
MIT News