۳ پرسش مهم: چگونه به دانش‌آموزان کمک کنیم تا سوگیری احتمالی در داده‌های هوش مصنوعی را تشخیص دهند

هر ساله هزاران دانشجو در دوره‌هایی شرکت می‌کنند که به آن‌ها می‌آموزد چگونه مدل‌های هوش مصنوعی را برای کمک به تشخیص بیماری و تعیین درمان مناسب به‌کار بگیرند. اما یک عنصر کلیدی در بسیاری از این دوره‌ها نادیده گرفته می‌شود: آموزش نحوه تشخیص نقص‌ها و سوگیری‌های موجود در داده‌هایی که برای آموزش مدل‌ها استفاده می‌شود.

لئو آنتونی چلی، پژوهشگر ارشد در مؤسسه مهندسی پزشکی و علوم MIT، پزشک مرکز پزشکی بت‌ایزرائیل دیکونس و استاد دانشگاه هاروارد، در مقاله‌ای جدید به بررسی این موضوع پرداخته و امیدوار است بتواند توسعه‌دهندگان دوره‌ها را متقاعد کند تا آموزش ارزیابی دقیق داده‌ها را به بخشی جدی از سرفصل‌های خود تبدیل کنند. تحقیقات نشان داده‌اند که مدل‌هایی که عمدتاً بر پایه داده‌های بالینی مربوط به مردان سفیدپوست آموزش دیده‌اند، زمانی که برای سایر گروه‌ها استفاده می‌شوند عملکرد مناسبی ندارند.

چطور سوگیری وارد داده‌ها می‌شود و برای مقابله با آن چه می‌توان کرد؟

هر گونه مشکلی در داده‌ها، حتماً به مدل منتقل می‌شود. به عنوان مثال، مشخص شده پالس‌اکسی‌مترها میزان اکسیژن خون را در افراد رنگین‌پوست بیش از حد واقعی نشان می‌دهند، چرا که افراد رنگین‌پوست در آزمایش‌های بالینی این دستگاه‌ها حضور کافی نداشته‌اند. اغلب دستگاه‌های پزشکی برای مردان جوان و سالم بهینه‌سازی شده‌اند، نه برای یک زن ۸۰ ساله با نارسایی قلبی. با این وجود همچنان همه این گروه‌ها را با همان تجهیزات بررسی می‌کنیم، حتی در حالی که FDA تنها عملکرد دستگاه را در افراد سالم ارزیابی می‌کند، نه در جمعیت‌های متنوعی که در دنیای واقعی به‌کار می‌روند.

علاوه بر این، پرونده‌های الکترونیکی سلامت طراحی نشده‌اند تا پایه‌ای برای یادگیری ماشینی باشند و استفاده از آن‌ها نیازمند دقت بسیار بالاست. اگرچه سیستم‌ فعلی باید جایگزین شود، اما تا پیش از آن باید با خلاقیت از داده‌های ناقص فعلی برای ساخت الگوریتم‌ها بهره بگیریم.

ما روی توسعه یک مدل ترنسفورمری برای تحلیل داده‌های عددی سلامت الکترونیکی کار می‌کنیم تا با شناسایی روابط میان آزمون‌های آزمایشگاهی، علائم حیاتی و درمان‌ها، تأثیر داده‌های ناقص حاصل از عوامل اجتماعی و سوگیری‌های پنهان کارکنان درمانی را کاهش دهیم.

چرا مهم است که در دوره‌های هوش مصنوعی به منابع سوگیری پرداخته شود؟

دوره ما در MIT از سال ۲۰۱۶ آغاز شد. خیلی زود فهمیدیم که دانشجویان بدون آنکه از مشکلات داده‌ها آگاه باشند، مشغول توسعه مدل‌هایی می‌شوند که فقط بر مبنای معیارهای عددی ارزیابی عملکرد بهینه شده‌اند. تحلیل ما از دوره‌های آنلاین نشان داد که از میان ۱۱ دوره مورد بررسی، فقط پنج دوره به مبحث سوگیری در داده‌ها اشاره کرده‌اند و تنها دو مورد به‌طور جدی به آن پرداخته‌اند.

هرچند این دوره‌ها ارزشمندند، اما با توجه به تأثیر بالایی که دارند، باید حتماً دانشجویان را با مهارت‌های درست آموزشی تجهیز کنیم. هدف ما از این مقاله آن است که بر این کمبود چشمگیر در آموزش فعلی هوش مصنوعی نور بیفکنیم.

توسعه‌دهندگان دوره‌ها باید چه محتوایی را اضافه کنند؟

مهم‌ترین بخش، ایجاد فهرستی از پرسش‌ها برای آغاز کار است؛ مثل اینکه داده‌ها از کجا آمده‌اند؟ چه کسانی آن‌ها را ثبت کرده‌اند؟ آیا در محیطی متنوع و عادلانه جمع‌آوری شده‌اند؟ برای نمونه، اگر داده‌ها از بخش ICU تهیه شده باشند، باید بررسی کرد چه کسانی شانس ورود به ICU را داشته‌اند و چه کسانی نه. این‌گونه سوگیری در انتخاب نمونه‌ها به‌راحتی باعث می‌شود مدل برای گروه‌هایی مثل اقلیت‌ها کارایی نداشته باشد.

چلی تأکید می‌کند که ۵۰٪ از محتوای یک دوره هوش مصنوعی باید شناخت داده‌ها باشد، زیرا مدل‌سازی در برابر فهم عمیق داده‌ها کار آسان‌تری است.

از سال ۲۰۱۴، کنسرسیوم MIT Critical Data گردهمایی‌هایی با عنوان “دیتاتون” برگزار کرده که در آن‌ها پزشکان، پرستاران و دانشمندان داده با همکاری هم به بررسی داده‌های سلامت در زمینه‌های محلی می‌پردازند. کتاب‌ها و مقالات معمولاً بر اساس داده‌های محدودِ جمعیتی و از کشورهای ثروتمند نوشته شده‌اند، اما ما باید برای ایجاد تفکر انتقادی، افراد با پیش‌زمینه و نسل‌های مختلف را گرد هم آوریم.

در این رویدادها بدون اینکه مستقیماً نحوه تفکر انتقادی را آموزش دهیم، فقط با فراهم کردن یک محیط متنوع، این مهارت به‌صورت طبیعی شکل می‌گیرد.

بنابراین، ما به همه دانشجویان و شرکت‌کنندگان توصیه می‌کنیم تا زمانی که واقعاً منشأ داده‌ها، تجهیزات مورد استفاده برای اندازه‌گیری، و میزان صحت آن‌ها برای افراد مختلف را نفهمیده‌اند، هیچ مدل هوش مصنوعی نسازند.

در سراسر جهان، ما آن‌ها را تشویق می‌کنیم که به‌دنبال استفاده از داده‌های محلی باشند. اگرچه مقاومت وجود دارد، زیرا بسیاری از افراد از کیفیت پایین داده‌های خود آگاه می‌شوند، اما ما می‌گوییم این دقیقا همان نقطه شروع برای اصلاح است. نمی‌توان داده بی‌نقص داشت، اما باید در مسیر بهبود آن گام برداشت. پایگاه داده MIMIC حدود یک دهه طول کشید تا فرم مناسبی پیدا کند و فقط زمانی این اتفاق افتاد که دیگران ایرادات آن را مطرح کردند.

ما هنوز پاسخ همه پرسش‌ها را نداریم، اما می‌توانیم کاری کنیم که افراد نسبت به مشکلات داده‌ها آگاه شوند. بسیاری از کسانی که در دیتاتون‌ها شرکت کرده‌اند، اظهار کرده‌اند که نگاه‌شان به این حوزه کاملاً تغییر کرده و حالا بهتر می‌دانند چگونه از پتانسیل عظیم—but also risk—هوش مصنوعی برخوردار شوند، به شرطی که مسیر را درست بروند.

منبع:
MIT News

اخبار هوش مصنوعی

۳ پرسش مهم: چگونه به دانش‌آموزان کمک کنیم تا سوگیری احتمالی در داده‌های هوش مصنوعی را تشخیص دهند

سینا نشاط

دیدگاهتان را بنویسید لغو پاسخ