روش جدید برای ارزیابی دقت سیستم‌های هوش مصنوعی در طبقه‌بندی متن

آیا این نقد فیلم نظر مثبتی دارد یا منفی است؟ آیا این خبر درباره کسب‌وکار است یا فناوری؟ آیا این گفت‌وگوی چت‌بات دارد به سمت ارائه مشاوره مالی منحرف می‌شود؟ آیا این سایت اطلاعات پزشکی دارد اطلاعات نادرست ارائه می‌دهد؟

این نوع گفت‌وگوهای خودکار – از جستجوی نظر درباره فیلم و رستوران گرفته تا دسترسی به حساب بانکی یا سوابق پزشکی – روزبه‌روز رایج‌تر می‌شوند. در بسیاری از این موارد، دیگر انسان‌ها نیستند که مسئول طبقه‌بندی محتوا هستند، بلکه الگوریتم‌های پیشرفته‌ای با عنوان دسته‌بندهای متنی (text classifiers) این وظیفه را برعهده دارند. اما چگونه می‌توان دقت این دسته‌بندها را سنجید؟

تیمی از آزمایشگاه سیستم‌های اطلاعات و تصمیم‌گیری دانشگاه MIT (LIDS) راهکار نوینی برای ارزیابی عملکرد این دسته‌بندها و حتی بهبود دقت آن‌ها ارائه داده‌اند.

این نرم‌افزار تحلیلی توسط Kalyan Veeramachaneni، پژوهشگر ارشد در LIDS، به همراه دانشجویانش Lei Xu و Sarah Alnegheimish توسعه داده شده و برای استفاده عموم به رایگان در دسترس قرار گرفته است.

روش رایجی که برای آزمایش دسته‌بندها استفاده می‌شود، ساخت جملات مصنوعی است. مثلا جمله‌ای که مدل آن را یک نقد مثبت تشخیص داده، با اعمال تغییر در یکی دو کلمه بازنویسی می‌شود بدون این‌که معنایش تغییر کند، اما هدف آن است که مدل را فریب داده و باعث شود نتیجه‌ای متفاوت ارائه دهد. این نمونه‌ها را «مثال‌های خصمانه» (adversarial examples) می‌نامند.

روش‌های فعلی در شناسایی ضعف‌های دسته‌بندها کافی نیستند و بسیاری از موارد را از دست می‌دهند. از سوی دیگر، بسیاری از شرکت‌ها اکنون به شکل زنده در حال کنترل خروجی چت‌بات‌های خود هستند تا مطمئن شوند پاسخ‌های نادرست یا خطرآفرین ارائه نمی‌دهند. برای مثال، یک بانک از چت‌بات برای پرسش‌ و پاسخ‌های اولیه استفاده می‌کند ولی نمی‌خواهد هیچ‌کدام از پاسخ‌ها به‌عنوان مشاوره مالی برداشت شود – چرا که ممکن است این مساله مسئولیت قانونی به‌همراه داشته باشد.

در این میان، نمونه‌های خصمانه نقشی کلیدی دارند: جملاتی که پس از تغییرات جزئی در عین حفظ معنا، مدل را به قضاوتی متفاوت سوق می‌دهند. برای محکم‌کاری، از یک مدل زبان بزرگ (LLM) برای بررسی معنادار بودن این جملات استفاده می‌شود. اگر مدل تشخیص دهد دو جمله معنای یکسانی دارند اما دسته‌بند آن‌ها را متفاوت برچسب زده باشد، مشخص است که دسته‌بند قابل فریب بوده است.

نکته جالب این است که در بسیاری از موارد، تنها تغییر یک کلمه باعث برهم خوردن طبقه‌بندی می‌شود. با تحلیل هزاران جمله با کمک LLMها، محققان دریافتند که بخش بزرگی از ناپایداری خروجی‌ها مربوط به تعداد اندکی از واژگان است. مثلا، تنها یک‌دهم از یک درصد از واژگان موجود در سیستم باعث تقریبا نیمی از خطاهای دسته‌بندی شده‌اند.

دانش‌آموخته دکتری LIDS، دکتر Lei Xu از تکنیک‌های آماری گوناگونی برای شناسایی این «کلمات قدرتمند» استفاده کرده است – یعنی کلماتی که تنها با حضورشان می‌توانند سیستم را گمراه کنند. بر اساس این تحلیل‌ها، نه‌تنها خود این کلمات شناسایی شدند، بلکه مدل‌های زبان بزرگ کلمات مشابه آن‌ها را نیز فهرست می‌کنند تا یک رتبه‌بندی اثرگذار از واژگان ارائه شود. این اطلاعات سپس برای بازآموزی مدل دسته‌بند استفاده می‌شوند تا آن را در برابر چنین خطاهایی مقاوم‌تر کنند.

ممکن است در نگاه اول، افزایش دقت دسته‌بندهای متنی امری جزئی به نظر برسد – مثلا تشخیص درست دسته‌بندی اخبار یا نظرات مثبت و منفی. اما این سیستم‌ها امروزه در زمینه‌هایی بسیار حساس مانند جلوگیری از افشای ناخواسته اطلاعات پزشکی، مالی یا امنیتی، یا حتی در پژوهش‌های علمی و زیستی مورد استفاده قرار می‌گیرند. همچنین این دسته‌بندها در شناسایی و مسدودسازی گفتار نفرت‌انگیز و اطلاعات غلط اهمیت فزاینده‌ای دارند.

در نتیجه این پژوهش، تیم MIT شاخص جدیدی به‌نام p معرفی کرده که میزان مقاومت یک دسته‌بند در برابر تغییرات یک‌کلمه‌ای را اندازه‌گیری می‌کند. نرم‌افزار ارائه‌شده شامل دو بخش است: SP-Attack که وظیفه تولید جملات خصمانه برای ارزیابی دسته‌بندها را دارد، و SP-Defense که از آن جملات برای بازآموزی مدل و افزایش دقت بهره می‌برد.

در برخی تست‌ها، هنگامی‌که روش‌های رقابتی با نرخ موفقیت ۶۶٪ در فریب مدل عمل کرده‌اند، این سامانه نرخ موفقیت حمله را به حدود ۳۳٪ کاهش داده که پیشرفت قابل‌توجهی است. هرچند گاهی تنها ۲٪ بهبود مشاهده شده، اما با توجه به میلیاردها کاربرد این دسته‌بندها، حتی بهبود‌های کوچک هم تأثیرات چشمگیری خواهند داشت.

نتایج این تحقیق در تاریخ ۷ ژوئیه در ژورنال Expert Systems منتشر شده و نویسندگان آن عبارتند از: Lei Xu، Kalyan Veeramachaneni و Sarah Alnegheimish از LIDS، به‌همراه Laure Berti-Equille از فرانسه و Alfredo Cuesta-Infante از اسپانیا.

منبع خبر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *