آیا این نقد فیلم نظر مثبتی دارد یا منفی است؟ آیا این خبر درباره کسبوکار است یا فناوری؟ آیا این گفتوگوی چتبات دارد به سمت ارائه مشاوره مالی منحرف میشود؟ آیا این سایت اطلاعات پزشکی دارد اطلاعات نادرست ارائه میدهد؟
این نوع گفتوگوهای خودکار – از جستجوی نظر درباره فیلم و رستوران گرفته تا دسترسی به حساب بانکی یا سوابق پزشکی – روزبهروز رایجتر میشوند. در بسیاری از این موارد، دیگر انسانها نیستند که مسئول طبقهبندی محتوا هستند، بلکه الگوریتمهای پیشرفتهای با عنوان دستهبندهای متنی (text classifiers) این وظیفه را برعهده دارند. اما چگونه میتوان دقت این دستهبندها را سنجید؟
تیمی از آزمایشگاه سیستمهای اطلاعات و تصمیمگیری دانشگاه MIT (LIDS) راهکار نوینی برای ارزیابی عملکرد این دستهبندها و حتی بهبود دقت آنها ارائه دادهاند.
این نرمافزار تحلیلی توسط Kalyan Veeramachaneni، پژوهشگر ارشد در LIDS، به همراه دانشجویانش Lei Xu و Sarah Alnegheimish توسعه داده شده و برای استفاده عموم به رایگان در دسترس قرار گرفته است.
روش رایجی که برای آزمایش دستهبندها استفاده میشود، ساخت جملات مصنوعی است. مثلا جملهای که مدل آن را یک نقد مثبت تشخیص داده، با اعمال تغییر در یکی دو کلمه بازنویسی میشود بدون اینکه معنایش تغییر کند، اما هدف آن است که مدل را فریب داده و باعث شود نتیجهای متفاوت ارائه دهد. این نمونهها را «مثالهای خصمانه» (adversarial examples) مینامند.
روشهای فعلی در شناسایی ضعفهای دستهبندها کافی نیستند و بسیاری از موارد را از دست میدهند. از سوی دیگر، بسیاری از شرکتها اکنون به شکل زنده در حال کنترل خروجی چتباتهای خود هستند تا مطمئن شوند پاسخهای نادرست یا خطرآفرین ارائه نمیدهند. برای مثال، یک بانک از چتبات برای پرسش و پاسخهای اولیه استفاده میکند ولی نمیخواهد هیچکدام از پاسخها بهعنوان مشاوره مالی برداشت شود – چرا که ممکن است این مساله مسئولیت قانونی بههمراه داشته باشد.
در این میان، نمونههای خصمانه نقشی کلیدی دارند: جملاتی که پس از تغییرات جزئی در عین حفظ معنا، مدل را به قضاوتی متفاوت سوق میدهند. برای محکمکاری، از یک مدل زبان بزرگ (LLM) برای بررسی معنادار بودن این جملات استفاده میشود. اگر مدل تشخیص دهد دو جمله معنای یکسانی دارند اما دستهبند آنها را متفاوت برچسب زده باشد، مشخص است که دستهبند قابل فریب بوده است.
نکته جالب این است که در بسیاری از موارد، تنها تغییر یک کلمه باعث برهم خوردن طبقهبندی میشود. با تحلیل هزاران جمله با کمک LLMها، محققان دریافتند که بخش بزرگی از ناپایداری خروجیها مربوط به تعداد اندکی از واژگان است. مثلا، تنها یکدهم از یک درصد از واژگان موجود در سیستم باعث تقریبا نیمی از خطاهای دستهبندی شدهاند.
دانشآموخته دکتری LIDS، دکتر Lei Xu از تکنیکهای آماری گوناگونی برای شناسایی این «کلمات قدرتمند» استفاده کرده است – یعنی کلماتی که تنها با حضورشان میتوانند سیستم را گمراه کنند. بر اساس این تحلیلها، نهتنها خود این کلمات شناسایی شدند، بلکه مدلهای زبان بزرگ کلمات مشابه آنها را نیز فهرست میکنند تا یک رتبهبندی اثرگذار از واژگان ارائه شود. این اطلاعات سپس برای بازآموزی مدل دستهبند استفاده میشوند تا آن را در برابر چنین خطاهایی مقاومتر کنند.
ممکن است در نگاه اول، افزایش دقت دستهبندهای متنی امری جزئی به نظر برسد – مثلا تشخیص درست دستهبندی اخبار یا نظرات مثبت و منفی. اما این سیستمها امروزه در زمینههایی بسیار حساس مانند جلوگیری از افشای ناخواسته اطلاعات پزشکی، مالی یا امنیتی، یا حتی در پژوهشهای علمی و زیستی مورد استفاده قرار میگیرند. همچنین این دستهبندها در شناسایی و مسدودسازی گفتار نفرتانگیز و اطلاعات غلط اهمیت فزایندهای دارند.
در نتیجه این پژوهش، تیم MIT شاخص جدیدی بهنام p معرفی کرده که میزان مقاومت یک دستهبند در برابر تغییرات یککلمهای را اندازهگیری میکند. نرمافزار ارائهشده شامل دو بخش است: SP-Attack که وظیفه تولید جملات خصمانه برای ارزیابی دستهبندها را دارد، و SP-Defense که از آن جملات برای بازآموزی مدل و افزایش دقت بهره میبرد.
در برخی تستها، هنگامیکه روشهای رقابتی با نرخ موفقیت ۶۶٪ در فریب مدل عمل کردهاند، این سامانه نرخ موفقیت حمله را به حدود ۳۳٪ کاهش داده که پیشرفت قابلتوجهی است. هرچند گاهی تنها ۲٪ بهبود مشاهده شده، اما با توجه به میلیاردها کاربرد این دستهبندها، حتی بهبودهای کوچک هم تأثیرات چشمگیری خواهند داشت.
نتایج این تحقیق در تاریخ ۷ ژوئیه در ژورنال Expert Systems منتشر شده و نویسندگان آن عبارتند از: Lei Xu، Kalyan Veeramachaneni و Sarah Alnegheimish از LIDS، بههمراه Laure Berti-Equille از فرانسه و Alfredo Cuesta-Infante از اسپانیا.