RAG (بازیابی و تولید محتوا) یکی از رویکردهای محبوب در حوزه هوش مصنوعی سازمانی است که هدف آن افزایش دقت مدلهای زبانی بزرگ (LLMها) از طریق افزودن اطلاعات خارجی به فرایند پاسخدهی است. اما پژوهش جدیدی که تیم تحقیقاتی بلومبرگ انجام داده، نشان میدهد که این روش میتواند ناخواسته امنیت این مدلها را کاهش دهد.
بر اساس این تحقیق، **RAG با وجود بهبود عملکرد اطلاعاتی، ممکن است راههایی برای دور زدن محدودیتها و اقدامات ایمنی داخلی مدلها ایجاد کند**. زمانی که اطلاعات بازیابیشده به عنوان ورودی به مدل داده میشود، بسته به محتوای آن اطلاعات، امکان دارد LLM به شکل ناخواسته به درخواستهای آسیبزا پاسخ دهد؛ درخواستی که در شرایط عادی و بدون وجود دادههای جانبی، ممکن بود با آن مخالفت کند.
به عنوان مثال، اگر یک مدل زبانی طوری آموزش دیده باشد که از ارائه دستور العملهای خطرناک خودداری کند، اما در جریان فرایند بازیابی، اسنادی حاوی اطلاعات خطرناک در اختیارش قرار گیرد، ممکن است محافظتهای پیشبینی شده را نادیده بگیرد و پاسخهای ناامن ارائه دهد.
دستاوردهای کلیدی تحقیق بلومبرگ
- RAG میتواند به طور غیرمستقیم محدودیتهای مدل را تضعیف کند.
- اطلاعات بازیابی شده که ظاهراً بیضرر هستند، ممکن است زمینه ایجاد پاسخهای ناامن را فراهم کنند.
- دستیابی به توازنی دقیق بین دقت، کارایی و امنیت مدلهای LLM با استفاده از RAG ضروری است.
تحقیق بلومبرگ نشان داده که حتی منابع اطلاعاتی که معتبر محسوب میشوند، میتوانند در شرایط خاص، ریسکهای امنیتی جدیدی ایجاد کنند. این چالش به ویژه برای سازمانهایی که از LLMها در محیطهای حساس مانند مراقبتهای بهداشتی یا خدمات مالی استفاده میکنند، اهمیت بالایی دارد.
کارشناسان پیشنهاد میکنند که **استفاده از RAG باید همراه با لایههای اضافی شناسایی و پالایش دادههای ورودی** باشد تا اطمینان حاصل شود اطلاعات بازیابی شده موجب آسیب پذیری مدل نمیشود. افزون بر این، طراحی مدلهایی که بتوانند زمینههای خطرناک را تشخیص دهند حتی زمانی که اطلاعات خارجی ارائه میشود، از ضرورت بیشتری برخوردار شده است.
در نهایت، این تحقیق یادآور میشود که در مسیر توسعه مدلهای هوش مصنوعی قویتر و دقیقتر، نباید از توجه به موضوع امنیت غافل شد. بهکارگیری تکنیکهایی مانند RAG اگرچه مفید است، اما نیازمند راهکارهای همراه برای حفظ ایمنی و اطمینان از عملکرد مسئولانه این سیستمها خواهد بود.
منبع:
VentureBeat