داده مصنوعی توسط الگوریتمها بهصورت مصنوعی تولید میشوند تا ویژگیهای آماری دادههای واقعی را تقلید کنند، بدون اینکه حاوی اطلاعات واقعی از منابع دنیای واقعی باشند. اگرچه تعیین اعداد دقیق دشوار است، اما برخی برآوردها نشان میدهند که در سال ۲۰۲۴ بیش از ۶۰ درصد دادههای مورد استفاده در پروژههای هوش مصنوعی، مصنوعی بودهاند و انتظار میرود این رقم در صنایع مختلف افزایش یابد.
از آنجا که دادههای مصنوعی شامل اطلاعات واقعی نیستند، این نوع دادهها میتوانند به حفظ حریم خصوصی کمک کرده، هزینه توسعه مدلهای هوش مصنوعی را کاهش داده و سرعت تولید آنها را نیز افزایش دهند. با این حال، استفاده از دادههای مصنوعی نیازمند ارزیابی، برنامهریزی و کنترلهای دقیق است تا از افت عملکرد مدلها هنگام پیادهسازی جلوگیری شود.
دادههای مصنوعی چطور تولید میشوند؟
داده مصنوعی توسط مدلهای مولد و به کمک الگوریتمهای پیچیده تولید میشود، نه از رخدادهای واقعی. ارزش این دادهها در شباهت آماری آنها به دادههای واقعی است. به عنوان نمونه، دادههای زبانی مصنوعی میتوانند بسیار شبیه متونی باشند که یک انسان نوشته است.
در سالهای اخیر توانایی تولید مدلهای مولدی که قادر به بازتولید دادههای پیچیده هستند، بهبود چشمگیری داشته است. امروزه ما میتوانیم با مقدار اندکی داده واقعی، یک مدل مولد آموزش داده و سپس حجم نامحدودی از داده مصنوعی تولید کنیم که ساختارهای پنهان و الگوهای آماری مشابه دادههای واقعی را حفظ میکند.
چهار نوع اصلی از دادهها وجود دارد: متنی (زبان)، تصویری/ویدیویی، صوتی و جدولی. هرکدام از آنها روش متفاوتی برای ساخت مدلهای مولد دارند. به عنوان مثال، مدلهای زبانی بزرگ (LLM) نمونهای از مدلهای مولدی هستند که هنگام استفاده از آنها در حال تولید داده مصنوعی هستیم.
بسیاری از دادههای تصویری یا متنی در اینترنت در دسترس عمومی هستند، اما دادههای جدولی – مانند تراکنشهای مالی – اغلب در پشت دیوارهای امنیتی سازمانها قرار دارند. دادههای حساس مثل اطلاعات مشتریان بانکها در این گروه جای میگیرند. ابزارهایی مانند Synthetic Data Vault کمک میکنند تا از این دادههای خصوصی، مدلهای مولد ساخته و داده مصنوعی تولید شود؛ بدون آنکه اطلاعات خصوصی افشا شود.
مزایای استفاده از داده مصنوعی چیست و چه کاربردهایی دارند؟
یکی از مهمترین کاربردهای داده مصنوعی، تست نرمافزارهاست. امروزه دادههایی که برای تست عملکرد و منطق نرمافزار استفاده میشود میتوانند بهطور مصنوعی و دقیق تولید شوند. برای مثال، یک شرکت فروش آنلاین میتواند دادههایی تولید کند که رفتار مشتریان واقعی را در یک زمان و مکان خاص شبیهسازی کنند.
از آنجا که این دادهها به دادههای واقعی وابسته نیستند، نگرانیهای امنیتی درباره استفاده از دادههای حساس در محیطهای غیرتولیدی را نیز از بین میبرند. همچنین برای تست عملکرد، میتوان میلیونها تراکنش مصنوعی ایجاد و سرعت پردازش سیستمها را اندازهگیری کرد.
در آموزش مدلهای یادگیری ماشین نیز دادههای مصنوعی حیاتی هستند. برخی وقایع – مانند تقلب مالی – به ندرت رخ میدهند و داده کافی برای آموزش مدل وجود ندارد. دادههای مصنوعی این کمبود را جبران میکنند و میتوانند دقت مدلها را بهبود دهند. همچنین در مواقعی که جمعآوری دادههای واقعی پرهزینه یا زمانبر است، استفاده از داده مصنوعی راهحلی جایگزین و مؤثر محسوب میشود.
چه چالشها و خطراتی در استفاده از داده مصنوعی وجود دارد؟
اولین سوال مهم این است: اگر دادهها واقعی نیستند، آیا میتوان به آنها اعتماد کرد؟ پاسخ این سوال بستگی به نحوه استفاده از دادهها و اعتبار سنجشی دارد که برای آنها انجام میدهیم.
امروزه روشهایی برای مقایسه شباهت آماری دادههای مصنوعی و واقعی، حفظ حریم خصوصی و سنجش کیفیت دادهها ایجاد شده، اما برای استفاده از این نوع دادهها در آموزش مدلهای هوش مصنوعی باید بررسیهای دقیقتری انجام گیرد. اگر دادهها دقیق ساخته نشوند، ممکن است مدلها خروجیهای اشتباهی ایجاد کنند.
معیارهای جدیدی برای ارزیابی کارایی در حال توسعه هستند تا از عملکرد مناسب این مدلها اطمینان حاصل شود. همچنین باید به موضوع سوگیری توجه کرد. چون دادههای مصنوعی از دادههای واقعی محدود ساخته میشوند، احتمال انتقال سوگیری از داده ابتدایی وجود دارد. این مشکل باید از طریق روشهای نمونهگیری دقیق و تنظیم فرایند تولید داده کاهش یابد.
برای کمک به ارزیابی بهتر دادهها، کتابخانهای به نام Synthetic Data Metrics Library طراحی شده که عملکرد و کیفیت داده مصنوعی را بررسی میکند. با گسترش مدلهای مولد و هوش مصنوعی، شیوههای سنتی توسعه نرمافزار، تحلیل داده و ساخت مدلها دستخوش تغییرات بزرگی خواهند شد و قابلیتهای نوینی ایجاد خواهد شد.
منبع: MIT News