تکنیک اعتبارسنجی به دانشمندان کمک می‌کند پیش‌بینی‌های دقیق‌تری داشته باشند

آیا قبل از خروج از خانه باید چتر بردارید؟ تنها در صورتی که پیش‌بینی هواشناسی دقیق باشد، بررسی وضعیت آب‌وهوا به شما کمک خواهد کرد.

مسائل پیش‌بینی مکانی، مانند پیش‌بینی آب‌وهوا یا برآورد میزان آلودگی هوا، شامل پیش‌بینی مقدار یک متغیر در یک مکان جدید بر اساس مقادیر شناخته‌شده در سایر مکان‌ها است. دانشمندان معمولاً از روش‌های معتبر ارزیابی برای تعیین میزان قابل‌اعتماد بودن این پیش‌بینی‌ها استفاده می‌کنند.

اما محققان MIT نشان داده‌اند که این روش‌های ارزیابی رایج ممکن است برای مسائل پیش‌بینی مکانی به‌درستی عمل نکنند. این موضوع می‌تواند باعث شود افراد گمان کنند که یک پیش‌بینی دقیق است یا یک روش جدید به‌درستی کار می‌کند، درحالی‌که این‌طور نیست.

این محققان تکنیکی برای ارزیابی روش‌های ارزیابی پیش‌بینی توسعه داده و اثبات کرده‌اند که دو روش کلاسیک می‌توانند در مشکلات مکانی به‌شدت دچار خطا شوند. آنها سپس دلایل شکست این روش‌ها را بررسی کرده و یک روش جدید برای تجزیه‌وتحلیل داده‌های مکانی طراحی کردند.

در آزمایش‌هایی با داده‌های واقعی و شبیه‌سازی‌شده، این روش جدید نسبت به دو روش رایج دیگر، ارزیابی‌های دقیق‌تری ارائه کرد. محققان هر روش را با مشکلات مکانی واقعی ارزیابی کردند، ازجمله پیش‌بینی سرعت باد در فرودگاه O-Hare شیکاگو و پیش‌بینی دمای هوا در پنج شهر بزرگ آمریکا.

روش ارزیابی آن‌ها می‌تواند در زمینه‌های مختلفی کاربرد داشته باشد، از کمک به دانشمندان اقلیم‌شناسی برای پیش‌بینی دمای سطح دریا گرفته تا کمک به متخصصان اپیدمیولوژی برای تخمین اثرات آلودگی هوا بر برخی بیماری‌ها.

تامارا برودریک، دانشیار گروه مهندسی برق و علوم کامپیوتر دانشگاه MIT، می‌گوید: “امیدواریم این کار منجر به ارزیابی‌های قابل‌اطمینان‌تر در هنگام توسعه روش‌های پیش‌بینی جدید شود و به درک بهتر عملکرد این روش‌ها کمک کند.”

برودریک به همراه دیوید آر. بورت، پژوهشگر پسادکتری MIT، و یون‌یی شن، دانشجوی دکتری رشته مهندسی برق و علوم کامپیوتر، این پژوهش را انجام داده‌اند. این تحقیق در کنفرانس بین‌المللی آمار و هوش مصنوعی ارائه خواهد شد.

ارزیابی روش‌های اعتبارسنجی

گروه تحقیقاتی برودریک اخیراً با اقیانوس‌شناسان و دانشمندان جو همکاری کرده است تا مدل‌های یادگیری ماشینی‌ای را توسعه دهند که در حل مسائل مرتبط با داده‌های مکانی کاربرد دارند.

در طول این پژوهش، آنها دریافتند که روش‌های اعتبارسنجی سنتی در ارزیابی داده‌های مکانی می‌توانند به‌اشتباه عمل کنند. این روش‌ها معمولاً مقدار کمی از داده‌های آموزش را به‌عنوان داده‌های اعتبارسنجی کنار می‌گذارند و از آنها برای ارزیابی دقت مدل استفاده می‌کنند.

محققان با تجزیه‌وتحلیل این موضوع متوجه شدند که روش‌های سنتی، فرضیاتی ارائه می‌کنند که برای داده‌های مکانی مناسب نیستند. این روش‌ها معمولاً فرض می‌کنند که داده‌های آزمایشی و داده‌های اعتبارسنجی مستقل از هم و به‌طور یکسان توزیع شده‌اند، درحالی‌که در بسیاری از مسائل مکانی این فرض درست نیست.

برای مثال، ممکن است یک دانشمند بخواهد از داده‌های حسگرهای کیفیت هوای آژانس حفاظت از محیط‌زیست (EPA) برای ارزیابی دقت یک مدل پیش‌بینی آلودگی هوا در مناطق حفاظت‌شده استفاده کند. اما این حسگرها مستقل از یکدیگر نیستند، بلکه موقعیت آن‌ها بر اساس مکان سایر حسگرها انتخاب شده است.

برودریک می‌گوید: “آزمایش‌های ما نشان داد که وقتی این فرضیات اعتبارسنجی در موارد مکانی نقض می‌شوند، نتایج کاملاً نادرستی به دست می‌آید.”

تمرکز بر مسائل مکانی

با در نظر گرفتن ماهیت داده‌های مکانی، محققان روشی طراحی کردند که فرض می‌کند داده‌های آزمایشی و داده‌های اعتبارسنجی به‌طور یکنواخت در فضا تغییر می‌کنند.

برای مثال، احتمال تغییر ناگهانی سطح آلودگی هوا بین دو خانه‌ی مجاور کم است.

برودریک می‌گوید: “این فرض در بسیاری از فرآیندهای مکانی معتبر است و به ما اجازه می‌دهد راهی برای ارزیابی مدل‌های پیش‌بینی مکانی ایجاد کنیم. تا جایی که ما اطلاع داریم، تاکنون ارزیابی نظری دقیق این موضوع برای ارائه یک رویکرد بهتر انجام نشده است.”

این روش کاربران را قادر می‌سازد تا با وارد کردن پیش‌بینی‌کننده، مکان‌های موردنظر برای پیش‌بینی و داده‌های اعتبارسنجی، به‌طور خودکار دقت پیش‌بینی را برآورد کنند. اما ارزیابی اثربخشی این روش، چالش‌برانگیز بود.

برودریک توضیح می‌دهد: “ما در حال ارزیابی یک روش نبودیم، بلکه یک ارزیابی را ارزیابی می‌کردیم. بنابراین، مجبور شدیم به‌دقت فکر کنیم و آزمایش‌های مناسب را طراحی کنیم.”

محققان در ابتدا آزمایش‌هایی را با داده‌های شبیه‌سازی‌شده اجرا کردند تا کنترل دقیقی روی پارامترهای کلیدی داشته باشند. سپس داده‌های نیمه‌شبیه‌سازی‌شده ایجاد کردند که با داده‌های واقعی ترکیب شده بود. درنهایت، این روش را بر روی داده‌های واقعی نیز آزمایش کردند.

استفاده از داده‌های واقعی در مسائل مختلف، مانند پیش‌بینی قیمت املاک در انگلستان براساس موقعیت جغرافیایی و پیش‌بینی سرعت باد، به آنها امکان ارزیابی جامع این روش را داد. در اکثر آزمایش‌ها، این روش نسبت به روش‌های سنتی دقت بالاتری داشت.

در آینده، این محققان قصد دارند از این روش برای بهبود سنجش عدم قطعیت در پیش‌بینی‌های مکانی استفاده کنند. آنها همچنین می‌خواهند بررسی کنند که آیا این فرض می‌تواند دقت پیش‌بینی‌ها را در سایر حوزه‌ها، مانند داده‌های سری‌زمانی، افزایش دهد یا خیر.

این پژوهش با حمایت مالی بنیاد ملی علوم و دفتر تحقیقات نیروی دریایی انجام شده است.

لینک منبع: مشاهده مقاله کامل

اخبار هوش مصنوعی

تکنیک اعتبارسنجی به دانشمندان کمک می‌کند پیش‌بینی‌های دقیق‌تری داشته باشند

ارزیابی روش‌های اعتبارسنجی

تمرکز بر مسائل مکانی

سینا نشاط

دیدگاهتان را بنویسید لغو پاسخ