دادههای همراه با خطای اندازهگیری و بیپاسخی از مسائلی است که همه مراکز ملی آمار تقریباً در هر مجموعه دادهای با آنها سروكار داشتهاند. خطای اندازهگیری و بیپاسخی تأثیر منفی بر کیفیت جمع آوری دادهها و کیفیت نتایج تولید شده از آن دارند. عدم توجه به این مشکلات منجر به ارائه برآوردهای اریب میشود. درک صحیح و تحلیل این خطاها، پیشنهاد یک فرایند ویرایش و جانهی را که دادههای با کیفیت خوبی را تولید میکند، تضمین میکند.
در دهههای اخیر الگوریتمهای مختلفی برای جانهی مقادیر گمشده با یادگیری ماشین توسعه یافتهاند که میتواند كلاس گستردهتری از روشهای تحلیل انعطافپذیر را ارائه دهد كه با منابع مدرن داده متناسبتر باشد. از اینرو سازمانهای آماری مختلف به کاربردهای مختلف از مباحث یادگیری ماشین روی آوردهاند که یکی از آنها جانهی با استفاده از الگوریتمهای یادگیری ماشین است. در این طرح مطالعاتی ضمن مرور روشهای جانهی با استفاده از روشهای یادگیری ماشین، تجربهی کشورهای مختلف در استفاده از روشهای یادگیری ماشین به منظور جانهی مقادیر گمشده در موضوعات آمار رسمی مورد توجه قرار گرفته است. همچنین کاربردی از آن بر دادههای آمارگیری هزینه و درآمد خانوار مرکز آمار ایران به عنوان یکی از مهمترین طرحهای آمارگیری ارائه میشود. در بخش کاربردی پژوهش، جانهی مقادیر گمشده درآمد خانوار با استفاده از روشهای یادگیری ماشین از جمله رگرسیون بردار پشتیبان، رگرسیون جنگل تصادفی و رگرسیون لگنرمال انجام شده است. همچنین روشهای جانهی سنتی از جمله جانهی میانگین، مد و میانه نیز روی دادهها اعمال شده و در نهایت روشهای جانهی سنتی با روشهای نوین یادگیری ماشین مقایسه شده و بهترین رویکرد مورد استفاده قرار گرفته است.