امروزه صحبت از علم داده و ضرورت استفاده از آن در تمامی ابعاد زندگی مطرح است. نوع، حجم و سرعت دادههای تولیدی علاوه بر اینکه محرک اصلی در توسعه فناوریهای مهدادههاست، باعث رونق دانشی تحت عنوان علم دادهها شده است. اصل و اساس علم داده، یادگیری بر اساس دادههای موجود است که از طریق علم یادگیری آماری صورت میگیرد.
در سالهای اخیر شاهد گستردگی، تنوع و سرعت تولید اطلاعات در حوزههای مختلف از جمله آمار رسمی هستیم. با توجه به ضرورت جایگزینی پردازش محاسباتی ارزانتر، سریعتر و دقیقتر رایانهها به جای انسانها، موضوع یادگیری ماشین و یادگیری آماری از اهمیت بیشتری برخوردار شده است. پیشرفتهای اخیر در یادگیری ماشین هم در خصوص توسعه الگوریتمها و نظریههای جدید یادگیری بوده است و هم در انقلاب دادهها و در دسترس بودن دادههای آنلاین و آمارهای ثبتیمبنا با انجام محاسبات کمهزینه بوده است. بنا بر این اتخاذ روشهای یادگیری آماری قدرتمند منجر به تصمیمگیری شواهدمبنا در بسیاری از زمینهها از جمله آمار رسمی میشود.
یادگیری ماشین و یادگیری آماری، مجموعه وسیعی از ابزارها برای درک دادهها هستند که این ابزارها به دو دستهی راهنماییده و ناراهنماییده تقسیم میشوند. از طرفی یادگیری آماری به عنوان یکی از شاخههای پرکاربرد هوش مصنوعی، با استخراج قوانین معنیدار از دادههای خام ذخیره شده، مبنای علمی و فنی مناسبی را برای دانش دادهکاوی ایجاد نموده است. همچنین یادگیری آماری یک شاخه از آمار کاربردی است که در پاسخ به یادگیری ماشین ظاهر شده است و بر مدلهای آماری و ارزیابی عدم حتمیت تاکید دارد. یادگیری ماشین نیز الگوریتمهایی را ایجاد میکند تا بتواند یادگیری از دادهها را داشته باشد. روشهای یادگیری آماری شامل شیوهها و الگوریتمهایی است که براساس آنها رایانهها به منظور کشف رفتار دادهها، توانایی یادگیری پیدا میکنند .
در سالهای اخیر، پیشرفتهای زیادی در یادگیری آماری با افزایش دسترسی به نرمافزارهای قدرتمند و نسبتاً کاربر پسند، بوجود آمده است. روشهای اصلی آماری در یادگیری آماری را میتوان به ۳ دستهی رگرسیون، ردهبندی و خوشهبندی تقسیم کرد که دو روش اول مربوط به روشهای یادگیری راهنماییده و روش آخر مربوط به روش یادگیری ناراهنماییده است که بسته به نوع متغیر مورد بررسی (کیفی در مقابل کمی) فنون یادگیری راهنماییده منجر به ردهبندی یا رگرسیون و یادگیری ناراهنمایید منجر به خوشهبندی میشود. روشهای یادگیری آماری در بسیاری از فرایندهای تولید داده نیز مورد استفاده قرار میگیرد.
استفاده از روش یادگیری آماری خوشهبندی برای انجام اتصال رکوردها به منظور چارچوبسازی و یکپارچهسازی دادهها، استفاده از ابزار یادگیری آماری ردهبندی برای کدگذاری رشته فعالیتها، مناطق جغرافیایی، مشاغل و ... استفاده از ابزار یادگیری آماری ردهبندی و رگرسیون برای جانهی دادههای گمشده، پیشبینی واکنشهای پاسخگویی، ساخت گروههای همگن برای جانهی، وزندهی مجدد، کالیبره یا طبقهبندی، استفاده از ابزار یادگیری آماری خوشهبندی برای شناسایی نقاط دورافتاده و استفاده از ابزار یادگیری آماری ردهبندی و رگرسیون برای کنترل افشای دادهها از مثالهای کاربردی یادگیری آماری در آمار رسمی است.
در این طرح مطالعاتی ضمن مرور مفاهیم یادگیری آماری و آشنایی با روشهای یادگیری آماری، به معرفی روشهای یادگیری آماری در آمار رسمی و بیان تجربهی کشورهای مختلف در استفاده از روشهای یادگیری آماری در آمار رسمی (روشهای کدگذاری، جورسازی دادهها، چارچوبسازی ....) پرداخته شده است. همچنین سه کاربرد از روشهای یادگیری آماری در متنکاوی شامل کدگذاری خودکار رشته فعالیتهای اقتصادی، تخصیص کد واجد شرایط بودن یا نبودن به پرسش باز عدم تکمیل پرسشنامه و انتساب کد آماری به آدرسهای پستی به صورت خودکار و بدون انجام عملیات میدانی، با استفاده از نرمافزارهای R و SAS انجام شده است.
در مسائل کاربردی اشاره شده، از روشهای متنکاوی برای ردهبندی پرسشهای باز استفاده شده است. در مسائل مربوط به تخصیص کد صحیح ISIC یا ISCO یا هر کد دیگر به پرسشهای باز به صورت خودکار، با تشکیل یک دیکشنری جامع و کامل با استفاده از کدگذاری کتابچههای ردهبندیهای بینالمللی مانند ردهبندی رشته فعالیتهای اقتصادی و دستنوشتههای مأموران آمارگیری از چند آمارگیری قبلی، امکان کدگذاری خودکار رشته فعالیتهای اقتصادی به صورت نیمهخودکار فراهم میشود. کاربرد دیگر متنکاوی در پرسشهای باز، کدگذاری متون نوشته شده در پرسشهایی است که یکی از ردههای آن «سایر با ذکر نام» است. با توجه به اینکه ردهبندی متون گزینهی «سایر با ذکر علت» نیاز به بررسی و درج کد دارد و انجام این کار به صورت دستی زمانبر است، با استفاده از روشهای یادگیری آماری، امکان اختصاص کد به هر متن نوشته شده در سایر، به صورت نیمهخودکار وجود دارد. مثال کاربردی دیگر انتساب آدرسهای آماری به آدرسهای پستی به روش خودکار با استفاده از روشهای یادگیری آماری است که در سرشماری ثبتیمبنا کاربرد دارد. با اتصال آدرس آماری به آدرسهای پستی، امکان برقراری ارتباط بین سرشماری ثبتیمبنا با سرشماریهای سنتی قبلی و ارائهی اطلاعات سرشماری ثبتیمبنا به صورت سریهای زمانی در پایینترین سطوح جفرافیایی نیز فراهم میشود. در ایران بیش از ۲۰ درصد کدهای آماری در مرکز آمار منتسب به آدرسهای پستی نیست. با استفاده از روشهای یادگیری آماری و آموزش مدل با استفاده از ۸۰ درصد کدهای آماری منتسب به آدرسهای پستی، امکان انتساب کد آماری به آدرسهای پستی منطبق نشده فراهم میشود.