آرشیو طرح‌های پژوهشی

/پژوهش/طرح‌های پژوهشی/آرشیو طرح‌های پژوهشی

یادگیری آماری و کاربردهای آن در آمار رسمی

یادگیری آماری و کاربردهای آن در آمار رسمی

  • نویسنده / نویسندگان: زهرا رضایی قهرودی
  • وضعیت اجرا: پایان یافته
  • تاریخ پایان: اردیبهشت ۱۳۹۹
  • همکاران: حسن رنجی، علیرضا رضایی
  • گروه پژوهشی مسئول: گروه پژوهشی طرح‌های فنی و روش‌های آماری
  • واژه های کلیدی: آمار رسمی، علم داده، یادگیری آماری
  • زمان اجرا : آبان ۱۳۹۷

امروزه صحبت از علم داده و ضرورت استفاده از آن در تمامی ابعاد زندگی مطرح است. نوع، حجم و سرعت داده‌های تولیدی علاوه بر اینکه محرک اصلی در توسعه فناوری‌های مه‌داده‌هاست، باعث رونق دانشی تحت عنوان علم داده‌ها شده است. اصل و اساس علم داده، یادگیری بر اساس داده‌های موجود است که از طریق علم یادگیری آماری صورت می‌گیرد.

در سال‌های اخیر شاهد گستردگی، تنوع و سرعت تولید اطلاعات در حوزه‌های مختلف از جمله آمار رسمی هستیم. با توجه به ضرورت جایگزینی پردازش محاسباتی ارزا‌ن‌تر، سریعتر و دقیق‌تر رایانه‌ها به جای انسا‌ن‌ها، موضوع یادگیری ماشین و یادگیری آماری از اهمیت بیشتری برخوردار شده است. پیشرفت‌های اخیر در یادگیری ماشین هم در خصوص توسعه الگوریتم‌ها و نظریه‌های جدید یادگیری بوده است و هم در انقلاب داده‌ها و در دسترس بودن داده‌های آنلاین و آمارهای ثبتی‌مبنا با انجام محاسبات کم‌هزینه بوده است. بنا بر این اتخاذ روش‌های یادگیری آماری قدرتمند منجر به تصمیم‌گیری شواهدمبنا در بسیاری از زمینه‌ها از جمله آمار رسمی می‌شود.

یادگیری ماشین و یادگیری آماری، مجموعه وسیعی از ابزارها برای درک داده‌ها هستند که این ابزارها به دو دسته‌ی راهنماییده و ناراهنماییده تقسیم می‌شوند. از طرفی یادگیری آماری به عنوان یکی از شاخه‌های پرکاربرد هوش مصنوعی، با استخراج قوانین معنی‌دار از داده‌های خام ذخیره شده، مبنای علمی و فنی مناسبی را برای دانش داده‌کاوی ایجاد نموده است. همچنین یادگیری آماری یک شاخه از آمار کاربردی است که در پاسخ به یادگیری ماشین ظاهر شده است و بر مدل‌های آماری و ارزیابی عدم حتمیت تاکید دارد. یادگیری ماشین نیز الگوریتم‌هایی را ایجاد می‌کند تا بتواند یادگیری از داده‌ها را داشته باشد. روش‌های یادگیری آماری شامل شیوه‌ها و الگوریتم‌هایی است که براساس آنها رایانه‌ها به منظور کشف رفتار داده‌ها، توانایی یادگیری پیدا می‌کنند .

در سال‌‌های اخیر، پیشرفت‌های زیادی در یادگیری آماری با افزایش دسترسی به نرم‌افزارهای قدرتمند و نسبتاً کاربر پسند، بوجود آمده است. روش‌های اصلی آماری در یادگیری آماری را می‌توان به ۳ دسته‌ی رگرسیون، رده‌بندی و خوشه‌بندی تقسیم کرد که دو روش اول مربوط به روش‌های یادگیری راهنماییده و روش آخر مربوط به روش یادگیری ناراهنماییده است که بسته به نوع متغیر مورد بررسی (کیفی در مقابل کمی) فنون یادگیری راهنماییده منجر به رده‌بندی یا رگرسیون و یادگیری ناراهنمایید منجر به خوشه‌بندی می‌شود. روش‌های یادگیری آماری در بسیاری از فرایندهای تولید داده‌ نیز مورد استفاده قرار می‌گیرد.

استفاده از روش یادگیری آماری خوشه‌بندی برای انجام اتصال رکوردها به منظور چارچوب‌سازی و یکپارچه‌سازی داده‌ها، استفاده از ابزار یادگیری آماری رده‌بندی برای کدگذاری رشته فعالیت‌ها، مناطق جغرافیایی، مشاغل و ... استفاده از ابزار یادگیری آماری رده‌بندی و رگرسیون برای جانهی داده‌های گم‌شده، پیش‌بینی واکنش‌های پاسخگویی، ساخت گروه‌های همگن برای جانهی، وزن‌دهی مجدد، کالیبره یا طبقه‌بندی، استفاده از ابزار یادگیری آماری خوشه‌بندی برای شناسایی نقاط دورافتاده و استفاده از ابزار یادگیری آماری رده‌بندی و رگرسیون برای کنترل افشای داده‌ها از مثال‌های کاربردی یادگیری آماری در آمار رسمی است.

در این طرح مطالعاتی ضمن مرور مفاهیم یادگیری آماری و آشنایی با روش‌های یادگیری آماری، به معرفی روش‌های یادگیری آماری در آمار رسمی و بیان تجربه‌ی کشورهای مختلف در استفاده از روش‌های یادگیری آماری در آمار رسمی (روش‌های کدگذاری، جورسازی داده‌ها، چارچوب‌سازی ....) پرداخته شده است. همچنین سه کاربرد از روش‌های یادگیری آماری در متن‌کاوی شامل کدگذاری خودکار رشته فعالیت‌های اقتصادی، تخصیص کد واجد شرایط بودن یا نبودن به پرسش باز عدم تکمیل پرسشنامه و انتساب کد آماری به آدرس‌های پستی به صورت خودکار و بدون انجام عملیات میدانی، با استفاده از نرم‌افزارهای R و SAS انجام شده است.

در مسائل کاربردی اشاره شده، از روش‌های متن‌کاوی برای رده‌بندی پرسش‌های باز استفاده شده است. در مسائل مربوط به تخصیص کد صحیح ISIC یا ISCO یا هر کد دیگر به پرسش‌های باز به صورت خودکار، با تشکیل یک دیکشنری جامع و کامل با استفاده از کدگذاری کتابچه‌های رده‌‌بندی‌های بین‌المللی مانند رده‌بندی رشته فعالیت‌های اقتصادی و دست‌نوشته‌های مأموران آمارگیری از چند آمارگیری قبلی، امکان کدگذاری خودکار رشته فعالیت‌های اقتصادی به صورت نیمه‌خودکار فراهم می‌شود. کاربرد دیگر متن‌کاوی در پرسش‌های باز، کدگذاری متون نوشته شده در پرسش‌هایی است که یکی از رده‌های آن «سایر با ذکر نام» است. با توجه به اینکه رده‌بندی متون گزینه‌ی «سایر با ذکر علت» نیاز به بررسی و درج کد دارد و انجام این کار به صورت دستی زمان‌بر است، با استفاده از روش‌های یادگیری آماری، امکان اختصاص کد به هر متن نوشته شده در سایر، به صورت نیمه‌خودکار وجود دارد. مثال کاربردی دیگر انتساب آدرس‌های آماری به آدرس‌های پستی به روش خودکار با استفاده از روش‌های یادگیری آماری است که در سرشماری ثبتی‌مبنا کاربرد دارد. با اتصال آدرس آماری به آدرس‌های پستی، امکان برقراری ارتباط بین سرشماری ثبتی‌مبنا با سرشماری‌های سنتی قبلی و ارائه‌ی اطلاعات سرشماری ثبتی‌مبنا به صورت سری‌های زمانی در پایین‌ترین سطوح جفرافیایی نیز فراهم می‌شود. در ایران بیش از ۲۰ درصد کدهای آماری در مرکز آمار منتسب به آدرس‌های پستی نیست. با استفاده از روش‌های یادگیری آماری و آموزش مدل با استفاده از ۸۰ درصد کدهای آماری منتسب به آدرس‌های پستی، امکان انتساب کد آماری به آدرس‌های پستی منطبق نشده فراهم می‌شود. 

 

فایل های پیوستی
طراحی سایت