به مناسبت هفته پژوهش و فناوری، پژوهشکده آمار سلسله سخنرانی های علمی – تخصصی را در تاریخ 24 آذر ماه 1399 از ساعت 18 تا 20 روز دوشنبه به صورت مجازی با حضور خانم دکتر آرزو باقری «مدیر گروه روشهای آماری و مدلسازی جمعیت مؤسسه مطالعات و مدیریت جامع و تخصصی جمعیت کشور»، آقای دکتر رضا عربی بلاغی «استادیار گروه آمار دانشکده علوم ریاضی دانشگاه تبریز»، خانم دکتر مهسا سعادتی «دانشیار گروه روشهای آماری و مدلسازی جمعیت مؤسسه مطالعات و مدیریت جامع و تخصصی جمعیت کشور» و دکتر محمد شیری «عضو هیات علمی و مدیر گروه پردازش داده ها و اطلاع رسانی پژوهشکده آمار» برگزار شد.
در ابتدای این نشست خانم دکتر آرزو باقری به ارایه سخنرانی با موضوع «تحلیل فاصله ازدواج تا فرزندآوری با استفاده از جنگل تصادفی بقا و درخت بقا» پرداختند که در ادامه به صورت خلاصه گزارشی از این سخنرانی آمده است.
داده های زمان تا وقوع رخداد یک واقعه، که از نوع داده های بقا هستند، در تمام حوزه های علمی مانند علوم اجتماعی و پزشکی کاربرد دارند. اغلب برای مطالعه داده های بقا که شامل داده های سانسور شده نیز هستند، از مدل رگرسیونی مخاطرات متناسب کاکس و مدلهای تعمیم یافته آن استفاده میشود. از آنجا که این مدلهای نیمه-پارامتری (یا پارامتری) تفسیر سادهای از اثرات متغیرهای پیشبین را امکانپذیر میکنند و می توانند به راحتی برای انجام استنباطهای آماری (آزمون فرض و سایر آزمونها) مورد استفاده قرار گیرند، مدلهای مناسبی برای تحلیل این نوع داده ها هستند. هر چند که این مدلها با چالشهایی از قبیل مفروض قرار دادن یک ارتباط تعیین شده میان متغیرهای پیشبین و متغیر پاسخ (پیش فرض مخاطرات متناسب) روبرو که اگر پژوهشگر تمایل به در نظر گرفتن آنها نداشته باشد، رویکردهای منعطف تری در دسترس هستند. همچنین، با پیشرفت فناوری امروزه، امکان جمعآوری مجموعه دادههای بزرگ فراهم شده است. حجم بزرگ دادهها از یک سو اطلاعات وسیعی را در اختیار پژوهشگران قرار میدهد و از سوی دیگر آنان را با چالش چگونگی استفاده از آنها مواجه مینماید. در نتیجه، بهمنظور بهرهمندی از اطلاعات، نیاز به مدیریت و سازماندهی صحیح داده ها ضروری به نظر میرسد. درختان بقا رویکرد ناپارامتری جایگزین برای مدلهای نیمه-پارامتری (پارامتری) مانند مدل رگرسیونی مخاطرات متناسب کاکس میباشند. این مدل درختی انعطاف خیلی زیادی در کاربرد دارد و میتواند به طور خودکار مجموعهای از اثرات متقابل متغیرهای پیشبین را بدون نیاز به تعیین آنها پیش از آغاز پژوهش بررسی نماید. علاوه بر آن، درختان به تنهایی می توانند متغیرهای پاسخ را براساس توابع بقا و متغیرهای پیشبین گروه بندی نمایند و سپس گروه های همگن میتوانند به راحتی از درختان بقا استخراج شوند. همچنین، این درختان، کاندیدهای ایده آلی برای ترکیب از طریق محاسبه میانگین بقا در روشهای گروهی هستند و می توانند به ابزار پیش بینی قدرتمندی مانند جنگلهای بقا که نسبت به درختان بقا واریانس و اریبی کمتری دارند و از قدرت تعمیم پذیری بالاتری نیز برخوردار هستند، تبدیل شوند. مهمترین ویژگی جنگلهای بقا عملکرد مناسب آنها در اندازه گیری اهمیت متغیرهای پیشبین مطالعه است. این مدل برای پژوهش های علوم اجتماعی و پزشکی که امروزه با حجم و بعد بالایی از داده ها روبرو هستند؛ کارایی مناسبی دارد. از خصوصیات دیگر این مدلها، پیچیدگی کم، تفسیر ساده و عدم وجود پیش فرض های ساختاری در آنها است. تصادفی شدن به فرایند جنگل بقا به منظور ایجاد درختان غیرهمبسته اضافه شده است. در این سخنرانی، با توجه به اهمیت تحلیل دادههای فاصله ازدواج تا فرزندآوری با استفاده از جنگلهای بقا، ابتدا به معرفی انواع جنگلهای تصادفی بقا پرداخته میشود. سپس به منظور تحلیل این فاصله، پس از بررسی عدم کارایی مدل رگرسیونی مخاطرات متناسب کاکس، الگوریتم های جنگل های تصادفی بقا و جنگل بقای استنباط شرطی براساس شاخصهای مختلف عملکرد پیش بینی با هم مقایسه خواهند شد و کاراترین الگوریتم جنگل بقا برای یافتن متغیرهای پیشبین مؤثر در این تحلیل انتخاب میشود. پس از انتخاب متغیرهای پیشبین مؤثر در تحلیل فاصله ازدواج تا فرزندآوری، درخت بقای کارت به منظور طبقه بندی مشاهدات براساس متغیرهای پیشبین منتخب به داده ها برازش و نتایج آن تفسیر می شود.
در ادامه این وبینار آقای دکتر رضا عربی بلاغی سخنرانی خود را با موضوع «بکارگیری یاد گیری ماشین در پیش بینی وقوع زایمان زودرس» و اشاره به تولد نوزادان نارس ( تولد قبل از سی و هفت هفتگی) که حدود ۵ تا ده درصدکل تولدها را شامل می شود، عموما مشکلات عدیده جسمی و روانی را موجب می شود که در مواردی این مشکلات ممکن است تا آخر عمر همراه فرد باشد. هدف از انجام این پژوهش، استفاده از تکنیکهای یادگیری ماشین در پیش بینی وقوع زایمان زودرس بود تا با شناسایی عوامل موثر بر این پدیده، به پیشگیری به هنگام این بیماری پرداخت. در این مطالعه که بر روی ۳۰۰ هزار نوزاد تازه متولد شده در کانادا صورت گرفت، مهمترین عوامل موثر بر زایمان زودرس با استفاده از الگوریتم بروتا (یکی از ابزارهای یادگیری ماشین) شناسایی شد و در ادامه مدلهای مختلف این تکنیک شامل درخت تصمیم، جنگل تصادفی، شبکههای عصبی مصنوعی و رگرسیون لجستیک با برآوردگر انقباضی پسین، برای پیش بینی این بیماری برازش شد. نتایج نشان داد که روشهای شبکههای عصبی مصنوعی و رگرسیون لجستیک با برآوردگر انقباضی به دلیل داشتن بیشترین مساحت زیر منحنی (AUC) در داده های آزمایشی، بالاترین دقت را در میان سایر مدل ها داشتند. همچنین جهت کاهش اریبی از روش بیش نمونه گیری SMOTE در داده های آموزشی استفاده شد، سخنرانی خود را ارایه نمودند.
و سپس خانم دکتر مهسا سعادتی سخنرانی خود را با موضوع «تحلیل فواصل موالید با استفاده از مدلهای بازگشتی بقا» آغاز نمود، ایشان با اشاره به اینکه فاصله موالید، متغیری مهم در شناسایی شتاب باروری، باروری کل و سلامت و بهداشت مادر و فرزند میباشد و از این رو مورد توجه بسیاری از محققان علوم اجتماعی، پزشکی و بهداشتی قرار دارد و تحلیل صحیح آن از اهمیت بسزایی در مطالعات مختلف برخوردار است. فواصل موالید وقایع بازگشتی هستند زیرا یک زن میتواند فرزندآوری را چندین بار، یکی پس از دیگری و به صورت متوالی تجربه نماید و در نتیجه این فواصل با یکدیگر همبستگی دارند.
استفاده از روشهای متداول آماری نظیر مدلهای کلاسیک بقا (رگرسیون کاکس و مدلهای پارامتری بقا) در تحلیل این فواصل نتایج ناکارایی به دنبال دارد و کاربرد این مدلها در تحلیل وقایع بازگشتی که در آنها استقلال میان وقایع از مهمترین پیشفرضها برای تولید نتایج معتبر است، نتایج گمراهکنندهای به دنبال خواهد داشت. در تحلیل این متغیر مدلهای بازگشتی بقا شامل مدلهای تصحیح واریانس و شکنندگی به دلیل درنظر گرفتن همبستگی میان فواصل کارا هستند.
با توجه به اهمیت بکارگیری روشهای معتبر آماری در تحلیل فواصل موالید، در پژوهشی که در سال 1398 انجام گرفت، فواصل موالید اول تا سوم زنان 15- 49 ساله متأهل ساکن در شهر تهران با استفاده از انواع روشهای تحلیل سابقه رخداد واقعه شامل مدلهای کلاسیک و بازگشتی بقا مورد تجزیه و تحلیل قرار گرفتند.
در مطالعه مذکور به منظور بررسی تأثیر همزمان متغیرهای پیشبین مورد مطالعه روی فواصل موالید، مدلهای کاکس و پارامتری بقا برای هر یک از فواصل موالید اول تا سوم به صورت جداگانه برازش یافت و نتایج حاصل از آنها با یافتههای حاصل از برازش انواع مدلهای بازگشتی شامل مدل اندرسون- گیل (AG)، پرنتیس- ویلیام-پترسون (PWP) برای زمان کل و فواصل زمانی (PWP-TT و PWP-GT) و شکنندگی مقایسه شدند. نتایج نشان داد که استفاده از مدل کاکس و پارامتری بقا تنها در صورتیکه هدف، مطالعه زمان ازدواج تا اولین فرزندآوری باشد از کارایی مناسبی برخوردار است. همچنین با توجه به نوع پاسخ مورد مطالعه که فاصله میان موالید است؛ از میان مدلهای AG، PWP-TT و PWP-GT، مدل PWP-GT به عنوان مدل نهایی انتخاب و تفسیر شد. با توجه به اینکه مقدار شکنندگی در مدل، برای بیان تغییرات فواصل معنیدار نبود، مدل شکنندگی مدل مناسبی برای تفسیر نتایج این متغیر نبود.
براساس نتایج حاصل از برازش مدل PWP-GT، متغیرهای دوره تقویمی، سن ازدواج و وضعیت مهاجرت روی هر دو فواصل موالید دوم و سوم تأثیری معنیدار داشتند (05/0> p-value). در دورههای تقویمی اخیر نسبت به اولین دوره تقویمی، طول فواصل موالید دوم و سوم افزایش یافته و این افزایش فاصله برای دوره اخیر با شدت بیشتری رخ داده است. همچنین با افزایش سن ازدواج، طول فواصل موالید دوم و سوم فرزندآوری کاهش یافته است. فواصل موالید دوم و سوم زنان مهاجر به ترتیب 298/1 و 404/1 برابر کوتاهتر از زنان غیرمهاجر بود. وضع فعالیت و منطقه محل سکونت زنان نیز بر فاصله موالید دوم آنان تأثیرگذار بود (05/0>p-value)؛ زنان شاغل (758/0) و ساکن در مناطق نسبتاً توسعهیافته (576/0)، توسعهیافته (705/0) و با توسعه متوسط (819/0) به ترتیب نسبت به زنان غیرشاغل و زنانی که در مناطق توسعه نیافته سکونت داشتند، دیرتر فرزند دوم خود را به دنیا آورده بودند؛ سخنرانی خود رابه پایان رساند.
ودر پایان آقای دکتر محمد شیری سخنرانی خود را با عنوان «بررسی ویژگیهای اقتصادی و اجتماعی و جمعیتی سالخوردگان مناطق 22 گانه شهر تهران» ارایه کردند که خلاصه این مطالب در ادامه آورده شده است. سالمندی جمعیت یکی از مهمترین فازهای گذار ساختار سنی است. ایران پس از ۱۴۱۵ وارد فاز سالمندی جمعیت خواهد شد. این مهم در آینده یکی از مهمترین مساله اجتماعی- جمعیتی خواهد بود که پیامدهای اقتصادی، اجتماعی و سلامت را در پی دارد. لزوم برنامه ریزی برای مواجهه با پیامدهای این مساله اجتماعی و جمعیتی همواره یکی از دغدغه های سیاستگذاران بوده است. شناخت دقیق و همه جانبه ابعاد سالمندی چه در مفهوم فردی آن و چه در قالب یکی از فازهای گذار ساختار سنی پیش زمینه هر نوع برنامه ریزی و سیاستگذاری است. این امر جز با دسترسی بر داده ها و اطلاعات دقیق و با گستره موضوعی بالا امکان ناپذیر است. در این ارائه سعی بر این بوده است تا منابع آماری موجود داده های سالمندی با تکیه بر منبع داده های ثبتی/اداری، سرشماری عمومی نفوس و مسکن و آمارگیری های نمونه معرفی نموده و نقش روش های آماری پیشرفته در مواجهه با نقائص موجودیت داده مورد بررسی قرار گیرد. علاوه بر این، شاخص های قابل استنتاج در بررسی سالمندی از مهمترین و دقیقترین منبع آماری در کشور یعنی سرشماری عمومی نفوس و مسکن در قالب مطالعه موردی شهر تهران ارائه شده است.
این میزگرد با تعامل و همکاری پژوهشکدهی آمار، مؤسسه مطالعات و مدیریت جامع و تخصصی جمعیت کشور، دانشگاه تبریز و حضور پژوهشگران دانشگاهها، مدیران دستگاههای اجرایی و دانشجویان برگزار شد.