هنگامي كه اطلاعات جامع در مورد يك موضوع واحد در چند مجموعه داده يا فايل قرار دارد، استفاده از يك مجموعه داده به معني از دست دادن اطلاعات موجود در ساير مجموعه دادهها است . بنا براين يكپارچه ساختن اطلاعات پراكنده در مجموعه دادههاي مختلف مي تواند بسيار سودمند باشد . در اين راستا لازم است ركوردهاي يكسان در مجموعه دادههاي متفاوت شناسايي و فايلي حاوي اطلاعات كامل و منحصر به فرد تهيه شود . علاوه بر اين گاهي در يك مجموعه داده ركوردهاي تكراري وجود دارند و لازم است موارد تكراري شناسايي و حذف شوند . شناسايي واحدهاي تكراري درون يك مجموعه داده يا واحدهاي يكسان بين مجموعه داده هاي متفاوت را انطباق ركوردها مي نامند. در اين طرح پژوهشي مراحل مختلف آماده سازي فايل ها از جمله بلوك بندي، استانداردسازي و مقايسهي رشته فيلدها براي فايلهاي فارسي، كه با مشكلات خاصي همراه هستند، مورد بررسي قرار گرفته و راه حلهاي مناسب ارائه شده است. همچنين معيارهاي تعيين فيلدهاي قابل مقايسه، انتخاب آستانهها، تعيين سطوح خطاهاي پذيرفتني، مباني نظري انطباق ركوردها، الگوريتمهاي انطباق، نحوه ي براورد پارامترها، انواع خطاهاي انطباق و تحليل رگرسيوني ركوردهاي انطباق يافته به طور كامل مورد مطالعه قرار گرفته و نهايتاً روشي مناسب براي انطباق ركوردها پيشنهاد شده است . سپس بر اساس مدل پيشنهادي ركوردهاي دو فايل سرشماري كارگاهي سال هاي 1373 و 1381 پيوند داده شدهاند و از طريق بازبيني دستي نتايج حاصل، ميزان دقت انطباق ركوردها ارزيابي شده و با استناد به آنها را هكارهايي برايافزايش دقت الگوريتم انطباق پيشنهاد شده است. اجراي اين طرح پژوهشي در آذر 1385 آغاز شد و در دي ماه 1386 به پايان رسيد . مجري اين طرح پژوهشي آقاي دكتر محسن محمدزاده، دانشيار دانشگاه تربيت مدرس، بودند.