تحصيلات تکميلي

نام و نام خانوادگي : آرين اسماعيلي شريف

دانشکده : فني و مهندسي

استاد راهنما : دکتر ناصر موحدي نيا

تاريخ دفاع : 30/7/84

رشته و گرايش : کامپيوتر-نرم افزار

استاد مشاور : -

استخراج آراستمان و طبقه بندي نواحي اسناد چاپي فارسي

چکيده

با رشد و گسترش كامپيوتر در اوائل دهه 1980، اصطلاح دفتر كار بدون كاغذ بسيار باب شد. اما پس از چندي مشخص شد كه اين رشد، نه تنها به حذف كاغذ نيانجاميد بلكه به گسترش استفاده از آن نيز كمك كرد. امروزه بحث بر سر نحوه نگاشت كاغذ به دنياي كامپيوتر است تا پردازش مستندات غيرالكترونيكي به طور خودكار ممكن شود. حداقل دستاورد اين نگاشت، دادن امكان انواع جستجوها روي متن اسناد به پژوهشگران است. ايجاد فرم الكترونيكي اسناد (با قابليت ويرايش) از ديگر دستاوردهاست.

نياز فوق‌الذكر به خلق يك زمينه تحقيقاتي-كاربردي به نام پردازش تصوير سند منجر شد كه خود شامل دو بخش است: تحليل تصوير سند و درك تصوير سند. هدف از تحليل تصوير سند، استخراج آراستمان فيزيكي (يعني مرز نواحي بهمراه نوع آنها) و غايت درك تصوير آن، استخراج آراستمان منطقي مي‌باشد.

در تحليل تصوير سند، ابتدا يكسري اعمال پيش‌پردازشي روي تصوير سند (كه عمدتاً از طريق اسكن‌كردن به دست آمده است) انجام مي‌گردد. مهمترين اين اعمال، تخمين و حذف كجي تصوير مي‌باشد. سپس آراستمان سند در قالب مرز نواحي چاپ شده استخراج مي‌گردد. بعد از آن نوع هر يك از نواحي استخراج شده (متن، عكس و ترسيمه) تعيين مي‌گردد. در درك تصوير سند، با انجام پردازشهاي خاص روي نواحي، ارتباط منطقي بين آنها مشخص مي‌شود.

اين تحقيق، روي تحليل تصوير اسناد چاپي فارسي متمركز است. براي تخمين كجي تصوير روشي نو ارائه گرديده است. در اين روش ابتدا تصوير سند به نوارهاي باريك عمودي شكسته مي‌شود. سپس نيمرخ تصويري افقي هر يك از اين نوارها محاسبه مي‌شود. خط قاعده اين نيمرخها كه پاره‌خط عمودي ناميده مي‌شود، سنگ بناي روش ما مي‌باشد.

براي استخراج آراستمان، يكي از روشهاي موجود، اصلاح و پياده‌سازي شده است. در اين روش ابتدا نوعي آغشته‌سازي انجام مي‌شود. سپس از فضاهاي خالي (سفيد) اطراف نواحي چاپ شده جهت استخراج مرز اين نواحي بهره‌گيري مي‌شود. از مزاياي اين روش مي‌توان قابليت تطبيق آن با مستندات فارسي، امكان اعمال آن بر نواحي با هر شكل و سرعت خوب و دقت توصيف فوق‌العاده را ذكر كرد.

براي تعيين نوع هر يك از نواحي، دو ويژگي از هر ناحيه استخراج مي‌شود. سپس با كمك يك طبقه‌بندي كننده ساده، نوع هر يك تعيين مي‌شود. در صورتي كه داده آموزشي به قدر كافي موجود باشد، مي‌توان از يك طبقه‌بندي كننده فازي جديد كه در ضميمه معرفي شده است نيز استفاده كرد.