تحصيلات تکميلي

نام و نام خانوادگي : ابوالقاسم صرافان

دانشکده : فني و مهندسي

استاد راهنما : دکتر ناصر قاسم آقايي

تاريخ دفاع : 8/11/82

رشته و گرايش : کامپيوتر-نرم افزار

استاد مشاور : -

طراحي يک سيستم هوشمند موضوع بندي و تعيين ارتباطات معنايي در متن‌هاي متراکم فارسي

چکيده

در اين تحقيق روشهايي جهت بکارگيري در سيستم نصير ، جهت تحليل متن فارسي و موضوع‌بندي آن ارائه خواهد شد. نصير يک سيستم هوشمند جهت موضوع بندي و جستجو است که براي متن‌هاي متراکم در زبان فارسي مورد استفاده قرارگيرد.

متن متراکم متني است، که شامل دامنه وسيعي از موضوعات باشد. يا به عبارت ديگر ميزان چگالي موضوعي (تعداد موضوات تقسيم بر تعداد خطوط) آن بالا باشد. روشهاي مرسوم موضوع بندي تنها براي متنهاي نا متراکم (مانند مقالات روي شبکه) کاربرد دارند و بسياري از روشها و فرضيات مربوط به متن‌هاي متراکم در مورد متن‌هاي نامتراکم صدق نمي‌کند.

ما در پي آن نيستيم که با تحقيق بر روي مجموعه خاصي از متنها، متراکم بودن آنها را اثبات کنيم. همچنين روش تحليلي پيشنهادي را تنها ويژه متنهاي متراکم نمي‌دانيم. آنچه در اين نوشتار مورد اثبات قرار خواهد گرفت: اول، عدم کارايي روشهاي موجود موضوع‌بندي، براي متنهاي با تراکم بالا است و دوم کارايي سيستم پيشنهادي جديد براي هر دو نوع متن يعني متراکم و نا متراکم است.

روش پيشنهادي استفاده شده در سيستم نصير ترکيبي از يک روش آماري و يک روش تحليلي است. روش آماري گونه‌اي از روش TFIDF است و روش تحليلي مبتني بر روابط وابستگي توليد‌شده توسط تجزيه‌گر زبان فارسي و يک پايگاه دادۀ سه‌تايي حاوي مسيرها و صافي‌هاست. همچنين از تحليل آماري اين پايگاه داده، در فرآيند مرجع‌يابي ضميرها استفاده شده است.