تحصيلات تکميلي

نام و نام خانوادگي : عباس شاهيني شمس آبادي

دانشکده : فني و مهندسي

استاد راهنما : دکتر کامران زماني فر

تاريخ دفاع : 17/2/87

رشته و گرايش : کامپيوتر- نرم افزار

استاد مشاور : -

بهبود کراولرهاي متمرکز مبتني بر الگوريتم­هاي ژنتيک با استفاده از تئوري کولوني مورچه­ها

چکيده

در موتورهاي جستجو براي جمع آوري صفحات وب از کراولرها استفاده مي­شود. امروزه به دليل تعداد زياد صفحات وب، رشد سريع آنها و سرعت زياد تغييرات، کراولرهاي معمولي قادر به پوشش دادن آنها نيستند. بنابراين با توجه به منابع و زمان محدود، کراولرها بايد وقت خود را براي بازيابي صفحات داراي اهميت بيشتر صرف کنند. کراولرهاي متمرکز براي بازيابي صفحاتي که مربوط به يک موضوع خاص هستند به وجود آمدند.

چون کراولرها از تعدادي صفحه شروع کرده و لينک­هاي آنها را دنبال مي­کنند، فقط صفحاتي را بازيابي مي­کنند که به طور مستقيم يا غير مستقيم لينکي از صفحات اوليه به آنها وجود داشته باشد و ساير صفحات را نمي­توانند دنبال کنند. به اين مساله، مشکل جستجوي محلي گفته مي­شود.براي حل اين مشکل روشي مبتني بر الگوريتم­هاي ژنتيک ايجاد شد، کراولر متمرکز مطرح شده در اين تحقيق نيز بر مبناي الگوريتم­هاي ژنتيک مي­باشد. ولي هنوز راه­حل­هايي وجود دارد که بتوان اين روش را بهبود بخشيد تا صفحاتي که بازيابي مي­شوند به موضوع مورد نظر مربوط­تر باشند. هدف اصلي در اين پايان­نامه گسترش و بهبود روش کوئين و چن با استفاده از تئوري کولوني مورچه­ها است. در روش­هايي که تاکنون مطرح شده­اند پس از استخراج لينک­هاي يک صفحه و امتيازدهي آنها هيچ رابطه­اي بين آنها در نظر گرفته نمي­شود. ولي در روش پيشنهادي رابطه خويشاوندي ميان لينک­ها در نظر گرفته شده و با الگو گرفتن از تئوري کولوني مورچه­ها، پس از دنبال کردن لينکي از يک صفحه وب با توجه به کيفيت صفحه بازيابي شده، امتياز ساير لينک­ها اصلاح مي­شود.

علاوه بر اين، دو روش براي بهبود مدل فضاي برداري که يکي از روش­هاي پر طرفدار براي تعيين کيفيت صفحات وب مي­باشد پيشنهاد شده است. در اين مدل تنها جهت بردارها در نظر گرفته مي­شود که موجب امتيازدهي ناعادلانه مي­گردد به همين دليل در اين تحقيق استفاده از مقادير مطلق پيشنهاد شده است. همچنين اگر مهمترين کلمه کليدي در يک سند بيش از وزن اختصاص داده شده به آن تکرار شود سطح امتياز کاهش مي­يابد در صورتي که هدف از وزن­دهي به کلمات کليدي پررنگ کردن نقش کلمات با اهميت مي­باشد و هدف محدود کردن آنها نيست. در اين تحقيق پيشنهاد شده است که در چنين مواردي بُعد مربوط به مهمترين کلمه کليدي در محاسبات در نظر گرفته نشود.

واژه هاي کليدي: موتور جستجو، کراولر متمرکز، الگوريتم­هاي ژنتيک، تئوري کولوني مورچه ها