تحصيلات تکميلي

نام و نام خانوادگي : بهنام حاجيان

دانشکده : فني و مهندسي

استاد راهنما : دکتر کامران زماني فر

تاريخ دفاع : 22/2/88

رشته و گرايش : کامپيوتر- نرم افزار

استاد مشاور : -

رفع ابهام معناي كلمات در حاشيه نويسي خودكار اسناد توسط ادغام روش يادگيري ماشين و روش مبتني بر دانش

چکيده

با ظهور وب معنايي به عرصه اينترنت، محيطي قابل درک و استنتاج براي محاسبات کامپيوتري فراهم گرديد. در اين زمينه اولين گام جهت دستيابي به محيط هوشمند و قابل فهم براي ماشين، ايجاد هستي شناسي مناسب در دامنه مورد بحث و اتصال اطلاعات موجود در صفحات وب به نمونه ها و کلاس هاي موجود در هستي شناسي مي باشد. اين عمل که حاشيه نويسي معنايي اسناد نام دارد، کليه کلمات ، اشياء و اطلاعات موجود در صفحات وب را به مفاهيم متناظر آنها در هستي شناسي مرتبط مي سازد لذا دامنه معنايي هر کلمه با توجه به کلاس مربوطه مشخص مي گردد. بدين جهت بسياري از مشکلات مطرح شده در زمينه بازيابي و جستجوي اطلاعات حل شده و اطلاعات موجود در اسناد به مفاهيمي قابل فهم براي كامپيوتر ها تبديل مي شوند. در اين زمينه خصوصا با توجه به وجود كلمات هم شكل و با معاني متفاوت، با محيطي مبهم روبرو هستيم. لذا معناي كلمات مي بايست با توجه به زمينه و مفهوم جمله اي كه در آن بكار رفته است تعيين و رفع ابهام گردد. عمل حاشيه نويسي معنايي اسناد در حال حاضر به طور دستي ويا نيمه خودکار توسط عامل انساني انجام مي گيرد که عملي وقتگير، پيچيده ، پرهزينه و نادقيق مي باشد.

يكي از مسائل زير مجموعه حاشيه نويسي خودكار اسناد رفع ابهام معني كلمات در متن مي باشد. در اين پروژه سعي شده با ارائه راهكاري بر مبناي هوش ماشيني و بكارگيري الگوريتم هاي يادگيري ماشيني با ناظر به خودكار نمودن اين عمل وقتگير توسط كامپيوتر پرداخته شود. سيستم فوق داراي دو فاز آموزش و عملياتي مي باشد. در مرحله آموزش سيستم توسط داده هاي آموزشي (صفحات حاشيه نويسي شده بصورت دستي) آموزش ديده و سپس در فاز عملياتي به حاشيه نويسي اسناد جديد بصورت خودكار مي پردازد. در اين پايان نامه از چند الگوريتم مختلف آموزش ماشين استفاده شده است و نتايج عملكرد آنها ارزيابي و با يكديگر مقايسه شده است. در اين ارتباط الگوريتم ماشين بردار پشتيبان بهترين كارايي را از خود نشان داده است. در مرحله بعد جهت افزايش دقت و كارايي اين الگوريتم ها به ارائه چند مرحله پيش پردازش پرداخته شده است. نتايج ارزيابي در اين پايان نامه نشان خواهد داد كه با ادغام روش هاي بر مبناي يادگيري ماشيني و سيستم هاي مبتني بر دانش مي توان به بهترين كارايي دست پيدا نمود. همچنين استفاده از روش انتخاب ويژگي ها در اين مسئله از دقت سيستم مي كاهد. در صورتي كه بوسيله گسترش ويژگي هاي متن، دقت و كارايي سيستم افزايش خواهد يافت.

واژه هاي کليدي: رفع ابهام معنايي ، وب معنايي ، حاشيه نويسي وب ، يادگيري ماشيني ، هستي شناسي ، متن كاوي ، گسترش ويژگي ها