تحصيلات تکميلي

نام و نام خانوادگي : شيرين موسوي

دانشکده : فني و مهندسي

استاد راهنما : دکتر اميرحسن منجمي

تاريخ دفاع : 24/7/87

رشته و گرايش : کامپيوتر-هوش مصنوعي

استاد مشاور : دكتر محسن عشوريان

طراحي پويانمايي چهره بر اساس گفتار فارسي

چکيده

پويانمايي چهره يکي از مسائل مهم در شبيه‌سازي کامپيوتري چهره‌ي انسان است. استخراج دقيق پارامترهاي چهره در هنگام صحبت پيوسته يکي از مسائل چالش برانگيز در زمينه‌ي پويانمايي واقعي چهره‌ است. يکي از روشهاي ثبت حرکات چهره استفاده از نشانگرهايي روي نقاط کليدي چهره و به دست آوردن حرکات با رديابي اين نشانگرهاست. در اين پايان‌نامه مدل‌سازي حرکات چهره با رديابي نشانگرهاي قرار گرفته مبتني بر استاندارد (MPEG4 (Moving Pictures Experts Group انجام شده است. روشي بهينه براي رديابي نشانگرها با استفاده از اطلاعات فاصله و مساحت نشانگرها ارائه شده است. پس از رديابي دقيق نشانگرها جابه‌جايي آنها در فريم‌هاي متوالي به پارامترهاي پويانمايي استاندارد MPEG4 نگاشت شده است. دقت روش ارائه شده با استفاده از يک تست انساني براي تشخيص حالت چهره سنجيده شده است. هنگام فيلمبرداري از چهره ممکن است شرايطي پيش آيد که به دليل از دست رفتن مقداري از اطلاعات، دقت استخراج پارامترها تحت تأثير قرار گيرد. روش رديابي ارائه شده در شرايط متغير فيلمبرداري مورد آزمايش قرار مي‌گيرد. مواردي که در کار حاضر در نظر گرفته شده است شامل مات شدن تصوير، تغيير کنتراست تصوير، اضافه شدن نويز به تصوير، فشرده شدن فيلم، و اعمال فيلتر زماني حذف نويز زمينه مي‌باشد. نشان داده شده است که در اين شرايط رديابي با دقت به خوبي عمل مي‌کند. در ادامه‌ي کار با استفاده از واريانس پارامترهاي پويانمايي به دست آمده تحليلي روي اولويت پارامترها انجام شده است و اهميت آنها مشخص شده است و يک تحليل آماري PCA براي کاهش بعد پارامترها انجام شده است. در بخش دوم پايان‌نامه از پارامترهاي پويانمايي استخراج شده جهت طراحي يک سيستم هوشمند براي تشخيص حالت چهره استفاده شده است. سيستم هوشمند تشخيص حالت مبتني بر شبکه‌ي عصبي با ورودي پارامترهاي پويانمايي در هنگام صحبت با يکي از چهار حالت خوشحالي، ناراحتي، عصبانيت، و تعجب، و خروجي آن حالت تشخيص داده شده است. در نهايت يک سيستم براي پويانمايي چهره بر اساس گفتار فارسي مستقل از احساس گوينده طراحي شده است. به منظور مستقل از احساس بودن، جملات مورد استفاده براي يادگيري در چهار حالت ادا مي‌شوند. ويژگيهاي سيگنال گفتار استخراج شده و به عنوان ورودي يک شبکه‌ي عصبي استفاده مي‌شوند. خروجي اين شبکه پارامترهاي پويانمايي چهره است. از سه دسته ويژگي گفتار شامل ويژگيهاي عروضي، آوايي، و ادراکي براي آموزش شبکه‌ي عصبي استفاده شده است و نتايج نشان داده که ضرايب MFCC که ويژگيهاي ادراکي هستند، بهتر جواب مي‌دهند.

واژه هاي کليدي: پويانمايي چهره، استاندارد MPEG4، رديابي نشانگرها، تشخيص حالات چهره