دانلود متن کامل پایان نامه با فرمت ورد

پایان نامه مقطع کارشناسی ارشد رشته کامپیوتر

دانشگاه شیراز

دانشکده مهندسی

پایان نامه کارشناسی ارشد در رشته مهندسی کامپیوتر (نرم افزار)

عنوان:

ارائه یک مدل مبتنی بر خصیصه جهت تحلیل احساس موجود در نوشتجات

استاد راهنما:

دکتر سید مصطفی فخراحمد

برای رعایت حریم خصوصی نام نگارنده درج نمی شود

تکه هایی از متن به عنوان نمونه :

فصل اول: پیشگفتار

1-1- مقدمه

برخی نویسندگان داده کاوی را به عنوان ابزاری برای جستجو کردن اطلاعات سودمند در حجم زیادی از داده ها تعریف می کنند. برای انجام فرایند داده کاوی با زمینه های گوناگون تحقیقی مواجه می‌شویم، مانند پایگاه داده، یادگیری ماشین و آمار. پایگاه داده‌ها برای تحلیل کردن حجم زیادی از داده‌ها ضروری هستند. یادگیری ماشین، یک ناحیه هوش مصنوعی است که با ایجاد تکنیک‌هایی امکان یادگیری به وسیله تحلیل مجموعه‌های داده‌ای را به کامپیوترها می‌دهند. تمرکز این روش‌ها روی داده سمبولیک است و با آنالیز داده‌های تجربی سر و کار دارد. پایه آن تئوری آماری است. در این تئوری عدم قطعیت و شانس به وسیله تئوری احتمال مدل می‌شوند. امروزه بسیاری از روش‌های آماری در زمینه داده کاوی استفاده می‌شوند. می‌توان گفت که متن کاوی از تکنیک‌های بازیابی اطلاعات، استخراج اطلاعات همچنین پردازش کردن زبان طبیعی استفاده می‌کند و آن‌ها را به الگوریتم‌ها و متدهای داده کاوی، یادگیری ماشین و آماری مرتبط می‌کند. با توجه به ناحیه‌های تحقیق گوناگون، بر هر یک از آن‌ها می‌توان تعاریف مختلفی از متن کاوی در نظر گرفت در ادامه برخی از این تعاریف بیان می‌شوند:

متن کاوی = استخراج اطلاعات: در این تعریف متن کاوی متناظر با استخراج اطلاعات در نظر گرفته می‌شود (استخراج واقعیت‌ها از متن).

متن کاوی = کشف داده متنی: متن کاوی را می‌توان به عنوان متدها و الگوریتم‌هایی از فیلدهای یادگیری ماشین و آماری برای متن‌ها با هدف پیدا کردن الگوهای مفید در نظر گرفت. برای این هدف پیش پردازش کردن متون ضروری است. در بسیاری از روش‌ها، متدهای استخراج اطلاعات، پردازش کردن زبان طبیعی یا برخی پیش پردازش‌های ساده برای استخراج داده از متون استفاده می‌شود، سپس می‌توان الگوریتم‌های داده کاوی را بر روی داده‌های استخراج شده اعمال کرد.

متن کاوی = فرایند استخراج دانش: که در بخش قبلی به طور کامل توضیح داده شده است و در اینجا دیگر بیان نمی‌شود. در این تحقیق ما بیشتر متن کاوی را به عنوان کشف داده متنی در نظر می‌گیریم و بیشتر بر روی روش‌های استخراج الگوهای مفید از متن برای دسته‌بندی مجموعه‌ های متنی یا استخراج اطلاعات مفید، تمرکز می‌کنیم.

در دنياي کنوني مشکل کمبود اطلاعات نيست، بلکه مشکل کمبود دانشي است که از اين اطلاعات مي توان بدست آورد. ميليونها صفحه ي وب، ميليونها کلمه در کتابخانه‌هاي ديجيتال و هزاران صفحه اطلاعات در هر شرکت، تنها چند دست از اين منابع اطلاعاتي هستند. اما نمي‌توان به طور مشخص منبعي از دانش را در اين بين معرفي کرد. دانش خلاصه‌ي اطلاعات است و نيز نتيجه گيري و حاصل فکر و تحليل بر روي اطلاعات.

داده کاوي، يک روش بسيار کارا براي کشف اطلاعات از داده‌هاي ساختيافته‌اي که در جداول نگهداري مي‌شوند، است. داده کاوي، الگوها را از تراکنش‌ها، استخراج مي‌کند، داده را گروه‌بندي مي‌کند و نيز آنرا دسته‌بندي مي‌کند. بوسيله‌ي داده کاوي مي‌توانيم به روابط ميان اقلام داده‌اي که پایگاه داده را پر کرده‌اند، پي ببريم. در عين حال ما با داده کاوي مشکلي داريم و آن عدم وجود عاميت در کاربرد آن است. بيشتر دانش ما اگر به صورت غير ديجيتال نباشند، کاملاً غير ساختيافته اند. کتابخانه‌هاي ديجيتال، اخبار، کتابهاي الکترونيکي، بسياري از مدارک مالي، مقالات علمي و تقريباً هر چيزي که شما مي‌توانيد در داخل وب بيابيد، ساختيافته نيستند. در نتيجه ما نمي‌توانيم آموزه‌هاي داده کاوي را در مورد آنها به طور مستقيم استفاده کنيم. با اين حال، سه روش اساسي در مواجهه با اين حجم وسيع از اطلاعات غير ساختيافته وجود دارد که عبارتند از: بازيابي اطلاعات، استخراج اطلاعات و پردازش زبان طبیعی.

بازیابی اطلاعات: اصولاً مرتبط است با بازيابي مستندات و مدارک. کار معمول دربازیابی اطلاعات اين است که با توجه به نياز مطرح شده از سوي کاربر، مرتبط ترين متون و مستندات و يا در واقع بقچه‌ي کلمه را ازميان ديگر مستندات يک مجموعه بيرون بکشد. اين يافتن دانش نيست بلکه تنها آن بقچه‌اي از کلمات را که به نظرش مرتبط‌تر به نياز اطلاعاتي جستجوگر است را به او تحويل مي‌دهد. اين روش به واقع دانش و حتي اطلاعاتي را برايمان به ارمغان نمي‌آورد.

پردازش زبان طبیعی: هدف کلی پردازش زبان طبیعی رسیدن به یک درک بهتر از زبان طبیعی توسط کامپیوترهاست. تکنیک‌های مستحکم و ساده‌ای برای پردازش کردن سریع متن به کار می‌روند. همچنین از تکنیک‌های آنالیز زبان شناسی نیز برای پردازش کردن متن استفاده می‌شود.

استخراج اطلاعات: هدف روش‌های استخراج اطلاعات، استخراج اطلاعات خاص از سندهای متنی است. استخراج اطلاعات مي‌تواند به عنوان يک فاز پيش پردازش در متن‌کاوی بکار برود. استخراج اطلاعات عبارتند از نگاشت کردن متن‌های زبان طبیعی (مثلا گزارش‌ها، مقالات journal، روزنامه‌ها، ایمیل‌ها، صفحات وب، هر پایگاه داده متنی و…..) به یک نمایش ساختیافته و از پیش تعریف شده یا قالب‌هایی که وقتی پر می‌شوند، منتخبی از اطلاعات کلیدی از متن اصلی را نشان می‌دهند. یکبار اطلاعات استخراج شده و سپس اطلاعات می‌توانند در پایگاه داده برای استفاده‌های آینده، ذخیره شوند.

2-1- کاربردهای متن کاوی

در این قسمت تعدادی از کاربردهای متن‌کاوری را بیان خواهیم کرد. امروزه با وجود حجم زیادی از اطلاعات متنی، متن‌کاوی از جمله روش های تحقیقی-تجاری می‌باشد که از اهمیت ویژه‌ای برخوردار است. همه شرکت‌های تجاری، تولید کنندگان کالاها، ارائه کنندگان خدمات و سیاست‌مداران قادرند با بهره‌گیری از فرایند متن‌کاوی دانش مفیدی را به عنوان بازخورد از کالا، خدمات و عملکرد خود دریافت کنند. از جمله کاربردهای متن کاوی می‌توان به موارد زیر اشاره نمود:    

1.شناساییspam: آنالیز کردن عنوان و محتوای یک ایمیل دریافتی، برای تشخیص اینکه آیا ایمیل می‌تواند spam باشد یاخیر.

2 .نظارت :یعنی نظارت کردن رفتار شخص یا گروهی از انسان‌ها به صورت پنهان. پروژه‌ای به نام ENCODA تلفن، اینترنت و دیگر وسایل ارتباطی را برای شناسایی تروریسم نظارت می‌کند.

3. شناسایی نامهای مستعار: نام‌های مستعار در مراقبت‌های پزشکی برای شناسایی تقلب‌ها آنالیز می‌شوند. برای مثال یک صورت حساب ممکن هست با نام John Smith، J. Smith و Smith, John ارائه شود. از این طریق یا با بهره گرفتن از روش‌های دیگری مطالبه کنندگان امکان سوءاستفاده را خواهند یافت و مطالبات حق بیمه زیادی تحت نام‌های مستعار مختلف دریافت می‌کنند. استفاده از متن‌کاوی برای تشخیص این نام‌های مستعار می‌تواند در یافتن تقلب به شرکت‌های بیمه کمک فراوانی کند.

4.خلاصه سازی: منظور از خلاصه سازي، روند استخراج و ارائه مجموعه‌اي مفاهيم پايه‌اي از متن، تنها در چند خط است. اين کار مي‌تواند بررسي محتويات مستندات را براي کاربران ساده‌تر کند و آنها را در مسير رسيدن به آنچه نياز دارند، سرعت بخشد.

5. روابط میان مفاهیم: از جمله واقعيتهايي که مي توان از يک مجموعه متون دريافت، ارتباط و وابستگي برخی مفاهيم با مفاهيم ديگراست. اين واقعيات به طور مثال مي‌تواند بگويد که پديدار شدن بعضي کلمات ممکن است که وابسته باشد به ظاهر شدن بعضي ديگر از کلمات. منظور اين است که هرگاه مجموعه ي اول کلمات را ببينيم، مي‌توانيم انتظار داشته باشيم که مجموعه‌ي دوم لغات را نيز در ادامه مشاهده خواهیم کرد. اين مفهوم نيز از داده کاوي در ديتابيس به امانت گرفته شده است.

6. یافتن وتحلیل رفتارها: برای شرح این کاربرد فرض کنيد که مدير يک کمپاني تجاري هستيد. مشخصاً شما بايد همواره بر فعاليتهاي رقيبانتان نظارت داشته باشيد. اين مي‌تواند هر نوع اطلاعاتي باشد که شما از اخبار، معاملات بورس و يا از مستندات توليد شده توسط همان کمپاني رقيب گرفته‌ايد. امروزه اطلاعات به طور فزآينده‌اي در حال افزايش است، مديريت تمامي اين منابع داده‌اي قطعاً تنها به کمک چشمان ممکن نيست. متن‌کاوی اين امکان را مي‌دهد که به طور اتوماتيک رفتارها و تغييرات جديد را بيابيد. در واقع آنچه اصولاً بايد از متن‌کاوي انتظار برود اين است که به شما بگويد چه اخباري در ميان گستره‌اي از اخبار به آنچه مي خواهيد مرتبط است و در اين ميان کدام خبر جديداست، چه پيشرفتهايي در زمينه‌ي کاري شما صورت مي گيرد و علايق و رفتارهای فعلي چگونه است و با چه روندي تغيير مي‌کند. با بهره گرفتن از اين اطلاعات، مديران قادرند از اطلاعات کشف شده براي بررسي وضعيت رقيب سود جويند.

7. تحلیل احساس : در این کاربرد هدف از متن کاوی تشخیص احساس نویسنده متن است. درجه رضایت یا خوشحالی و ناراحتی نویسنده تشخیص داده می‌شود. این رساله به بررسی متن کاوی به منظور تحلیل احساس موجود در متون خواهد پرداخت، لذا در ادامه با جزئیات بیشتری تحلیل احساس در متون را بررسی خواهیم کرد.

همه اطلاعات متنی را می‌توان به دو دسته:حقایق[1] و عقاید[2] دسته بندی کرد. حقایق عبارات علمی‌ و عملی درباره موجودیت‌ها، رویدادها و ویژگی‌های آنها هستند که بصورت عینی و واقعی در دنیای بیرون وجود دارند یا به وقوع پیوسته‌اند. عقاید عبارات غیر عینی و ذهنی هستند که نظرات، ارزیابی‌ها یا احساسات افراد را درباره یک موجودیت، رویداد و ویژگی‌های آنها بیان می‌کنند [23]. شکل 1-1 مثالی را برای هر کدام بیان میکند. در این رساله تنها به یک جنبه از این مفهوم یعنی احساسات خواهیم پرداخت.

قبل از سال 2000 به دلیل کمبود منابع داده‌ای و کمبود متون حاوی نظرات و عقاید در تارنمای گسترده جهانی[1] تحقیقات اندکی در این زمینه به انجام رسیده است. امروزه با گسترش اینترنت و همه‌گیر شدن شبکه‌های اجتماعی، کاربران می‌توانند نظرات خود درباره محصولات یا خدمات را در سایت‌های تجاری، شبکه‌های اجتماعی، وبلاگ‌ها بیان کنند؛ صفحات وب متون زیادی را در بر دارند که مشتمل بر نظرات، عقاید، ارزیابی کاربران پیرامون یک کالا یا خدمات خاص هستند. اطلاعاتی که از این نوع داده‌ها قابل دست‌یابی است، برای شرکت‌های سازنده و همچنین سازمان‌های ارائه کننده خدمات بسیار مفید و گاهی ضروری خواهند ‌بود. همچنین برای کاربرانی که قصد انتخاب خدمات یا یک نوع کالا را دارند راهنمایی مفیدی را ارائه می‌دهند. شخصی را در نظر بگیرید که قصد دارد موبایل یا دوربین دیجیتالی بخرد، برای آگاهی از کیفیت دوربین و مطلوبیت خدمات شرکت سازنده بدون شک به پرسش و جمع‌آوری اطلاعات از اطرافیان روی خواهد آورد، ولی امروزه با رشد اینترنت می‌توان بصورت آنلاین نظرات و تجربیات صدها نفر را درباره یک کالای خاص مطالعه کرد و برای تصمیم گیری از آنها مدد گرفت.

امروزه تعدد و گوناگونی منابع اینترنتی حاوی نظرات و احساسات کاربران به حدی زیاد شده است که یافتن و ارزیابی آنها کار بسیار پیچده‌ای است. در بسیاری موارد نظرات و عقاید کاربر در یک پست طولانی پنهان شده است. برای استخراج نظرات و عقاید درباره یک موجودیت باید در ابتدا منابع اینترنتی مرتبط با آن را یافت سپس متن مورد نظر خوانده شود، جملات بیان کننده نظرات و عقاید کاربر از متن استخراج شوند، خلاصه سازی شوند و به فرم قابل استفاده تبدیل شوند. از جمله مشکلاتی که در این زمینه وجود دارد حجم زیاد داده می‌باشد. در صفحه توییتر شخصی جاستین بیبر روزانه 300000 نظر ثبت می‌شود [22]. این حجم از داده‌ها میتوانند اطلاعات مفیدی را برای شرکت‌ها و همچنین مشتری‌ها به همراه داشته باشند؛ ولی پردازش آنها بصورت دستی و انسانی غیر ممکن می‌باشد، لذا طراحی یک روش اتوماتیک برای تحلیل متن و استخراج نظرات و عقاید موجود در متن ضروری است. در همین راستا تلاش‌های فراوانی صورت گرفته است، مثلا در کشور آمریکا 20 تا 30 شرکت به ارائه خدمات تخصصی تحلیل احساس می‌پردازند [17].

در این رساله روشی برای تحلیل احساس ارائه می‌شود. روش پیشنهادی سعی در ارائه مجموعه مناسبی از خصیصه‌ها[2] را دارد به نحوی که بتوان به دقت بهتری در ارزیابی اتوماتیک متون دست یافت، همچنین تعداد خصیصه‌ها در حد متناسبی حفظ شود. برای انتخاب خصیصه‌ها از الگوریتم‌های ساده و با حداقل پیچیدگی زمانی بهره می‌بریم و نیاز به استفاده از الگوریتم انتخاب خصیصه با پیچیدگی زمانی بالا مرتفع شده است.

[1] World wide web

[2] Features

[1] Facts

[2] Opinion

***ممکن است هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود ولی در فایل دانلودی همه چیز مرتب و کامل و با فرمت ورد موجود است***

متن کامل را می توانید دانلود نمائید

چون فقط تکه هایی از متن پایان نامه در این صفحه درج شده (به طور نمونه)

ولی در فایل دانلودی متن کامل پایان نامه

 با فرمت ورد word که قابل ویرایش و کپی کردن می باشند

موجود است

تعداد صفحه : 77

قیمت : 14700 تومان

 

***

—-

:       

****         serderehi@gmail.com

جستجو در سایت : کلمه کلیدی خود را وارد نمایید :