بهبود دقت شناسایی گویندگان سخنان کنایه آمیز در شبکه‌های اجتماعی با استفاده از خوشه بندی نوشته‌ها و به کارگیری مدل‌های BERTو PaLM

نام نویسنده (دانشجو):
محل دفاع: دانشگاه تبریز
مقطع تحصیلی: کارشناسی ارشد
سمت استاد در پایان‌نامه: استاد راهنما

چکیده:

در دنیای امروز علاقه به کشف اطلاعات پنهان و سطح بالا به یکی از زمینه‌های تحقیقاتی اساسی در حوزه هوش مصنوعی تبدیل شده است. با گسترش روز افزون روش‌های یادگیری ماشین به ویژه یادگیری عمیق در حوزه پردازش زبان طبیعی، استخراج اطلاعات معنادار از شبکه‌های اجتماعی به یک علاقه فزاینده در میان محققان زبان طبیعی تبدیل شده است. در این میان توییتر به عنوان یکی از محبوب‌ترین صفحات اجتماعی که در آن کاربران نظرات خود را در مورد موضوعات مختلف اجتماعی، فرهنگی، سیاسی و ... بیان می‌کنند، بیشتر مورد توجه است. تمایل کاربران برای نوشتن متن‌های بسیار محاوره‌ای و وجود کنایه، طعنه و کلیشه در نوشته‌ها و همچنین تاثیر ملیت، نژاد و فرهنگ‌های مختلف در انتخاب عبارات و کلمات و سبک نوشتار، تنوع بسیار گسترده‌ای در نوشته‌های منتشر شده در این شبکه اجتماعی ایجاد کرده است. یکی از اساسی‌ترین بخش‌های هر فرهنگ و زبان، اصطلاحات کنایی آن زبان می‌باشد که شناسایی آن موجب بهبود درک محتوا خواهد شد. کنایه در لغت به صورت «استفاده از زبان به صورت مجازی، ظریف و مخالف آنچه بیان شده است» تعریف می‌شود و طعنه، حالت تهاجمی‌تر و متخاصمانه‌تر آن است. کلیشه‌ها نیز نوشته هایی کنایه آمیز برای مخالفت و یا دفاع در مورد افراد یا موضوعی خاص می‌باشد. در این پژوهش تلاش بر آن است تا با تحلیل نوشته‌های نویسندگان مختلف، نمایه‌ای برای هر نویسنده ایجاد شود که بر اساس آن نویسندگان به‌ عنوان نگارندگان محتوای کنایه‌آمیز یا غیر کنایه‌آمیز برچسب‌ گذاری شوند. طبق چارچوب ارائه شده در روش پیشنهادی، در ابتدا پیش پردازش عمیقی بر روی توییت‌ها که معمولاً از قوانین گرامری بسیار کمی پیروی می‌کنند، اعمال خواهد شد. سپس با خوشه بندی متن‌های نوشته شده توسط هر کاربر و استفاده از مدل‌های پردازش زبان طبیعی TweetBERT و PaLM بردار توصیفگری برای هر نویسنده تولید می‌شود که بیانگر نمایه آن نویسنده خواهد بود. در انتها با تعلیم یک شبکه عصبی MLP به عنوان یک دسته‌بند، بر اساس نمایه هر نویسنده کنایه آمیز بودن یا نبودن سخنان بیان شده توسط آن شخص برچسب گذاری می‌شود.