بهبود دقت شناسایی گویندگان سخنان کنایه آمیز در شبکههای اجتماعی با استفاده از خوشه بندی نوشتهها و به کارگیری مدلهای BERTو PaLM
چکیده:
در دنیای امروز علاقه به کشف اطلاعات پنهان و سطح بالا به یکی از زمینههای تحقیقاتی اساسی در حوزه هوش مصنوعی تبدیل شده است. با گسترش روز افزون روشهای یادگیری ماشین به ویژه یادگیری عمیق در حوزه پردازش زبان طبیعی، استخراج اطلاعات معنادار از شبکههای اجتماعی به یک علاقه فزاینده در میان محققان زبان طبیعی تبدیل شده است. در این میان توییتر به عنوان یکی از محبوبترین صفحات اجتماعی که در آن کاربران نظرات خود را در مورد موضوعات مختلف اجتماعی، فرهنگی، سیاسی و ... بیان میکنند، بیشتر مورد توجه است. تمایل کاربران برای نوشتن متنهای بسیار محاورهای و وجود کنایه، طعنه و کلیشه در نوشتهها و همچنین تاثیر ملیت، نژاد و فرهنگهای مختلف در انتخاب عبارات و کلمات و سبک نوشتار، تنوع بسیار گستردهای در نوشتههای منتشر شده در این شبکه اجتماعی ایجاد کرده است. یکی از اساسیترین بخشهای هر فرهنگ و زبان، اصطلاحات کنایی آن زبان میباشد که شناسایی آن موجب بهبود درک محتوا خواهد شد. کنایه در لغت به صورت «استفاده از زبان به صورت مجازی، ظریف و مخالف آنچه بیان شده است» تعریف میشود و طعنه، حالت تهاجمیتر و متخاصمانهتر آن است. کلیشهها نیز نوشته هایی کنایه آمیز برای مخالفت و یا دفاع در مورد افراد یا موضوعی خاص میباشد. در این پژوهش تلاش بر آن است تا با تحلیل نوشتههای نویسندگان مختلف، نمایهای برای هر نویسنده ایجاد شود که بر اساس آن نویسندگان به عنوان نگارندگان محتوای کنایهآمیز یا غیر کنایهآمیز برچسب گذاری شوند. طبق چارچوب ارائه شده در روش پیشنهادی، در ابتدا پیش پردازش عمیقی بر روی توییتها که معمولاً از قوانین گرامری بسیار کمی پیروی میکنند، اعمال خواهد شد. سپس با خوشه بندی متنهای نوشته شده توسط هر کاربر و استفاده از مدلهای پردازش زبان طبیعی TweetBERT و PaLM بردار توصیفگری برای هر نویسنده تولید میشود که بیانگر نمایه آن نویسنده خواهد بود. در انتها با تعلیم یک شبکه عصبی MLP به عنوان یک دستهبند، بر اساس نمایه هر نویسنده کنایه آمیز بودن یا نبودن سخنان بیان شده توسط آن شخص برچسب گذاری میشود.