Context. In the current information era, the problem of analyzing large volumes of unlabeled textual data and its further grouping with respect to the semantic similarity between texts is emerging. This raises the need for robust text analysis algorithms, namely, clustering and extraction of key data from texts. Despite recent progress in the field of natural language processing, new neural methods lack interpretability when used for unsupervised tasks, whereas traditional distributed semantics and word counting techniques tend to disregard contextual information.Objective. The objective of the study is to develop an interpretable text clustering and cluster labeling methods with respect to the semantic similarity that require no additional training on the user's dataset.Method. To approach the task of text clustering, we incorporate deep contextualized word embeddings and analyze their evolution through layers of pretrained transformer models. Given word embeddings, we look for similar tokens across all corpus and form topics that are present in multiple sentences. We merge topics so that sentences that share many topics are assigned to one cluster. One sentence can contain a few topics, it can be present in more then one cluster simultaneously. Similarly, to generate labels for the existing cluster, we use token embeddings to order them based on how much they are descriptive of the cluster. To do so, we propose a novel metric -token rank measure and evaluate two other metrics.Results. A new unsupervised text clustering approach was described and implemented. It is capable of assigning a text to different clusters based on semantic similarity to other texts in the group. A keyword extraction approach was developed and applied in both text clustering and cluster labeling tasks. Obtained clusters are annotated and can be interpreted through the terms that formed the clusters.Conclusions. Evaluation on different datasets demonstrated applicability, relevance, and interpretability of the obtained results. The advantages and possible improvements to the proposed methods were described. Recommendations for using methods were provided, as well as possible modifications.
Важливою для безпосереднього користувача здатністю будь-якого програмного продукту є гнучкість застосування та налаштування. Проблема, описана та частково досліджена у цій науковій роботі, стосується питання забезпечення цієї гнучкості, а саме – підходів до задавання в межах програмної системи набору станів певної сутності, а також накладення обмеження на множину станів, у які згадана вище сутність може перейти, перебуваючи в одному із них. Тут і далі під правилами переходу сутності в різні стани мають на увазі обмеження множини наступних станів. Оглянуто сучасні системи для керування відгуками до програмного забезпечення, як приклад предметної області зі сутностями, які не мають наперед визначеної множини станів та переходів між ними. Проаналізовано основні переваги та недоліки аналогічних систем та їх підходу до зберігання станів. Наведено приклади та описи можливих станів сутностей та правил їх переходів. Досліджено перспективи застосування теорії графів для вирішення поставленої у статті проблеми. На підставі проведеного дослідження спроектовано архітектуру та реалізовано згідно з нею систему, що складається з мобільного та браузерного (веб-сайт та розширення веб-переглядача Google Chrome) клієнтів. Ціль системи – забезпечити проектні команди легким для освоєння засобом для збирання та оброблення різноманітних відгуків безпосередніх користувачів та зацікавлених сторін. Зокрема, розроблена система дає змогу створювати шаблони відгуків із різними наборами полів та різним типом кожного із них. Результати дослідження застосовано для реалізації функціональності зберігання та опрацювання динамічних станів сутності відгуку в межах розробленої програмної системи. Обґрунтовано вибір інтерфейсного рішення для представлення правил переходів між станами сутності для безпосередніх користувачів. Досліджено та застосовано алгоритм перевірки коректності завдання станів та правил їх переходів.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.