This paper presents a comprehensive review of the state-of-the-art techniques for embeddings fusion in natural language processing and machine learning. Embeddings fusion refers to the task of combining multiple word or document embeddings into a single representation that can capture the different aspects of the input data. This is typically used in multimodal machine learning applications where inputs come from different sources with different formats or in situations when embeddings are already available and need to be combined in the model. The paper covers various fusion methods, including concatenation, averaging, weighted averaging, and neural network-based approaches. A detailed analysis of the benefits and limitations of each method, as well as the scenarios in which they are most effective is provided. In the paper vector embeddings fusion methods are categorized by model architecture type as well as by fusion type. Moreover, recommendations to choose the optimal type of fusion method given task limitations are described. In addition, the paper discusses the evaluation metrics commonly used to assess the quality of fused embeddings, such as similarity and classification accuracy. Overall, this review paper provides a valuable resource for researchers and practitioners in the field of natural language processing and machine learning who wish to deepen their understanding of embeddings fusion methods and their applications. The insights and recommendations presented in this paper can help guide the selection of appropriate fusion methods and improve the performance of various natural language processing and machine learning tasks. By staying up-to-date with the latest developments in embeddings fusion, researchers and practitioners can continue to push the boundaries of natural language processing and machine learning.
Стаття присвячена оцінці впливу методів доповнення графовими представленнями елементів словника синонімів векторних представлень документів на якість класифікації даних документів у малоресурсному середовищі. Дослідження таких середовищ є актуальним завданням, адже більшість мов світу, а також вузькоспеціалізовані прикладні області підпадають під даний критерій – даних для побудови та тренування сучасних потужних моделей машинного навчання не достатньо. Метою роботи є покращення якості класифікації документів у малоресурсному середовищі за допомогою доповнення їх інформацією зі словника синонімів через його кодування. Дослідження виконано через аналіз та використання сучасних напрацювань у області математичного моделювання, машинного навчання, обробки природних мов та науки про дані. Наукова новизна роботи полягає у тому, що пропонується векторна модель слів зі словника синонімів, яка на відміну від інших працює на основі представлень окремих вузлів графу словника, а отже може бути використана і в інших задачах обробки текстових даних. У цьому може допомогти трансферне навчання – підхід, що дозволяє комбінувати щільні векторні представлення у нейромережевих методах. При цьому вибір методу побудови векторних представлень словника синонімів напряму впливає на якість результатів, а також швидкодію та вимоги до апаратного забезпечення при їх використанні. Також у роботі представлено набір кроків передобробки та спосіб перетворення словника у граф для моделювання. Як висновок, у статті показано, що запропонований метод здатен збільшити F1-міру точності класифікації документів у малоресурсному середовищі на 2-3% на прикладі класифікації петицій до Київської міської ради за темами. Найвищий приріст якості було отримано за допомогою методу побудови векторних представлень графу Node2Vec, що працює на основі випадкових блукань, та не вимагає великої кількості ресурсів для навчання.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2025 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.