Findings of the Association for Computational Linguistics: EMNLP 2020 2020
DOI: 10.18653/v1/2020.findings-emnlp.92
|View full text |Cite
|
Sign up to set email alerts
|

PhoBERT: Pre-trained language models for Vietnamese

Abstract: We present PhoBERT with two versions-PhoBERT base and PhoBERT large -the first public large-scale monolingual language models pre-trained for Vietnamese. Experimental results show that PhoBERT consistently outperforms the recent best pre-trained multilingual model XLM-R (Conneau et al., 2020) and improves the state-of-the-art in multiple Vietnamese-specific NLP tasks including Part-of-speech tagging, Dependency parsing, Named-entity recognition and Natural language inference. We release PhoBERT to facilitate f… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
2
1
1
1

Citation Types

0
82
1
3

Year Published

2020
2020
2021
2021

Publication Types

Select...
5
2
1

Relationship

0
8

Authors

Journals

citations
Cited by 230 publications
(86 citation statements)
references
References 23 publications
0
82
1
3
Order By: Relevance
“…Trong bài báo này, chúng tôi đề xuất một mô hình dựa trên kiến trúc BERT. Chúng tôi sử dụng kiến trúc BERT được công bố bởi nghiên cứu của Viện VinAI [16]. Mô hình PhoBERT được tối ưu hoá sử dụng quá trình huấn luyện RoBERTa và được huấn luyện trên 20GB dữ liệu văn bản tiếng Việt.…”
Section: Kiến Trúc Mô Hìnhunclassified
See 2 more Smart Citations
“…Trong bài báo này, chúng tôi đề xuất một mô hình dựa trên kiến trúc BERT. Chúng tôi sử dụng kiến trúc BERT được công bố bởi nghiên cứu của Viện VinAI [16]. Mô hình PhoBERT được tối ưu hoá sử dụng quá trình huấn luyện RoBERTa và được huấn luyện trên 20GB dữ liệu văn bản tiếng Việt.…”
Section: Kiến Trúc Mô Hìnhunclassified
“…Mô hình PhoBERT được tối ưu hoá sử dụng quá trình huấn luyện RoBERTa và được huấn luyện trên 20GB dữ liệu văn bản tiếng Việt. Kết quả được công bố trong bài báo [16] đã chứng tỏ rằng việc sử dụng mô hình BERT như là lớp nhúng từ đem lại kết quả tốt hơn so với các phương pháp học sâu khác. Bởi vì BERT cho phép chúng ta biểu diễn của từ vựng theo ngữ cảnh tốt hơn so với các phương pháp nhúng từ truyền thống trước đây như là word2vec hay Glove.…”
Section: Kiến Trúc Mô Hìnhunclassified
See 1 more Smart Citation
“…However, there have been studies [12] which show that monolingual models are generally more performant than multilingual models due to the differing sizes of pretraining data and a more accurate tokenization scheme [11]. This is very much apparent in pre-trained monolingual models in various languages, such as IndoBERT [30] for Indonesian, PhoBERT [31] for Vietnamese, WangchanBERTa [32] for Thai, whereby these monolingual models constantly outperform their multilingual counterparts in downstream tasks.…”
Section: Sundanese Language Modelingmentioning
confidence: 99%
“…The fourth model is W2V SentiWord in which the Word2vec vector is input to one channel and the sentiment word vector [21] is input to the other channel. The last model is W2V BERT in which two inputs to the two channels are the Word2vec vector and the BERT feature vector [15], respectively. First, these tables show that the accuracy of 2CV is remarkably better than IWV for both the LSTM-based and CNN-based models on all tested datasets.…”
Section: Performance Comparisonmentioning
confidence: 99%