2022
DOI: 10.1007/978-3-030-98355-0_36
|View full text |Cite
|
Sign up to set email alerts
|

CDeRSNet: Towards High Performance Object Detection in Vietnamese Document Images

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1

Citation Types

0
1
0
1

Year Published

2022
2022
2024
2024

Publication Types

Select...
5
1

Relationship

0
6

Authors

Journals

citations
Cited by 7 publications
(2 citation statements)
references
References 18 publications
0
1
0
1
Order By: Relevance
“…Dựa theo sự phát triển đó, phạm vi của nghiên cứu này là bài toán phát hiện các thành phần quan trọng xuất hiện trong trang tài liệu như "Caption", "Table ", "Figure ", "Formula", ... "Document Image Understanding" (Gao et al, 2017) là một nghiên cứu quan trọng được thực hiện với nhiều vấn đề thách thức, đang nhận được sự quan tâm ngày càng nhiều không chỉ từ các cộng đồng phân tích và ghi nhận tài liệu. Bài toán phát hiện đối tượng trang trong hình ảnh tài liệu (Nguyen et al, 2018;Long và ctv., 2020;Le et al, 2021;Nguyen et al, 2022) vẫn là một thách thức vì các đối tượng trang rất đa dạng về quy mô và tỷ lệ khung hình, và một đối tượng có thể chứa các thành phần gần như tách rời nhau. Do đó, việc rút trích thông tin từ hình ảnh của tài liệu là vô cùng cần thiết, nhiều phương pháp máy học ra đời trong tương lai sẽ giúp con người dễ dàng tìm kiếm những tài liệu cần thiết và tránh mất nhiều thời gian.…”
Section: Giới Thiệuunclassified
“…Dựa theo sự phát triển đó, phạm vi của nghiên cứu này là bài toán phát hiện các thành phần quan trọng xuất hiện trong trang tài liệu như "Caption", "Table ", "Figure ", "Formula", ... "Document Image Understanding" (Gao et al, 2017) là một nghiên cứu quan trọng được thực hiện với nhiều vấn đề thách thức, đang nhận được sự quan tâm ngày càng nhiều không chỉ từ các cộng đồng phân tích và ghi nhận tài liệu. Bài toán phát hiện đối tượng trang trong hình ảnh tài liệu (Nguyen et al, 2018;Long và ctv., 2020;Le et al, 2021;Nguyen et al, 2022) vẫn là một thách thức vì các đối tượng trang rất đa dạng về quy mô và tỷ lệ khung hình, và một đối tượng có thể chứa các thành phần gần như tách rời nhau. Do đó, việc rút trích thông tin từ hình ảnh của tài liệu là vô cùng cần thiết, nhiều phương pháp máy học ra đời trong tương lai sẽ giúp con người dễ dàng tìm kiếm những tài liệu cần thiết và tránh mất nhiều thời gian.…”
Section: Giới Thiệuunclassified
“…A more sophisticated cascade mask R-CNN model was developed in [26] along with a high resolution based backbone (HRNet); iterative transfer learning and customized image augmentation techniques were shown to further enhance the performance. Additionally, recent studies include variations of cascade R-CNN; in [7], cascade R-CNN with a complete Intersection-Over-Union (IOU) loss and a deformable convolution backbone was presented to capture the variations in scales and orientations of tables, and the cascade R-CNN with a deformable convolution backbone was also leveraged in [21] to solve object detection in Vietnamese documents with a Rank & Sort (RS) loss. In [22], an FCN with different paths was designed to detect tables from a high or low resolution image.…”
Section: Related Workmentioning
confidence: 99%