CDeRSNet: Towards High Performance Object Detection in Vietnamese Document Images

Nguyen, Thuan Trong; Nguyen, Thuan; Duong, L.; Vo, Nguyen D.; Nguyen, Khang

doi:10.1007/978-3-030-98355-0_36

Cited by 7 publications

(2 citation statements)

References 18 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…Dựa theo sự phát triển đó, phạm vi của nghiên cứu này là bài toán phát hiện các thành phần quan trọng xuất hiện trong trang tài liệu như "Caption", "Table ", "Figure ", "Formula", ... "Document Image Understanding" (Gao et al, 2017) là một nghiên cứu quan trọng được thực hiện với nhiều vấn đề thách thức, đang nhận được sự quan tâm ngày càng nhiều không chỉ từ các cộng đồng phân tích và ghi nhận tài liệu. Bài toán phát hiện đối tượng trang trong hình ảnh tài liệu (Nguyen et al, 2018;Long và ctv., 2020;Le et al, 2021;Nguyen et al, 2022) vẫn là một thách thức vì các đối tượng trang rất đa dạng về quy mô và tỷ lệ khung hình, và một đối tượng có thể chứa các thành phần gần như tách rời nhau. Do đó, việc rút trích thông tin từ hình ảnh của tài liệu là vô cùng cần thiết, nhiều phương pháp máy học ra đời trong tương lai sẽ giúp con người dễ dàng tìm kiếm những tài liệu cần thiết và tránh mất nhiều thời gian.…”

Section: Giới Thiệuunclassified

Thực nghiệm đánh giá YOLOX cho bài toán phát hiện đối tượng tài liệu

Huỳnh

Nguyễn²,

Nguyễn³

et al. 2022

CTUJSVN

View full text Add to dashboard Cite

Trong vài thập kỷ qua, với sự gia tăng nhanh chóng trong việc số hóa các hình ảnh tài liệu, việc trích xuất thông tin chính xác là một trong những hướng nghiên cứu quan trọng. Với sự phát triển của phát hiện đối tượng, nhiều nghiên cứu ra đời hướng đến việc phân loại tài liệu dựa trên nhiều thành phần của trang tài liệu đó. Mục tiêu của nghiên cứu này là đề cập đến bài toán POD (Page Object Detection) – phát hiện đối tượng xuất hiện trong trang tài liệu thông qua đánh giá 2 bộ dữ liệu IIIT-AR-13K và UIT-DODV dựa theo phương pháp YOLOX. YOLOX đạt kết quả 69,0% mAP, tốt hơn 2,90% so với kết quả mô hình one-stage cao nhất – YOLOv4-mish được công bố trên bộ dữ liệu UIT-DODV. Trong khi ở IIIT-AR-13K, YOLOX đạt được 66,9% mAP và thấp hơn nhiều so với các phương pháp two-stage đã công bố trước đó. Bên cạnh, những phân tích về độ hiệu quả của phương pháp state-of-the-art YOLOX cho bài toán POD cũng được cung cấp, là tiền đề cho những nghiên cứu tiếp theo trong tương lai.

show abstract

Section: Giới Thiệuunclassified

Thực nghiệm đánh giá YOLOX cho bài toán phát hiện đối tượng tài liệu

Huỳnh

Nguyễn²,

Nguyễn³

et al. 2022

CTUJSVN

View full text Add to dashboard Cite

show abstract

“…A more sophisticated cascade mask R-CNN model was developed in [26] along with a high resolution based backbone (HRNet); iterative transfer learning and customized image augmentation techniques were shown to further enhance the performance. Additionally, recent studies include variations of cascade R-CNN; in [7], cascade R-CNN with a complete Intersection-Over-Union (IOU) loss and a deformable convolution backbone was presented to capture the variations in scales and orientations of tables, and the cascade R-CNN with a deformable convolution backbone was also leveraged in [21] to solve object detection in Vietnamese documents with a Rank & Sort (RS) loss. In [22], an FCN with different paths was designed to detect tables from a high or low resolution image.…”

Section: Related Workmentioning

confidence: 99%