Phát hiện bất thường là một bài toán được quan tâm nhiều trong những năm gần đây với nhiều phương pháp ra đời có độ chính xác cao. Future Frame Prediction là phương pháp tiếp cận mới lạ đối với bài toán phát hiện bất thường trong video. Phương pháp này có ý tưởng chính là sử dụng các video chỉ chứa khung hình bình thường để huấn luyện mô hình. Giai đoạn kiểm tra, mô hình có thể nhận đầu vào là video có chứa khung hình bất thường, việc phát hiện bất thường dựa trên sự khác biệt giữa khung hình được tái tạo từ dữ liệu bình thường và khung hình thực tế có chứa bất thường trong video kiểm tra. Trong bài báo này, mô hình được cải thiện bằng cách thay đổi thành phần ước lượng optical-flow trong mô hình Future Frame Prediction và sửa đổi hàm lỗi dựa trên công trình FenceGAN nhằm tăng hiệu suất phát hiện bất thường. Kết quả sau khi tinh chỉnh, mô hình cải thiện độ chính xác trung bình 0,5% trên các bộ dữ liệu chuẩn như UCSD Ped1, UCSD Ped2, Avenue.
Trong vài thập kỷ qua, với sự gia tăng nhanh chóng trong việc số hóa các hình ảnh tài liệu, việc trích xuất thông tin chính xác là một trong những hướng nghiên cứu quan trọng. Với sự phát triển của phát hiện đối tượng, nhiều nghiên cứu ra đời hướng đến việc phân loại tài liệu dựa trên nhiều thành phần của trang tài liệu đó. Mục tiêu của nghiên cứu này là đề cập đến bài toán POD (Page Object Detection) – phát hiện đối tượng xuất hiện trong trang tài liệu thông qua đánh giá 2 bộ dữ liệu IIIT-AR-13K và UIT-DODV dựa theo phương pháp YOLOX. YOLOX đạt kết quả 69,0% mAP, tốt hơn 2,90% so với kết quả mô hình one-stage cao nhất – YOLOv4-mish được công bố trên bộ dữ liệu UIT-DODV. Trong khi ở IIIT-AR-13K, YOLOX đạt được 66,9% mAP và thấp hơn nhiều so với các phương pháp two-stage đã công bố trước đó. Bên cạnh, những phân tích về độ hiệu quả của phương pháp state-of-the-art YOLOX cho bài toán POD cũng được cung cấp, là tiền đề cho những nghiên cứu tiếp theo trong tương lai.
Phát hiện phương tiện giao thông từ không ảnh đặt ra nhiều thách thức và nhận được sự quan tâm từ cộng đồng nghiên cứu. Đối tượng trong không ảnh nhỏ hơn rất nhiều so với ảnh chụp từ camera mặt đất, đây là thách thức rất lớn. Với các đối tượng nhỏ, sự sai khác của các vùng đề xuất sẽ làm ảnh hưởng lớn đến kết quả phát hiện đối tượng. Trong nghiên cứu này, phương pháp Double-Head được đánh giá dựa trên bộ dữ liệu AERIAU – một bộ dữ liệu không ảnh có áp dụng các kỹ thuật tăng cường dữ liệu. Double-Head đạt kết quả 37,09% mAP trên bộ dữ liệu AERIAU. So sánh với mô hình đạt kết quả cao nhất được công bố trước đó trên bộ dữ liệu AERIAU là YOLOv3, Double-Head cao hơn 2,01%. Double-Head đạt kết quả cao trên lớp đối tượng xe ô tô, xe buýt, xe tải, từ đó đưa ra đề xuất phát hiện xe loại nhỏ. Đây là tiền đề cho các nghiên cứu tiếp theo, cơ sở để phát triển các hệ thống giám sát giao thông thông minh.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2025 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.