OMNIPARSER: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition

Wan, Jianqiang; Song, Sibo; Yu, Wenwen; Liu, Yuliang; Cheng, Wenqing; Huang, Fei; Bai, Xiang; Yao, Cong; Yang, Zhibo

doi:10.1109/cvpr52733.2024.01481

Search citation statements

Order By: Relevance

Paper Sections

Select...

Citation Types

Supporting

Mentioning

Contrasting

Year Published

2024

Publication Types

Select...

Book1

Article1

Preprint1

Relationship

Self Cite0

Independent3

Authors

Journals

Cited by 3 publications

References 78 publications

Supporting

Mentioning

Contrasting

Order By: Relevance

Multilingual Temporal Answer Grounding in Video Corpus with Enhanced Visual-Textual Integration

Ma,

Hu,

Jiang

et al. 2024

Lecture Notes in Computer Science

View full text Add to dashboard Cite

Multilingual Temporal Answer Grounding in Video Corpus with Enhanced Visual-Textual Integration

Ma,

Hu,

Jiang

et al. 2024

Lecture Notes in Computer Science

View full text Add to dashboard Cite

Efficient title text detection using multi-loss

Prasad,

Abraham

2024

IJDAR

View full text Add to dashboard Cite

Arabic-Nougat: Fine-Tuning Vision Transformers for Arabic OCR and Markdown Extraction

Rashad

2024

Preprint

View full text Add to dashboard Cite

We introduce _Arabic-Nougat_, a suite of OCR models designed to convert Arabic book pages into structured Markdown text. Building on Meta’s _Nougat_ architecture, _Arabic-Nouga_t includes three specialized models: _arabic-small-nougat, arabic-base-nougat, and arabic-large-nougat_. These models are fine-tuned using a synthetic dataset, _arabic-img2md_, consisting of 13.7k paired samples of Arabic book pages and their Markdown representations. Key innovations include the _Aranizer-PBE-86k_ tokenizer, which optimizes tokenization efficiency, and the use of torch.bfloat16 precision and Flash Attention 2 for efficient training and inference. Our models significantly outperform existing methods, with _arabic-large-nougat_ achieving the highest Markdown Structure Accuracy and the lowest Character Error Rate. We also release a large-scale dataset of 1.1 billion Arabic tokens extracted from over 8,500 books using our SOTA model, providing a valuable resource for further Arabic OCR research. All models and datasets are open-sourced, and our implementation is available at https://github.com/MohamedAliRashad/arabic-nougat.

show abstract

OMNIPARSER: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition

Cited by 3 publications

References 78 publications

Multilingual Temporal Answer Grounding in Video Corpus with Enhanced Visual-Textual Integration

Multilingual Temporal Answer Grounding in Video Corpus with Enhanced Visual-Textual Integration

Efficient title text detection using multi-loss

Arabic-Nougat: Fine-Tuning Vision Transformers for Arabic OCR and Markdown Extraction

Contact Info

Product

Resources

About