2020
DOI: 10.1007/978-3-030-38778-5_21
|View full text |Cite
|
Sign up to set email alerts
|

Reconstructing Scanned Documents for Full-Text Indexing to Empower Digital Library Services

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1
1

Citation Types

0
2
0
1

Year Published

2020
2020
2022
2022

Publication Types

Select...
1
1

Relationship

1
1

Authors

Journals

citations
Cited by 2 publications
(3 citation statements)
references
References 4 publications
0
2
0
1
Order By: Relevance
“…En este trabajo se ofrece la descripción y características de once herramientas para la EI de documentos en PDF. De los once softwares presentados en Nitu et al (2020) seleccionamos cinco herramientas que, por las especificaciones y funcionalidades señaladas, mejor se ajustaban a nuestro propósito principal de extraer información de e-books en PDF para su uso en la indización automática de los mismos; aspecto fundamental, puesto que el texto de salida de las herramientas de EI es el texto de entrada para los sistemas de indización automática. Con un texto de entrada de calidad se estará en mejores condiciones de lograr una indización automática de calidad, de ahí la importancia de acertar en la selección de la herramienta de EI.…”
Section: Procedimientos Metodologicosunclassified
“…En este trabajo se ofrece la descripción y características de once herramientas para la EI de documentos en PDF. De los once softwares presentados en Nitu et al (2020) seleccionamos cinco herramientas que, por las especificaciones y funcionalidades señaladas, mejor se ajustaban a nuestro propósito principal de extraer información de e-books en PDF para su uso en la indización automática de los mismos; aspecto fundamental, puesto que el texto de salida de las herramientas de EI es el texto de entrada para los sistemas de indización automática. Con un texto de entrada de calidad se estará en mejores condiciones de lograr una indización automática de calidad, de ahí la importancia de acertar en la selección de la herramienta de EI.…”
Section: Procedimientos Metodologicosunclassified
“…These included different font types and sizes identified in the same section or line of text, different styles for headers and footers in the same document, disruption of paragraphs, improper page breaks, loss of content structure, or misinterpretation of certain characters and hyphenated words. Currently existing systems are not designed to work with OCR-ized PDFs [12], raising challenges while trying to properly restructure the recognized text. The identified issues imposed the necessity of a workflow that can identify and correlate section titles with their content, recognize paragraphs boundaries, merge hyphenated words and accurately identify and extract images or tables.…”
Section: Document Pre-processing Workflowmentioning
confidence: 99%
“…Font name, font size, and text positions are stored in a list that is later on used to identify the type of the text (section title or body content), by comparing each line of text with the predominant font existing within the page. The two models were combined into a robust text extraction algorithm [12], that can easily adapt to most of the PDF document formats. The extracted text is then displayed in a rich text editor, enabling librarians to improve the extracted content by manually modifying the text.…”
Section: Figure 4 Table Of Contents Extractionmentioning
confidence: 99%