Purpose This paper aims to describe the structure of an aligned Serbian-German literary corpus (SrpNemKor) contained in a digital library Bibliša. The goal of the research was to create a benchmark Serbian-German annotated corpus searchable with various query expansions. Design/methodology/approach The presented research is particularly focused on the enhancement of bilingual search queries in a full-text search of aligned SrpNemKor collection. The enhancement is based on using existing lexical resources such as Serbian morphological electronic dictionaries and the bilingual lexical database Termi. Findings For the purpose of this research, the lexical database Termi is enriched with a bilingual list of German-Serbian translated pairs of lexical units. The list of correct translation pairs was extracted from SrpNemKor, evaluated and integrated into Termi. Also, Serbian morphological e-dictionaries are updated with new entries extracted from the Serbian part of the corpus. Originality/value A bilingual search of SrpNemKor in Bibliša is available within the user-friendly platform. The enriched database Termi enables semantic enhancement and refinement of user’s search query based on synonyms both in Serbian and German at a very high level. Serbian morphological e-dictionaries facilitate the morphological expansion of search queries in Serbian, thereby enabling the analysis of concepts and concept structures by identifying terms assigned to the concept, and by establishing relations between terms in Serbian and German which makes Bibliša a valuable Web tool that can support research and analysis of SrpNemKor.
Сажетак: Паралелни корпуси представљају врсту вишејезичних корпуса који су последњих деценија постали изузетно значајни у области обраде природних језика (енгл. Natural Language Processing -NLP) и један од важнијих ресурса за истраживаче у различитим областима лингвистике и сродним језичким дисциплинама. Под паралелним корпусима подразумевају се језички корпуси који садрже један текст или више оригиналних текстова и њихове преводе на један језик или више језика, поравнате на једном нивоу или више структурних нивоа текста (на пример, на нивоу реченице, пасуса и одељка). Они су најчешће двојезични, али није ретко да постоје и на једном језику што подразумева да корпусни садржај чине различита издања истог текста на одабраном језику. Паралелне корпусе који обухватају српски језик у Србији развија Група за језичке технологије која је у међувремену прерасла у Друштво за језичке ресурсе и технологије -ЈеРТех. До данас су развијени следећи корпуси: два већа корпуса, српско-француски (Срп-ФранКор) и српско-енглески (СрпЕнгКор) корпус, затим, дигитална библиотека Библиша која садржи више паралелних двојезичних колекција и вишејезична колекција Вишејезични Верн. Поред ових корпуса текстови на српском језику део су и вишејезичних корпуса Платонова Република и Орвелова 1984 који су развијени у оквиру међународних пројеката, али и неких корпуса који се тренутно развијају у региону и свету. У раду ће бити приказани корпуси које развија Друштво за језичке ресурсе и технологије, њихова структура и намена, као и могућности за проналажење информација у њима.1 Рад представља приређени текст о паралелним корпусима у Србији који је детаљније разрађен у докторској дисертацији: Ј. Андоновски, "Мрежа повезаних отворених података и језички ресурси у процесу изградње српско-немачког литерарног корпуса" (докторска дис.
Сажетак: Универзитетска библиотека "Светозар Марковић" свој први Дигитални репозиторијум успоставила је још 2008. године, што јој је омогућило да направи примарну колекцију дигиталног материјала и својим корисницима пружи могућност приступа вредним садржајима скенирањем материјала из библиотечког фонда и креирањем слика у форматима JPEG и PDF. Убрзо након тога Библиотека се активно укључила у различите међународне пројекте дигитализације културне баштине, што јој је омогућило да представи своје фондове корисницима широм света и започне другу фазу дигитализације коју карактерише формирање прве претраживе дигиталне колекције Универзитетске библиотеке од 2015. године. Трећа, и за сада последња, фаза дигитализације односи се на увођење процеса демократизације дигитализације који представља, пре свега, обогаћивање доступних дигиталних садржаја колекцијама других културних и научних институција у земљи, а што је резултирало израдом портала Претражива дигитална библиотека. Удруживање са другим установама, поред уштеде људских ресурса, времена, новца и повећања квалитета услуга у библиотеци, доприноси и промоцији аутентичних садржаја и повећању видљивости локално-историјских збирки које поједине библиотеке поседују.
Presented is the usage of metadata in libraries in Serbia. Metadata are used for describing printed documents available for patrons in library holdings, and for describing digital documents available in online repositories. Metadata describing printed documents are mostly accessed via online public access catalogue systems. Metadata describing digital documents are specific, in regards to awareness of librarians that they should be providing patrons, with data really useful in determining the level of their interest in particular digital object. Some specific aspects of metadata usage are also discussed primarily, in regards to automation of digital data delivery for patrons.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.