The authors address the legal issues relating to the creation and use of language models. The article begins with an explanation of the development of language technologies. The authors analyse the technological process within the framework copyright, related rights and personal data protection law. The authors also cover commercial use of language models. The authors' main argument is that legal restrictions applicable to language data containing copyrighted material and personal data usually do not apply to language models. Language models are generally not considered derivative works. Due to a wide range of language models, this position is not absolute.
XXI sajandil on traditsiooniline sõnaraamatutöö oluliselt muutunud, tuues kaasa nii hõlbustusi kui ka katsumusi sõnaraamatu koostajale ja kasutajalegi. Siin artiklis keskendume digipöördele, mis sai Eesti Keele Instituudis (EKI) alguse 2017. aastal uue sõnastikusüsteemi Ekilex loomisega. Ent seda ei saa sugugi pidada sõnaraamatutöö ainsaks digipöördeks. Esimeseks digipöördeks võiks paradoksaalsel moel lugeda õnnelikku juhust, et 1960-ndatel alustatud "Eesti kirjakeele seletus sõnaraamat" (EKSS) ei jõudnud ilmuma hakata varem kui 1980-ndate lõpul -ajal, mil instituudis olid arvutid juba kasutusel. Nõnda sattusime kohe n-ö arenenud leksikograafiamaade hulka, kel juba 1990/2000-ndatel oli elektroonilisel kujul olemas oma keele tähtsaim ja mahukaim sõnakogu (enam-vähem struktureeritud tekstina). Lihtsama ülesehitusega 1976. aasta õigekeelsussõnaraamat oli samuti arvutis olemas. Digipöördeks võib pidada ka oma sõnastikusüsteemi EELex (Langemets jt 2010; Jürviste jt 2011) ehitamist alates 1990-ndate lõpust. Kasutuskõlblikuks sai EELex 2003. aastal esimesena eesti-vene sõnaraamatu (EVS) jaoks, misjärel süsteemi laiendati ja arendati paljude sõnastike tarvis kuni 2015. aastani. Oma hiilgeaegadel oli EELexis ligi 70 valminud või töös olevat sõnastikubaasi. Ühtlasi oli tolleks ajaks saanud selgeks, et samal viisil jätkamine ei ole jätkusuutlik: internet oli plahvatuslikult levinud, tarkvara ja andmeformaadid olid muutunud, leksikograafia kogu Euroopas ja maailmas oli tugevasti oma suunda muutmas.Sarnaste probleemidega seisid silmitsi ka teiste Euroopa riikide leksikograafid: suurem osa leksikaalsest teadmusest oli talletatud vaid paberile, sõnastikud olid suures osas struktureerimata, nad ei olnud masinloetavad ega sobinud seetõttu ei loomuliku keele töötluse arendamiseks ega muude keeleandmetel põhinevate rakenduste jaoks. Nagu Eestis, nii ka mujal Euroopas alustati hoogsalt järgmise põlvkonna sõnastikusüsteemide ehitamist, millega kaasnes laiaulatuslik pabersõnastike digiteerimine. Algul kasutas enamik sõnastikubaase XML-vormingut, kuid varsti sai selgeks, et hädavajalik on välja töötada andmeformaat, mis võimaldaks keeleinfot kirjeldada ja andmeid vahetada (nii eri keelte kui ka andmebaaside vahel). Muutunud olud tõukasid taas tagant uut digipööret, mille tunnussõna on andmete ühendamine ja linkimine, mis sõnaraamatumaailmas tähendab leksikaalse info koondamist.Värskelt ilmunud elektroonilise leksikograafia valge raamatu "The Future of Academic Lexicography" (Steurs jt 2020) soovitus riiklikele leksikograafiaasutustele on mitte jätkata üksikute sõnastike koostamist, vaid ehitada üleriigiline taristu -ühtne andmebaas, mis koondab seni koostatud ressursse ning mida saab linkida teistega nii oma riigi sees kui ka rahvusvaheliselt. 35 Euroopa riiki ühendav Horisont 2020 projekti "Euroopa leksikograafiataristu" (ELEXIS) eesmärk on ühendada link andmete
From the legal perspective, chatbots, as such, are computer programs. According to Article 1(1) of the Computer Programs Directive, 3 computer programs are protected by copyright as literary works. Chatbots rely on language models that are copyright-protected databases. A computer program compiles language models (databases) from data snippets. It is not usually possible to extract original data used for the creation of language models.
Ülevaade. Keeleressursside arendamisel ei osata praktikas sageli arvestada lähtematerjali puudutavate õiguslike piirangutega, mis tekitab tarbetuid õigusriske ja võib takistada loodud ressursside sihipärast kasutamist ja levitamist. Artikli eesmärk on kaardistada levinumad probleemid ja pakkuda kehtivale õigusele tuginevaid lahendeid, viimaste puudumisel aga teoreetilisi ja praktilisi tõlgendusi.Autoriõiguslikult kaitstavate teoste kasutamiseks keeleressurssides esitatakse lisaks litsentsipõhisele meetodile kaks teoste vaba kasutamise viisi, tsiteerimine ja nn teadustöö erand, koos vastavate täpsemate juhistega. Lisaks kirjeldatakse täiendavaid tingimusi, mis puudutavad suulist ja eriti spontaanses olukorras salvestatud kõnet, varem avaldamata teoseid, tuletatud teoste loomist ja keeleressursside avalikustamist. * Võtmesõnad: intellektuaalne omand, autoriõigus, litsentsid, isikuandmete kaitse, teose vaba kasutamine, teadustöö erand, tsiteerimine SissejuhatusEesti Keeleressursside Keskuse (EKRK) praktilises tegevuses on päevakorda kerkinud mitmed õiguslikud küsimused: millist keelematerjali tohib keele uurimiseks ja keeletehnoloogiliste lahenduste loomiseks kasutada, millistel tingimustel, kuidas need tingimused mõjutavad uute keeleressursside hilisemat levitamist jt. Võimalikke vastuseid nendele küsimustele tuleb otsida intellektuaalse omandi 1 jts õigusaktidest, teooriast ja praktikast. Just nimelt otsida, sest puuduvad valmislahendused ja kuni viimase ajani oli see valdkond jäänud välja nii filoloogide kui ka juristide uurimisalast. Autoriõigus on keeleressursside arendamisel ja kasutamisel * Artikkel on valminud Euroopa Sotsiaalfondi kaasabil "Teadus-ja innovatsioonipoliitika seire" programmi raames. Kõik selles artiklis avaldatud seisukohad kuuluvad autoritele ning ei väljenda mingil viisil Euroopa Liidu Nõukogu või muude Euroopa Liidu institutsioonide ametlikke seisukohti. 1 Intellektuaalse omani legaalmääratlus on antud Ülemaailmse Intellektuaalse Omandi Organisatsiooni (WIPO) asutamise konventsiooni artiklis 2, mis sätestab, et intellektuaalne omand sisaldab õigusi, mis tulenevad intellektuaalsest tegevusest tööstuse, teaduse, kirjanduse ja kunsti alal (RT II 1993, 25, 55).
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.