Abstract
Apguvēju korpuss ir sistemātiski datorizētu valodas apguvēju (gan svešvalodas, gan otrās valodas) veidotu tekstu datubāze. Tas ir ārvalstnieku valodas apguvēju īpatnību izpētes un datos balstītu latviešu valodas mācību materiālu un metodisko līdzekļu izstrādes pamats. Apguvēju korpusu, tāpat kā citus valodas korpusus, var marķēt dažādos valodas līmeņos (morfoloģiski, sintaktiski), bet īpaši nozīmīgs apguvēju valodas izpētē ir kļūdu marķējums un tajā balstītā kļūdu analīze. Kļūdu analīzi ietekmē divi faktori: 1) izraudzītie kļūdu tipi jeb kļūdu tipoloģija un 2) izvirzītās mērķhipotēzes, t. i., labotais teksts. Tādēļ pirms kļūdu marķēšanas ir būtiski vienoties, kas tiks marķēts un kā tas tiks darīts. Raksta ievadā ir īsi raksturots veidojamais „Latviešu valodas apguvēju korpuss” (LaVA), aplūkots mērķhipotēzes jēdziens un mērķhipotēzes nozīme valodas apguvēju korpusa izveides procesā. Rakstā ir izklāstīti galvenie mērķhipotēzes izvirzīšanas principi korpusā LaVA, kā arī minēti konkrēti piemēri, kā valodas apguvēju izteikumi tiek laboti atbilstoši latviešu valodas normām un kādas ir būtiskākās atkāpes, kas tiek pieļautas
A learner corpus is a computerized textual database of the language produced by foreign language learners. Such corpus enables researchers to create more efficient learning materials and teaching methodology for language learners by using the corpus-driven error analysis. The learner's corpus, like other language corpora, can be annotated at different language levels (morphologically, syntactically); however, corpus-based error annotation and the corpus-based error analysis are especially important in the learner's language research. Error analysis is influenced by certain factors: 1) the error types setup or error typology; and 2) target hypothesis setup, e. g., corrected text. Therefore, it is crucial to have special guidelines indicating the subject of annotation and the methods how the annotation is performed. The article begins with description of “The Latvian Learner corpus” (LaVA) and its initial development strategies, the term of target hypothesis and its role in the creation of the learner corpus. The main target hypothesis setup criteria in the LaVa corpus is also provided with the examples showing how the language learners' utterances are being corrected according to the language norms, and the main deviations from the rules allowed.
Translated title of the contribution | Creating target hypotheses in a learner corpus of Latvian |
---|---|
Original language | Latvian |
Title of host publication | Valoda: nozīme un forma: 11 = Language: Meaning and Form: 11 |
Editors | Andra Kalnača, Ilze Lokmane |
Place of Publication | Rīga |
Publisher | LU Akadēmiskais apgāds |
Pages | 7-26 |
Number of pages | 20 |
Volume | 11: Gramatika un valodas normēšana |
ISBN (Electronic) | 9789934186264 |
DOIs | |
Publication status | Published - 2020 |
Publication series
Name | Valoda: nozime un forma |
---|---|
ISSN (Print) | 2255-9256 |
ISSN (Electronic) | 2256-0602 |
Keywords*
- Corpus
- Corpus linguistics
- Error annotation
- Language acquisition
- Learner corpus
- Target hypothesis
Field of Science*
- 6.2 Languages and Literature
Publication Type*
- 3.1. Articles or chapters in proceedings/scientific books indexed in Web of Science and/or Scopus database