Jezikovne tehnologije
Študijski program prve stopnje Slovenistika
Cilji in kompetence
Osnovni cilj predmeta je študentom posredovati pregled področja jezikovnih tehnologij, skupaj s stičnimi točkami teorije informacij, jih seznaniti s slovenskimi besedilnimi korpusi in ustreznimi orodji ter z notranjiim ustrojem spletnih strani, z označevalnima jezikoma, v katerih so narejene.
Študenti so sposobni ovrednotiti probleme pri pripravi in obdelavi elektronskih jezikovnih virov v večjezičnem in večplatformnem okolju.
Pridobijo nov pristop k možnostim, ki jih za reševanje jezikovnih problemov ponuja današnji, hitrotekoči spletni čas.
Pogoji za vključitev v delo oz. za opravljanje študijskih obveznosti
Predmet ne zahteva posebnih predznanj, ki jih študentje jezikoslovja že sicer ne bi imeli. Potrebna so le osnovna znanja uporabe računalnikov, izkušnje z uporabo svetovnega spleta in pa, seveda, znanje angleškega jezika.
Vsebina
Vsebina predmeta so najprej splošni pojmi tega področja, pa tudi osnovne spletne veščine, npr. označevalni jeziki, kakršna sta HTML in XML. Sledi pregled prostostopnih korpusnih virov in orodij, predvsem za slovenski jezik in možnosti, ki jih le-ti nudijo pri kvantitativni analizi besedila. Seminarska naloga je v obliki spletne strani narejen statistični opis izbranega slovenskega ali angleškega leposlovnega besedila, skupaj z besednim zakladom njegovih polnopomenskih besednih vrst.
Predvideni študijski rezultati
Študenti spoznajo sodobno orodje za analizo besedil in njegov pomen za jezikoslovje. Razumejo notranji ustroj enostavnih in strojno-generiranih spletnih dokumentov. Dobijo pregled nad besedilnimi korpusi za slovenski jezik in načini njihove uporabe. Seznanijo se z načinom izdelave in objavljanja lastnih spletnih strani. Razumejo princip in pomen označevanja besedil. Naučijo se statističnega opisa izbranega besedila in izdelave njegovega besednega zaklada.
Temeljna literatura in viri
- D. Jurafsky, J. H. Martin, 2009. Speech and language processing, 2. izdaja, Prentice Hall, 1024 str. Katalog
- C. D. Manning in H. Schütze, 1999. Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA, 620 str. Katalog
- A. Witt in D. Metzing (Ur.), 2010. Linguistic Modeling of Information and Markup Languages, zbirka Text, Speech and Language Technology, Vol. 40, Springer, 266 str. E-gradivo
- G. Leech, P. Rayson, A. Wilson, 2001. Word Frequencies in Written and Spoken English: based on the British National Corpus. Longman, London, 320 str. E-gradivo
- Prispevki s konferenc Association for Computational Linguistics (ACL) E-gradivo
- ACL wiki E-gradivo
- V. Gorjanc, 2005. Uvod v korpusno jezikoslovje. Izolit, Domžale, 163 str. Katalog
- P. Jakopin, 2002. Entropija v slovenskih leposlovnih besedilih. Založba ZRC, Ljubljana, 208 str. Katalog
Načini ocenjevanja
Izdelana in predstavljena seminarska naloga (60%), ustni izpit (40%).