Sodobni načini zbiranja jezikovnih podatkov

Cilji in kompetence

Ni posebnih pogojev za vključitev oziroma za opravljanje obveznosti. Predmet se povezuje z vsemi jezikoslovnimi predmeti na tem programu, a ne predvideva predznanja izhajajočega iz teh predmetov.

Vsebina

Predmet zajema pregled splošnih pojmov tega področja, pa tudi osnovnih spletnih veščin, npr. označevalnih jezikov, kakršna sta HTML in XML. Sledi pregled prostostopnih korpusnih virov in orodij, predvsem za slovenski jezik in možnosti, ki jih ti nudijo pri kvantitativni analizi besedila, eksperimentalnem pristopu k nabiranju jezikoslovnih podatkov in njihovi analizi. Poseben poudarek bo namenjen ustrezni interpretaciji dobljenih korpusnih podatkov, tudi v odnosu na obstoječe slovarje in jezikovne priročnike. Seminarska naloga je v obliki spletne strani narejen statistični opis izbranega slovenskega ali angleškega leposlovnega besedila oz. v obliki spletne strani predstavljeni rezultati jezikovne ankete, anketnega vprašalnika oz. jezikoslovnega eksperimenta.

Temeljna literatura in viri:

The Routledge Handbook of Corpus Linguistics. Anne O'Keeffe (ur.), Michael J. McCarthy (ur.). Abingdon, New York: Routledge, 2022.
Current Trends in Corpus Linguistics. José Luis Oncins Martínez (ur.). Berlin: Peter Lang, 2020.
The Oxford Handbook of Computational Linguistics. Ruslan Mitkov (ur.). Oxford: Oxford University Press, 2022.
D. Jurafsky, J. H. Martin, 2009. Speech and language processing, 2. izdaja, Prentice Hall, 1024 str.
C. D. Manning in H. Schütze, 1999. Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA, 620 str.
A. Witt in D. Metzing (Ur.), 2010. Linguistic Modeling of Information and Markup Languages, zbirka Text, Speech and Language Technology, Vol. 40, Springer, 266 str.
ACL wiki
V. Gorjanc, 2005. Uvod v korpusno jezikoslovje. Izolit, Domžale, 163 str.
R Manual - https://cran.r-project.org/manuals.html
Ibex docs - https://github.com/addrummond/ibex/blob/master/docs/manual.md

Predvideni študijski rezultati

Študenti spoznajo sodobno orodje za analizo besedil in njegov pomen za jezikoslovje. Razumejo notranji ustroj enostavnih in strojno-generiranih spletnih dokumentov. Dobijo pregled nad besedilnimi korpusi za slovenski jezik, načini njihove uporabe ter so sposobni ustrezno interpretirati dobljene podatke. Študentje spoznajo načine izrabe spletnih anket za preverjanje jezikovnih vprašanj. Seznanijo se z načinom izdelave in objavljanja lastnih spletnih strani. Naučijo se statističnega opisa izbranega besedila oz. zbranih jezikovnih podatkov.

Načini ocenjevanja

Domače naloge, seminarska naloga in zaključni izpit.

Reference nosilca

Red. prof. dr. Franc Marušič je predavatelj jezikoslovja na Fakulteti za humanistiko na Univerzi v Novi Gorici. Njegovo osrednje raziskovalno področje je skladnja, pri čemer je večino svojega raziskovalnega dela opravil na slovenski skladnji.

Izbor člankov:
MARUŠIČ, Franc, ŽAUCER, Rok. O določnem ta v pogovorni slovenščini (z navezavo na določno obliko pridevnika). Slavistična revija. [Tiskana izd.], jan.-jun. 2007, letn. 55, št. 1/2, str. 223-247. http://www.srl.si/sql_pdf/SRL_2007_1-2_15.pdf. [COBISS.SI-ID 700923]
MARUŠIČ, Franc. Some thoughts on phase extension to a single interface. Theor. linguist., 2007, vol. 33, no. 1, str. 83-91. [COBISS.SI-ID 637947]
MARUŠIČ, Franc, ŽAUCER, Rok. On the intensional feel-like construction in Slovenian : a case of a phonologically null verb. Nat. lang. linguist. theory, vol. 24, no. 4, str. 1093-1159. [COBISS.SI-ID 589563]
LARSON, Richard K., MARUŠIČ, Franc. On indefinite pronoun structures with APs : reply to Kishimoto. Linguist. inq., 2004, vol. 35, no. 2, str. 268-287. [COBISS.SI-ID 472315]
Boban Arsenijević, Franc Marušič, and Jana Willer Gold. Experimenting with Highest Conjunct Agreement under Left Branch Extraction. V Teodora Radeva-Bork and Peter Kosta (eds.) Current Developments in Slavic Linguistics. Twenty Years After. Berlin: Peter Lang. (2020)
Franc Marušič and Andrew Nevins. Distributed agreement in participial sandwiched configurations. V Peter W. Smith, Johannes Mursell & Katharina Hartmann (eds.), Agree to Agree: Agreement in the Minimalist Programme, 179-198. Berlin: Language Science Press. (2020). DOI:10.5281/zenodo.3541753
Franc Marušič, Petra Mišmaš in Rok Žaucer. Zakaj velika okrogla rdeča čestitka in ne rdeča velika okrogla čestitka? Poskus razlage nezaznamovane stave pridevnikov. Zbornik ob 80-letnici Ade Vidovič-Muhe, (2020)

Doc. dr. Boris Kern je raziskovalec na Inštitutu za slovenski jezik Frana Ramovša ZRC SAZU in predavatelj na Fakulteti za humanistiko na Univerzi v Novi Gorici. Ukvarja se z vprašanji sodobne leksikologije in leksikografije, besedotvorja, pomenoslovja ter slovenščino kot drugim in tujim jezikom.

Izbor objav:
KERN, Boris. Stopenjsko besedotvorje : na primeru glagolov čutnega zaznavanja. Ljubljana: Založba ZRC, ZRC SAZU, 2017. [COBISS.SI-ID 291202048]
KERN, Boris. Politična korektnost v slovaropisju. V: ZULJAN KUMAR, Danila (ur.), DOBROVOLJC, Helena (ur.). Zbornik prispevkov s simpozija 2013. Nova Gorica: Založba Univerze, 2015. 144–154. [COBISS.SI-ID 41919789]
KERN, Boris. Feminativi v izsamostalniških besedotvornih nizih. V: JOŽEF-BEG, Jožica (ur.), HOČEVAR, Mia (ur.), KOČNIK, Neža (ur.). Naslavljanje raznolikosti v jeziku in književnosti : [Slovenski slavistični kongres, Maribor, 28.-30. september 2023]. Ljubljana: Zveza društev Slavistično društvo Slovenije, 2023. 197–205. [COBISS.SI-ID 167240707]
ERJAVEC, Tomaž, PRANJIĆ, Marko, PELICON, Andraž, KERN, Boris, STRAMLJIČ BREZNIK, Irena, POLLAK, Senja. Automating derivational morphology for Slovenian. V: MEDVEĎ, Marek (ur.), et al. eLex 2023 : electronic lexicography in the 21st century (eLex 2023) : proceedings of the eLex 2023 conference : [Brno], 27–29 June 2023. Brno: Lexical Computing CZ, 2023. 449–465. [COBISS.SI-ID 184700675]
KERN, Boris. Potencjał słowotwórczy wybranych polskich i słoweńskich czasowników ruchu. V: GAWLAK, Monika (ur.). Polsko-słoweński dialog międzykulturowy = Slovensko-poljski medkulturni dialog. 1. mednarodna znanstvena slovenistična konferenca Slovensko-poljski medkulturni dialog, Katowice, 2023. Katowice: Wydawnictwo Uniwersytetu Śląskiego, 2023. 185–201. [COBISS.SI-ID 184694787]
KLEMENČIČ, Simona, KERN, Boris. Povezljivost Slovarja slovenskega znakovnega jezika in Slovarja slovenskega knjižnega jezika. Slavistična revija : časopis za jezikoslovje in literarne vede. [Tiskana izd.]. okt.-dec. 2022, letn. 70, št. 4. 655–664. [COBISS.SI-ID 137732867]
VIŽINTIN, Marijanca Ajša, KERN, Boris. Začetni tečaj slovenščine in medkulturni dialog pri vključevanju otrok priseljencev. Dve domovini, št. 56, 2022. 131–148. [COBISS.SI-ID 115745283]
KERN, Boris, VIČAR, Branka. Jezik in transspolne identitete. Slavistična revija, apr.–jun. 2019, letn. 67, št. 2, 413–422, [COBISS.SI-ID 44910637]
ŽELE, Andreja, KERN, Boris. Spremembe v leksiki in skladnji v sodobni slovenščini. Acta Universitatis Wratislaviensis, Acta Universitatis Wratislaviensis. Slavica Wratislaviensia, Wyraz i zdanie w językach słowiańskich 9: opis, konfrontacja, przekład. no. 3792, 2017. 461–469. [COBISS.SI-ID 42638381]
KERN, Boris. Zagadnienia słowotwórcze w wybranych podręcznikach do nauczania języków słoweńskiego i polskiego jako obcych. V: PAŁUSZYŃSKA, Edyta (ur.). Glottodydaktyka - media - komunikacja. Negocjowanie znaczeń. Łódż: Wydawnictwo Uniwersytetu Łódzkiego, 2014. 211–220. Acta Universitatis Lodziensis, Kształcenie polonistyczne cudzoziemców, 21. [COBISS.SI-ID 57085282]