Sodobni načini zbiranja jezikovnih podatkov

Cilji in kompetence

Osnovni cilj predmeta je študentom predstaviti exsperimentalno in korpusno jezikoslovje z nekaj osnovnimi orodji, ki se na teh področih uporabljajo.
Študenti so sposobni ovrednotiti probleme pri obdelavi elektronskih jezikovnih virov in zasnovati vprašalnik, ki bi odgovoril na konkretno jezikoslovno vprašanje.
Pridobijo nov pristop k možnostim, ki jih za reševanje jezikovnih problemov ponuja današnji, hitrotekoči spletni čas.

Pogoji za vključitev v delo oz. za opravljanje študijskih obveznosti

Ni posebnih pogojev za vključitev oziroma za opravljanje obveznosti. Predmet se povezuje z vsemi jezikoslovnimi predmeti na tem programu, a ne predvideva predznanja izhajajočega iz teh predmetov.

Vsebina

Vsebina predmeta so najprej splošni pojmi tega področja, pa tudi osnovne spletne veščine, npr. označevalni jeziki, kakršna sta HTML in XML. Sledi pregled prostostopnih korpusnih virov in orodij, predvsem za slovenski jezik in možnosti, ki jih le-ti nudijo pri kvantitativni analizi besedila, eksperimentalnem pristopu k nabiranju jezikoslovnih podatkov in analizi le teh. Seminarska naloga je v obliki spletne strani narejen statistični opis izbranega slovenskega ali angleškega leposlovnega besedila oz. v obliki spletne strani predstavljeni rezultati jezikovne ankete, anketnega vprašalnika oz. jezikoslovnega eksperimenta.

Predvideni študijski rezultati

Študenti spoznajo sodobno orodje za analizo besedil in njegov pomen za jezikoslovje. Razumejo notranji ustroj enostavnih in strojno-generiranih spletnih dokumentov. Dobijo pregled nad besedilnimi korpusi za slovenski jezik in načini njihove uporabe. Študentje spoznajo načine izrabe spletnih anket za preverjanje jezikovnih vprašanj. Seznanijo se z načinom izdelave in objavljanja lastnih spletnih strani. Naučijo se statističnega opisa izbranega besedila oz. zbranih jezikovnih podatkov .

Temeljna literatura in viri

  • D. Jurafsky, J. H. Martin, 2009. Speech and language processing, 2. izdaja, Prentice Hall, 1024 str. Katalog E-gradivo
  • C. D. Manning in H. Schütze, 1999. Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA, 620 str. Katalog E-gradivo
  • A. Witt in D. Metzing (Ur.), 2010. Linguistic Modeling of Information and Markup Languages, zbirka Text, Speech and Language Technology, Vol. 40, Springer, 266 str. E-gradivo
  • ACL wiki E-gradivo
  • V. Gorjanc, 2005. Uvod v korpusno jezikoslovje. Izolit, Domžale, 163 str. Katalog
  • R Manual E-gradivo
  • Ibex docs E-gradivo

Načini ocenjevanja

Domače naloge, seminarska naloga in zaključni izpit

Reference nosilca

Red. prof. dr. Franc Marušič je predavatelj jezikoslovja na Fakulteti za humanistiko na Univerzi v Novi Gorici. Njegovo osrednje raziskovalno področje je skladnja, pri čemer je večino svojega raziskovalnega dela opravil na slovenski skladnji.
Izbor člankov:
MARUŠIČ, Franc, ŽAUCER, Rok. O določnem ta v pogovorni slovenščini (z navezavo na določno obliko pridevnika). Slavistična revija. [Tiskana izd.], jan.-jun. 2007, letn. 55, št. 1/2, str. 223-247. http://www.srl.si/sql_pdf/SRL_2007_1-2_15.pdf. [COBISS.SI-ID 700923]
MARUŠIČ, Franc. Some thoughts on phase extension to a single interface. Theor. linguist., 2007, vol. 33, no. 1, str. 83-91. [COBISS.SI-ID 637947]
MARUŠIČ, Franc, ŽAUCER, Rok. On the intensional feel-like construction in Slovenian : a case of a phonologically null verb. Nat. lang. linguist. theory, vol. 24, no. 4, str. 1093-1159. [COBISS.SI-ID 589563]
LARSON, Richard K., MARUŠIČ, Franc. On indefinite pronoun structures with APs : reply to Kishimoto. Linguist. inq., 2004, vol. 35, no. 2, str. 268-287. [COBISS.SI-ID 472315]
Boban Arsenijević, Franc Marušič, and Jana Willer Gold. Experimenting with Highest Conjunct Agreement under Left Branch Extraction. V Teodora Radeva-Bork and Peter Kosta (eds.) Current Developments in Slavic Linguistics. Twenty Years After. Berlin: Peter Lang. (2020)
Franc Marušič and Andrew Nevins. Distributed agreement in participial sandwiched configurations. V Peter W. Smith, Johannes Mursell & Katharina Hartmann (eds.), Agree to Agree: Agreement in the Minimalist Programme, 179-198. Berlin: Language Science Press. (2020). DOI:10.5281/zenodo.3541753
Franc Marušič, Petra Mišmaš in Rok Žaucer. Zakaj velika okrogla rdeča čestitka in ne rdeča velika okrogla čestitka? Poskus razlage nezaznamovane stave pridevnikov. Zbornik ob 80-letnici Ade Vidovič-Muhe, (2020)