Jezikovne tehnologije

Predmet se izvaja v programu:
Študijski program prve stopnje Slovenistika

Cilji in kompetence

Osnovni cilj predmeta je študentom posredovati pregled področja jezikovnih tehnologij, skupaj s stičnimi točkami teorije informacij, jih seznaniti s slovenskimi besedilnimi korpusi in ustreznimi orodji ter z notranjiim ustrojem spletnih strani, z označevalnima jezikoma, v katerih so narejene.
Študenti so sposobni ovrednotiti probleme pri pripravi in obdelavi elektronskih jezikovnih virov v večjezičnem in večplatformnem okolju.
Pridobijo nov pristop k možnostim, ki jih za reševanje jezikovnih problemov ponuja današnji, hitrotekoči spletni čas.

Pogoji za vključitev v delo oz. za opravljanje študijskih obveznosti

Predmet ne zahteva posebnih predznanj, ki jih študentje jezikoslovja že sicer ne bi imeli. Potrebna so le osnovna znanja uporabe računalnikov, izkušnje z uporabo svetovnega spleta in pa, seveda, znanje angleškega jezika.

Vsebina

Vsebina predmeta so najprej splošni pojmi tega področja, pa tudi osnovne spletne veščine, npr. označevalni jeziki, kakršna sta HTML in XML. Sledi pregled prostostopnih korpusnih virov in orodij, predvsem za slovenski jezik in možnosti, ki jih le-ti nudijo pri kvantitativni analizi besedila. Seminarska naloga je v obliki spletne strani narejen statistični opis izbranega slovenskega ali angleškega leposlovnega besedila, skupaj z besednim zakladom njegovih polnopomenskih besednih vrst.

Predvideni študijski rezultati

Študenti spoznajo sodobno orodje za analizo besedil in njegov pomen za jezikoslovje. Razumejo notranji ustroj enostavnih in strojno-generiranih spletnih dokumentov. Dobijo pregled nad besedilnimi korpusi za slovenski jezik in načini njihove uporabe. Seznanijo se z načinom izdelave in objavljanja lastnih spletnih strani. Razumejo princip in pomen označevanja besedil. Naučijo se statističnega opisa izbranega besedila in izdelave njegovega besednega zaklada.

Temeljna literatura in viri

• D. Jurafsky, J. H. Martin, 2009. Speech and language processing, 2. izdaja, Prentice Hall, 1024 str.
• C. D. Manning in H. Schütze, 1999. Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA, 620 str.
• A. Witt in D. Metzing (Ur.), 2010. Linguistic Modeling of Information and Markup Languages, zbirka Text, Speech and Language Technology, Vol. 40, Springer, 266 str.
• G. Leech, P. Rayson, A. Wilson, 2001. Word Frequencies in Written and Spoken English: based on the British National Corpus. Longman, London, 320 str.
• Prispevki s konferenc Association for Computational Linguistics (ACL)
• ACL wiki
• V. Gorjanc, 2005. Uvod v korpusno jezikoslovje. Izolit, Domžale, 163 str.
- P. Jakopin, 2002. Entropija v slovenskih leposlovnih besedilih. Založba ZRC, Ljubljana, 208 str.•

Načini ocenjevanja

Izdelana in predstavljena seminarska naloga (60%), ustni izpit (40%).

Reference nosilca

Jernej Vičič je študiral računalništvo in informatiko na Fakulteti za elektrotehniko in računalništvo, študij pa dokončal na novoustanovljeni Fakulteti za računalništvo in informatiko. Leta 1999 je diplomiral (naslov diplomske naloge: Napredne grafične metode), leta 2002 pa magistriral na  isti fakulteti (magistrsko delo z naslovom: Avtomatsko prevajanje iz slovenskega v angleški jezik na osnovi statističnega strojnega prevajanja). Pod mentorstvom prof. Saša Divjaka in somentorstvom dr. Tomaža Erjavca so bile njegove raziskave usmerjene v preučevanje metod in algoritmov statističnega strojnega prevajanja naravnih jezikov. Po zaključku magistrskega študija nadaljuje raziskovanje na istem področju.
Ukvarja se predvsem z usposabljanjem računalnikov za prevajanje naravnih jezikov, osredotoča pa se na prevode sorodnih jezikov. Tema doktorske disertacije, ki jo je zagovarjal leta 2012 je Tehnologija hitrih postavitev prevajalnih sistemov na osnovi pravil za sorodne jezike.

Izbor objav:

  1. VIČIČ, Jernej, GRGUROVIČ, Marko. Method to overcome the ambiguities in shallow parse and transfer machine translation. Computing and informatics, ISSN 1335-9150, 2018, vol. 37, no. 6, str. 1443-1463, graf. prikazi. http://www.cai.sk/ojs/index.php/cai/article/view/2018_6_1443, doi: 10.4149/cai 2018 6 1443. [COBISS.SI-ID 1541127876]

  2. BOROS, Endre, GURVICH, Vladimir, MILANIČ, Martin, OUDALOV, Vladimir, VIČIČ, Jernej. A three-person deterministic graphical game without Nash equilibria. Discrete applied mathematics, ISSN 0166-218X. [Print ed.], 2018, vol. 243, str. 21-38. https://www.sciencedirect.com/science/article/pii/S0166218X18300404?via%3Dihub, doi: 10.1016/j.dam.2018.01.008. [COBISS.SI-ID 1540221636]

  3. VIČIČ, Jernej, KUBOŇ, Vladislav, HOMOLA, Petr. Česílko Goes Open-source. Prague Bulletin of Mathematical Linguistics, ISSN 0032-6585, 2017, no. 107, str. 57-66. [COBISS.SI-ID 1539534788]

  4. VIČIČ, Jernej. Jezikovni viri za prevajalne sisteme. Annales : anali za istrske in mediteranske študije, Series historia et sociologia, ISSN 1408-5348. [Tiskana izd.], 2016, letn. 26, št. 4, str. 751-767, ilustr., doi: 10.19233/ASHS.2016.57. [COBISS.SI-ID 1539062468]

  5. VIČIČ, Jernej, HOMOLA, Petr, KUBOŇ, Vladislav. Automated implementation process of machine translation system for related languages. Computing and informatics, ISSN 1335-9150, 2016, vol. 35, no. 2, str. 441-469. [COBISS.SI-ID 1538538948]

  6. VIČIČ, Jernej, ŠUKLJAN, Tine. Motivating cultural heritage artifacts presentation using persuasive technology. Informatica : an international journal of computing and informatics, ISSN 0350-5596, 2016, vol. 40, no. 4, str. 457-461. [COBISS.SI-ID 1539062212]

  7. KLJUN, Matjaž, VIČIČ, Jernej, ČOPIČ PUCIHAR, Klen, KAVŠEK, Branko. "I agree" : the effects of embedding terms of service key points in online user registration form. V: ABASCAL, Julio (ur.). Human-Computer Interaction - INTERACT 2015. Part II : proceedings : 15th IFIP TC 13 International Conference, Bamberg, Germany, September 14-18, 2015,, (Lecture notes in computer science, ISSN 0302-9743, 9297). Berlin; New York: Springer. cop. 2015, str. 420-427, ilustr. http://link.springer.com/book/10.1007/978-3-319-22668-2, doi: 10.1007/978-3-319-22668-2_32. [COBISS.SI-ID 1537827012]

  8. VIČIČ, Jernej, KUBOŇ, Vladislav. A comparison of MT methods for closely related languages : a case study on Czech - Slovak and Croatian - Slovenian language pairs. V: KRÁL, Pavel (ur.), MATOUŠEK, Václav (ur.). Text, speech, ad dialogue : proceedings : 18th International Conference, TSD 2015, Pilsen,Czech Republic, September 14-17, 2015, (Lecture notes in computer science, ISSN 0302-9743, 9302). Berlin; New York: Springer. cop. 2015, str. 216-224, ilustr. http://link.springer.com/chapter/10.1007/978-3-319-24033-6_25, doi: 10.1007/978-3-319-24033-6_25. [COBISS.SI-ID 1537823684]

  9. VIČIČ, Jernej, BRODNIK, Andrej. Multiple-cloud platform monitoring. Elektrotehniški vestnik online, ISSN 2232-3236. [Spletna izd.], 2014, vol. 81, no. 3, str. 94-100, graf. prikazi. http://ev.fe.uni-lj.si/3-2014/Vicic.pdf. [COBISS.SI-ID 37581101]

  10. VIČIČ, Jernej, BRODNIK, Andrej. Parse tree based machine translation for less-used languages. Metodološki zvezki, ISSN 1854-0023. [Tiskana izd.], 2008, vol. 5, no. 1, str. 65-81, ilustr. http://mrvar.fdv.uni-lj.si/pub/mz/mz5.1/vicic.pdf. [COBISS.SI-ID 2818007]