Računalniško podprta analiza besedil

Predmet se izvaja v programu:
Digitalna humanistika, interdisciplinarni magistrski študijski program

Cilji in kompetence

Cilj predmeta je študentom omogočiti pridobitev temeljnega znanja za uporabo računalništva za analizo besedil. Pridobljena znanja zajemajo teoretske osnove in praktična znanja s področij korpusnega jezikoslovja, računalniškega jezikoslovja in rudarjenja besedil, potrebna za samostojno opravljanje računalniško podprte analize besedil.

Študenti osvojijo osnove priprave besedil za računalniško obravnavo in dostopanje do prostodostopnih zbirk besedil, drugih virov in orodij za obdelavo besedil.

Študenti osvojijo znanje, potrebno za razumevanje značilnih primerov uporabe in za razvoj prvih samostojnih rešitev pri analizi besedil.

Pogoji za vključitev v delo oz. za opravljanje študijskih obveznosti

Osnove računalniškega programiranja.

Vsebina

• Uvod v analizo besedil
◦ korpusi in korpusno jezikoslovje
◦ računalniško jezikoslovje
◦ rudarjenje besedil

• Razpoložljivi viri (dostopni korpusi, knjižnice, semantični viri - WordNet, ConceptNet)

• Priprava na analizo besedil
◦ Izbor besedil za analizo (reprezentativnost korpusov)
◦ Predprocesiranje besedil (avtomatska segmentacija, lematizacija, morfološko, sintaktično, semantično označevanje)
◦ Označevanje z metapodatki (XML)

• Metode za računalniško analizo besedil
◦ Statistična analiza besedil
◦ Osnovni ukazi in regularni izrazi za delo s korpusi
◦ Luščenje informacij
◦ Gručenje in klasifikacija besedil (npr. po vsebini, žanrih, avtorjih)
◦ Vrednotenje uspešnosti avtomatskih pristopov

• Področja in primeri uporabe
◦ Računalniško podprta analiza diskurza
◦ Računalniška stilistika (analiza žanrov, pripisovanje avtorstva, podobnost dokumentov)
◦ Računalniško podprta terminologija in leksikografija
◦ Večjezična analiza besedil
◦ Računalniška kreativnost

• Praktična uporaba izbranih orodij

Predvideni študijski rezultati

Študenti bodo ob koncu predmeta sposobni:
• razumeti in uporabljati osnovne koncepte področij korpusnega jezikoslovja, računalniškega jezikoslovja in rudarjenja besedil,
• razumeti in uporabljati razpoložljive vire in računalniška orodja za analizo besedil,
• razumeti principe izdelave korpusov,
• izdelati ali uporabiti preproste programe za statistično obravnavo besedil ali iskanje informacij

Splošne kompetence:
• sposobnost analize in sinteze,
• obvladanje raziskovalnih metod, postopkov in procesov,
• razvoj kritične in samokritične presoje,
• sposobnost uporabe znanja v praksi,
• avtonomnost in etičnost v strokovnem delu,
• timsko delo.

Predmetnospecifične kompetence:
• sposobnost izdelave lastnih rešitev računalniško podprte analize besedil za potrebe digitalne humanistike,
• sposobnost vrednotenja uspešnosti metod in orodij,
• sposobnost kritične interpretacije rezultatov.

Temeljna literatura in viri

• Jurafsky, D., Martin, J.H. Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics, 2nd Edition. Prentice-Hall, 2008.
• McEnery, T., Hardie, A. Corpus Linguistics. Method, Theory and Practice. Cambridge University Press. 2011.
• Feldman, Sager. The Text Mining Handbook. Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press. 2006 (printed)/2007 (electronic)

Priporočeno:
• Natural Language Processing with Python http://www.nltk.org/book/
• Love, Harold (2002). Attributing Authorship: An Introduction. Cambridge: Cambridge University Press.

Načini ocenjevanja

50% sprotno preverjanje, 50% končni pisni izpit

Reference nosilca

JURŠIČ, Matjaž, CESTNIK, Bojan, URBANČIČ, Tanja, LAVRAČ, Nada. HCI empowered literature mining for cross-domain knowledge discovery. V: Third International Workshop, HCI-KDD 2013, Held at SouthCHI 2013, Maribor, Slovenia, July 1-3, 2013. HOLZINGER, Andreas (ur.), PASI, Gabriella (ur.). Human-computer interaction and knowledge discovery in complex, unstructured, big data : proceedings, (Lecture notes in computer science, ISSN 0302-9743, Lecture notes in artificial intelligence, vol. 7947). Berlin; Heidelberg: Springer, 2013, vol. 7947, str. 124-135.

PETRIČ, Ingrid, CESTNIK, Bojan, LAVRAČ, Nada, URBANČIČ, Tanja. Outlier detection in cross-context link discovery for creative literature mining. The Computer journal, ISSN 0010-4620, 2012, vol. 55, no. 1, str. 47-61.

PETRIČ, Ingrid, URBANČIČ, Tanja, CESTNIK, Bojan, MACEDONI-LUKŠIČ, Marta. Literature mining method RaJoLink for uncovering relations between biomedical concepts. Journal of biomedical informatics, ISSN 1532-0464, apr. 2009, vol. 42, no. 2, str. 219-227.
LAVRAČ, Nada, LJUBIČ, Peter, URBANČIČ, Tanja, PAPA, Gregor, JERMOL, Mitja, BOLLHALTER, Stefan. Trust modeling for networked organizations using reputation and collaboration estimates. IEEE trans. syst. man cybern., Part C Appl. rev.. [Print ed.], maj 2007, vol. 37, no. 3, str. 429-439, ilustr. [COBISS.SI-ID 645883]
SOMEREN, Maarten W. van, URBANČIČ, Tanja. Applications of machine learning : matching problems to tasks and methods. Knowl. eng. rev., 2006, vol. 20, no. 4, str. 363-402. [COBISS.SI-ID 506107]
GUBIANI, Donatella, PETRIČ, Ingrid, FABBRETTI, Elsa, URBANČIČ, Tanja. Mining scientific literature about ageing to support better understanding and treatment of degenerative diseases. V: MLADENIĆ, Dunja (ur.), GROBELNIK, Marko (ur.). Izkopavanje znanja in podatkovna skladišča (SiKDD 2015) : zbornik 18. mednarodne multikonference Informacijska družba - IS 2015, 5. oktober 2015, [Ljubljana, Slovenia] : zvezek E = Data mining and data warehouses (SiKDD 2015) : proceedings of the 18th International Multiconference Information Society - IS 2015, October 5th, 2015, Ljubljana, Slovenia : volume E. Ljubljana: Institut Jožef Stefan, 2015, 4 str.

MARTINS, Pedro, URBANČIČ, Tanja, POLLAK, Senja, LAVRAČ, Nada, CARDOSO, Amilcar. The good, the bad, and the AHA! blends. V: TOIVONEN, Hannu (ur.). Proceedings of the Sixth International Conference on Computational Creativity, ICCC 2015, June 29 - July 2, 2015, Park City, UT, USA. Provo: Brigham Young University, 2015, str. 166-173.

POLLAK, Senja, MARTINS, Pedro, CARDOSO, Amilcar, URBANČIČ, Tanja. Automated blend naming based on human creativity examples. V: Twenty-Third International Conference on Case-Based Reasoning, ICCBR 2015, 28-30 September 2015, Frankfurt, Germany. KENDALL-MORWICK, Joseph (ur.). Workshop proceedings. [S. l.: s. n.], 2015, str. 93-102.

Univerzitetna šifra predmeta: 2DH017

Letnik: 2. letnik

Nosilec predmeta:

prof. dr. Tanja Urbančič

Predavatelj:

prof. dr. Tanja Urbančič

ECTS: 6

Obseg:

Predavanja: 30 ur
Vaje: 15 ur
Seminar: 15 ur
Samostojno delo: 120 ur

Vrsta predmeta: izbirni predmet (računalništvo)

Jeziki: slovenski, angleški

Metode poučevanja in učenja:
predavanja; domače naloge; vaje; seminarsko delo