Inspiro 2.0: Raziskovalno-umetniški projekt o pismih iz preteklosti
Raziskovalni dnevnik projekta:
Povezave med čustveno obarvanostjo pisem in uspešnostjo transkripcije z uporabo HTR metod: kako zveni (ne)berljivost čustev?
Projekt obsega tri faze:
A. V prvi fazi se projekt osredotoča na uporabo metod digitalne humanistike, tj. na samodejno prepoznavanje besed (ang. ATR - Automatic Term Recognition).
Cilji te raziskovalne faze so:
- prehod iz ročnega na samodejno transkribiranje pisem;
- pospeševanje procesa transkripcije;
- vnos novih pisem v elektronsko zbirko Pisma.

B. Druga raziskovalna faza se navezuje na rezultate, ki smo bili pridobljeni z digitalno metodologijo v prvi fazi, pri čemer številčne vrednosti umešča v kontekst obstoječih raziskav intime v pismih. Cilj te faze je namreč preveriti, ali je vsebina pisem (predvsem z vidika njihove čustvene obarvanosti) povezana z uspešnostjo strojnega branja rokopisnega besedila. Na ta način bo mogoče preveriti hipotezo o rokopisu kot tipu samocenzure na primeru posameznih avtoric iz baze.
Cilj te faze je tudi teoretska kontekstualizacija rezultatov strojnega branja z navezovanjem na že obstoječe študije, ki izhajajo iz raziskav na projektih Raziskovalnega centra za humanistiko Univerze v Novi Gorici, kot sta študiji dr. Primoža Mlačnika Epistolarne intimnosti: razmerja med pisemskim prijateljstvom, ustvarjalno samocenzuro in žensko emancipacijo in dr. Ivane Zajc »Nucamo vsaj nekaj žensk, ki se zanimajo za poezijo«: samoreprezentacije avtoric iz obdobja moderne v pismih.
C. V tretji fazi projekta empirične in teoretične rezultate prenašamo v novo dimenzijo – zvok z namenom predstavitve (ne)berljivosti pisem v mediju, ki je drugačen od besedila.
Cilj zadnje faze je razbijanje funkcionalne fiksiranosti na en medij oziroma eno plast percepcije pisem in metaforično prevajanje emocij iz besedila v zvok, da bi se poustvarila njihova vsebina. Zvok pisem bomo programirali s pomočjo številčnih vrednosti iz prve faze dela, pri čemer bomo ohranili koordinate znanstvenega dela našega raziskovanja v jedru umetniške predstavitve čustvenosti vsebine pisem.
Potek procesa dela
Zapiski študentke ob raziskovanju
A. PRVA FAZA: Od ročne transkripcije do uspešnega modela za samodejno branje
Ker sem doslej uspešno pripeljala prvo fazo do konca, se bom na kratko zadržala pri konkretnem delovnem procesu, izzivih, postopkih in rezultatih, do katerih sem prišla.
Do začetka projekta Inspiro je elektronska zbirka Pisma Raziskovalnega centra za humanistiko že vsebovala nekaj več kot 2000 pisem – torej pisem, ki so zbrana, transkribirana in vnesena v spletno bazo, nekatera tudi skenirana. Baza vsebuje tako transkribirana besedila kot tudi metapodatke in faksimile. Ta baza je predstavljala osnovo za več raziskav, nedavno pa je izšla tudi knjiga Ljubim lepa pisma: dopisovanja avtoric slovenske moderne. Ker je že sama sprva zbirka nastala kot študentski projekt, projekt Povezave med čustveno obarvanostjo pisem in uspešnostjo transkripcije z uporabo HTR metod pomeni neposredno nadaljevanje prej uspešno izvedenih študentskih iniciativ in raziskav.
Čeprav je veliko pisem, zahvaljujoč delu številnih raziskovalk in raziskovalcev, študentov in prostovoljcev, že dostopnih v bazi, je treba poudariti, da so bila vsa pisma transkribirana ročno, kar zahteva precej časa (razen v redkih primerih, ko so pisma tipkana in ne rokopisna). Ker se lahko zbirka obogati s transkripcijo novih pisem, sem pri konceptualizaciji projekta izhajala iz tega, da bi avtomatizacija postopka transkripcije kot prvi cilj projekta pomenila pomemben korak k izboljšanju postopka vnosa novih pisem.

V prvi fazi sem imela zato več mikrociljev:
- testiranje programov za HTR in izbira programa za delo;
- izbor pisem in zbiranje faksimilov;
- predobdelava faksimilov – optimizacija fotografij/PDF-jev za delo v programu;
- usposabljanje za delo v eScriptoriumu (usposabljanje na poletni šoli v Berlinu);
- iskanje ustreznega modela za branje rokopisov v slovenščini;
- treniranje modela za rokopise v slovenščini;
- preverjanje uspešnosti novih modelov.
Uresničitev mikrociljev v prvi raziskovalni fazi vodi k širšima ciljema prve faze: pospešitvi procesa transkripcije in vnosu novih pisem v bazo.

Z raziskovanjem dostopnih orodij za HTR sem na podlagi števila uporabnic in uporabnikov ter nekaj preglednih člankov (Eleftheriadi 2025, Thompson 2021) izbor zožila na dve dostopni platformi – Transkribus in eScriptorium. Obe orodji služita za samodejno prepoznavanje in transkripcijo rokopisnih besedil, kakor tudi za prepoznavanje in analizo postavitve strani (layout), npr. vrstic, stolpcev, besedilnih blokov itd. Transkribus ima dostopne modele za številne jezike in omogoča tudi učenje lastnih modelov. Največja omejitev Transkribusa pa je v tem, da se modeli, ki so ustvarjeni ali trenirani preko Transkribusa, ne morejo izvoziti in shraniti v obliki, ki bi bila uporabna zunaj platforme.
Na drugi strani eScriptorium uporablja Kraken engine za OCR in HTR – Kraken je fleksibilen in ne temelji na predpostavkah, temveč se prilagaja učenju z npr. raznolikimi postavitvami besedila (tudi smeri besedila) in nestandardnimi rokopisi, kar je posebej uporabno za zbirko Pisma, ki vsebuje veliko razglednic, besedil, pisanih v različnih smereh, z različnimi pisavami (cirilico in latinico) ter jeziki. Poleg tega eScriptorium omogoča uporabnicam in uporabnikom ročno segmentacijo, popravljanje napak in ustvarjanje ground truth podatkov, na podlagi katerih se nato lahko trenirajo in uporabljajo lastni modeli. Največja prednost eScriptoriuma je njegova odprtost: novi trenirani modeli se lahko izvažajo, kar je precej prilagodljivejše in praktičnejše za dolgoročno delo.
Iz teh razlogov sem se odločila primarno za eScriptorium, saj omogoča nadaljnje treniranje in shranjevanje modelov za več različnih pisav (avtorjev in avtoric), ki jih imamo v zbirki Pisma.
Druga naloga – izbor pisem in zbiranje faksimilov – je bila primarno vezana na neposredno delo z elektronsko zbirko ter na posvetovanja z mentorico dr. Ivano Zajc in glavno urednico Elektronske zbirke Pisma dr. Katjo Mihurko. V tej fazi smo izbrale skupno 40 pisem, razdeljenih v skupine po osem pisem naslednjih avtorjev in avtoric: Zofke Kveder, Vide Jeraj, Marice Nadlišek Bartol, Josipa Murna in Ivana Cankarja.

Na podlagi že dostopne tematske klasifikacije pisem v zbirki (ki omogoča lažje iskanje po temah) smo pisma razdelile v dve enaki skupini – na skupino 20 čustvenih pisem (ki obravnavajo teme, kot so: žensko prijateljstvo, žensko-moško prijateljstvo, moško prijateljstvo, ljubezen, sreča, spolnost, erotika itd.) in na kontrolno skupino 20 pisem navedenih avtorjev, ki se dotikajo naključnih tematik (kultura in umetnost, rastlinski svet, zdravje, finance, vreme, hrana itd.). Obe skupini imata približno enako število znakov (med 8500 in 9000).
Ta razdelitev bo pomembna za drugo in tretjo fazo projekta, tj. za preverjanje hipoteze o povezanosti čustvene nasičenosti pisem in uspešnosti branja s pomočjo HTR metod.
V naslednji fazi dela sem pripravljala zbrane faksimile za delo v eScriptoriumu. To pomeni predvsem tehnično delo: zviševanje kakovosti fotografij na najmanj 300 dpi ter izboljševanje kakovosti, tj. nastavitev grayscale(odstranjevanje barve, kadar je smiselno), noise removal (nekatera pisma so bila porozna), kontrast ipd. Za to vrsto posegov so uporabna npr. orodja Pillow, Image Magick, Leptonica ipd. Kljub temu je bila večina faksimilov dovolj kakovostna, zato fotografij ni bilo treba posebej podrobno procesirati.
Čeprav je eScriptorium dostopen in ima razmeroma prijazen vmesnik, je bilo za neposredno učenje uporabe eScriptoriuma zame pomembno tudi obiskovanje poletne šole ATRIUM v Berlinu, ki jo je organizirala DARIAH. Udeležila sem se je skupaj s Saro Vukotić, sodelavko Raziskovalnega centra za humanistiko, ki že ima izkušnje z ročno transkripcijo pisem.
Ta poletna šola mi je pomagala pri obvladovanju več faz raziskovanja: učenju o eScriptoriumu, iskanju ustreznega modela za slovenski jezik, treniranju lastnega modela in preverjanju uspešnosti.
Na poletni šoli smo najprej delali na predobdelavi gradiva, na katerem smo morali kasneje delati. Ker smo s seboj prinesli že pripravljene in predobdelane dokumente, ni bilo posebne potrebe po dodatnem delu na našem gradivu. Smo pa vseeno pridobili izkušnje v OpenCV in se naučili predobdelave fotografij tudi na ta način.

Ko smo imeli pripravljeno in urejeno gradivo, smo se najprej učili osnov segmentacije v eScriptoriumu. Ker je bila kakovost naših faksimilov že precej dobra, je program zelo uspešno samodejno razmejeval regions, lines, masks in polygons. Kljub temu smo pred treniranjem modela popravljali podrobnosti, ki jih je program spregledal, kot so nekoliko prekratke lines ali napačno ločeni regions, kadar smo imeli pisma z več stolpci.

Po uspešni segmentaciji smo testirali že obstoječe in uspešne modele, ki pa so bili trenirani na drugih korpusih, da bi preverili, ali je kateri učinkovit pri branju pisem naših avtoric. Na žalost se je večina dostopnih modelov izkazala za skoraj povsem neuporabne, celo tisti, ki so bili trenirani na sorodnih jezikih, kot sta poljščina ali češčina. Edini model, ki nam je dal vsaj delno pozitivne rezultate, je bil FoNDUE-GD – pri prvem poskusu je prepoznal približno 50 % znakov.


Zato smo se v posvetu s programerji in predavatelji pogovarjali o tem, ali naj treniramo lasten model na novo ali pa naj treniramo FoNDUE, ki je razmeroma uspešno prepoznaval nekatere znake rokopisa. Odločili smo se, da je FoNDUE dobra osnova. Mentorji so nam tudi svetovali, naj se odločimo, da ta model dodatno treniramo samo na enem rokopisu – torej eni avtorici oz. enem avtorju iz zbirke – da bi ga učili na čim bolj specifičnem gradivu.
Padla je odločitev, da v tej fazi delamo samo z Zofko Kveder, saj je bilo v zbirki že na voljo dovolj njenih ročno transkribiranih pisem, s katerimi smo lahko trenirali model.

V eScriptoriumu smo najprej izvedle segmentacijo izbranih 20 pisem Zofke Kveder, nato pa smo ročno vnesle že obstoječe transkripte. Zatem smo izvozile podatke (fotografije in transkripte) iz eScriptoriuma in z njimi fine-tunealeFoNDUE-GD. Že po prvem krogu smo model natrenirale na več kot 80 % uspešnosti branja Zofkinih pisem. Po nekaj krogih in z dodatkom novih pisem smo model natrenirali celo na 87 % uspešnosti samodejnega prepoznavanja rokopisnega besedila Zofke Kveder.
Na koncu smo izračunali uspešnost novih natreniranih modelov z izračunom CER (Character Error Rate) in WER (Word Error Rate) s pomočjo že obstoječih orodij, npr. KaMI tool.
Del numeričnih vrednosti uspešnosti prebranih pisem bo kasneje uporabljen v tretji fazi mojega projekta Inspiro – za programiranje zvoka pisem.
***
S treniranjem modela, ki uspešno bere rokopis Zofke Kveder, se bistveno pospeši proces transkripcije njenih še neprebranih pisem (zlasti denimo v nemščini) in vnos v bazo – kar je eden od dolgoročnih ciljev projekta in celotne prve raziskovalne faze. Model, treniran na rokopisu Zofke Kveder, razmeroma uspešno bere tudi druge rokopise, ki so mu podobni, zato je lahko uporaben za več pisem, ki še čakajo na transkripcijo v prihodnosti. Poleg tega se lahko model, treniran na rokopisih Zofke Kveder, dodatno uri na drugih rokopisih oziroma delih avtorjev in avtoric. Ker eScriptorium omogoča shranjevanje modelov in njihovo nadaljnjo uporabo, to pomeni, da bomo lahko v prihodnje izdelali modele za večino avtorjev in avtoric v korpusu Pisma, kar dolgoročno olajša vnos novih pisem v bazo.
Prihodnji cilji med potekom projekta:
V naslednjih korakih me čaka delo na preverjanju hipoteze o povezanosti uspešnosti strojnega branja in vsebine pisem.