====== Konkordancija latinskog teksta, s posebnim osvrtom na Katančićevu raspravu "De columna milliaria..." ====== Slične stranice: [[s:digitalni-novolatinski-1|Digitalno manipuliranje tekstovima]], [[z:diariumlatinitatis|Diarium Latinitatis]], [[:0807digimed-cetvrta|Digtalni medievist 2008]] **Cilj**: želimo napraviti konkordanciju latinskog teksta, tj. abecedno poredan popis riječi i oblika s podacima o njihovim pojavnicama (učestalost, kontekst, kolokacije itd.) **Treba nam**: računalno obradiv tekst, program za konkordanciju. ===== Računalno obradiv tekst ===== Bilo koji računalno napisan dokument spremimo ("Save As/ Spremi kao") u formatu ''.txt'' ili ''.xml''. ===== Program za konkordanciju ===== Kao i više puta dosad, predlažem da na svoje računalo instalirate [[http://www.antlab.sci.waseda.ac.jp/antconc_index.html|AntConc]] i proučite [[http://www.antlab.sci.waseda.ac.jp/software/README_AntConc3.2.4.pdf|priručnik]] (u PDF formatu). ====== Procedura ====== - Izraditi popis riječi - Poslati riječi servisu za lematizaciju - Proučiti dobiveni popis: a) prepoznate / jednoznačno lematizirane riječi, b) višeznačno lematizirane riječi, c) neprepoznate riječi (te d. pogrešno prepoznate riječi) ===== Popis riječi u Katančićevu spisu Columna miliaria ===== Djelo koje proučavamo (digitalni faksimil [[http://books.google.hr/books?id=teBEAAAAYAAJ|slobodno dostupan na Google Books]]) ima, u računalnom prijepisu, ukupno 28.664 riječi (pojavnica). Od njih je 8375 različnica (različitih oblika). - [[http://www.ffzg.unizg.hr/klafil/croala/xpr/katancic-wl-abc.txt|po abecedi]] - [[http://www.ffzg.unizg.hr/klafil/croala/xpr/katancic-wl-freq.txt|po učestalosti]] Oduzmemo li brojke i riječi pisane slovima alfabeta, ostaje 8088 riječi. Njih ćemo pomoću računala slati servisu za lematizaciju. Digitalno izdanje djela, pretraživo pomoću sustava PhiloLogic, dostupno je preko ove poveznice: [[http://www.ffzg.unizg.hr/klafil/croala/kat.whizbang.form.html]]. ===== Servis za lematizaciju ===== Na internetu postoji više takvih servisa, a jedan je dostupan zahvaljujući [[http://www.projectbamboo.org/|projektu Bamboo]] i [[http://www.perseus.tufts.edu/hopper/|digitalnoj knjižnici Perseus]] (Sveučilište Tufts, Massachusetts, SAD). Ondje pretraga za //aedificare// izgleda ovako: [[http://services-qa.projectbamboo.org/bsp/morphologyservice/analysis/word?word=aedificare&lang=lat&engine=morpheus]]. Rezultat je u RDF formatu. Ovakvom servisu možemo čitav popis riječi (pa i onaj od oko 8.000 riječi iz Katančića) poslati automatski, pomoću računalnog programa. Evo jednoga: #!/usr/bin/perl -w # morphb.pl - sends a list of words to Perseus morphology service # usage: perl morphb.pl filename use strict; use warnings; require LWP::UserAgent; my $addr2 = "http://services-qa.projectbamboo.org/bsp/morphologyservice/analysis/word?lang=lat&engine=morpheus&word="; my ($verbum); # my @verba = ('kakao', 'mare', 'rubrum', 'urbs', 'littera'); while ($verbum = <>) { chomp $verbum; &uag(); } sub uag { my $ua = LWP::UserAgent->new; $ua->timeout(30); $ua->env_proxy; my $response = $ua->get($addr2 . $verbum); if ($response->is_success) { print $response->content( ); # or whatever print "\n"; } else { die $response->status_line; } } Evo primjera identificirane riječi (RDF u JSON notaciji): { "RDF" : { "Annotation" : { "created" : "30\nNov\n2012\n22:36:03\nGMT", "creator" : { "Agent" : { "about" : "org.perseus:tools:morpheus.v1" } }, "hasBody" : { "resource" : "urn:uuid:4b1e5028-38d0-41a3-9b3a-c82ab666c6d6" }, "hasTarget" : { "Description" : { "about" : "urn:word:mirae" } }, "title" : null, "about" : "urn:TuftsMorphologyService:mirae:morpheus", "Body" : { "rest" : { "entry" : { "infl" : [ { "num" : "plural", "decl" : "1st\n&\n2nd", "pofs" : { "$" : "adjective", "order" : 2 }, "case" : { "$" : "nominative", "order" : 7 }, "stemtype" : "us_a_um", "gend" : "feminine", "term" : { "stem" : "mi_r", "lang" : "lat", "suff" : "ae" } }, { "num" : "plural", "decl" : "1st\n&\n2nd", "pofs" : { "$" : "adjective", "order" : 2 }, "case" : { "$" : "vocative", "order" : 1 }, "stemtype" : "us_a_um", "gend" : "feminine", "term" : { "stem" : "mi_r", "lang" : "lat", "suff" : "ae" } }, { "num" : "singular", "decl" : "1st\n&\n2nd", "pofs" : { "$" : "adjective", "order" : 2 }, "case" : { "$" : "dative", "order" : 5 }, "stemtype" : "us_a_um", "gend" : "feminine", "term" : { "stem" : "mi_r", "lang" : "lat", "suff" : "ae" } }, { "num" : "singular", "decl" : "1st\n&\n2nd", "pofs" : { "$" : "adjective", "order" : 2 }, "case" : { "$" : "genitive", "order" : 6 }, "stemtype" : "us_a_um", "gend" : "feminine", "term" : { "stem" : "mi_r", "lang" : "lat", "suff" : "ae" } } ], "dict" : { "decl" : "1st\n&\n2nd", "hdwd" : { "$" : "mirus", "lang" : "lat" }, "pofs" : { "$" : "adjective", "order" : 2 } }, "uri" : null } }, "type" : { "resource" : "cnt:ContentAsXML" }, "about" : "urn:uuid:4b1e5028-38d0-41a3-9b3a-c82ab666c6d6" } } } } ====== Rezultati ====== - [[http://www.ffzg.unizg.hr/klafil/croala/xpr/kat-ima.html|Popis Katančićevih oblika koje je servis za lematizaciju prepoznao]], s lemama (uključujući i višestruke, tj. mjesta dvojbene lematizacije) i poveznicama na pretrage u [[http://www.ffzg.unizg.hr/klafil/croala/kat.whizbang.form.html|Katančićevu tekstu]]. Takvih je oblika 6394 (oko 77%). //Zbog veličine datoteke, treba malo pričekati da se učita!// --- jednoznačno je lematizirano 4452 oblika (oko 55% ukupno poslanih na lematizaciju), a višeznačno 1884 (oko 23%) - [[http://www.ffzg.unizg.hr/klafil/croala/xpr/kat-nema.html|Popis Katančićevih oblika koje servis nije prepoznao]]; ima ih 1752 (22%), u ovoj je tablici prikazano 1755. Oblike koji nisu prepoznati predstavit ćemo kao popis sa sljedećim podacima: sam oblik, njegova osnova koju je moguće tražiti u Katančićevu tekstu, te postavljanje istog upita svim tekstovima u CroALa.((Niz slova za pretragu (oblik iz Katančićeva teksta) donesen je velikim slovima, jer PhiloLogic, sustav za pretraživanje kojim se koristi CroALa, koristi velika slova za "univerzalno" pretraživanje (U = v = u, I = j = i = y).)) Pregledno: | Jednoznačno lematizirano | 4452| | Višeznačno | 1884| | Ukupno lematizirano | **6336**| | Neprepoznato | 1752| | Ukupno oblika (različnica) poslanih na lematizaciju | **8088**| Primjer tablice s nelematiziranim oblikom: ^ Redni broj ^ Oblik ^ Broj pojavnica ^ Kod Katančića ^ U CroALa ^ | 1310. | QUOCIRCA | 3 | [[http://www.ffzg.unizg.hr/klafil/croala/cgi-bin/search3t?dbname=kat&OUTPUT=kwic&word=QUOCIRCA|Katančić]] | [[http://www.ffzg.unizg.hr/klafil/croala/cgi-bin/search3t?dbname=croala&OUTPUT=TF&word=QUOCIRCA|CroALa]] |