====== Konkordancija latinskog teksta, s posebnim osvrtom na Katančićevu raspravu "De columna milliaria..." ======
Slične stranice: [[s:digitalni-novolatinski-1|Digitalno manipuliranje tekstovima]], [[z:diariumlatinitatis|Diarium Latinitatis]], [[:0807digimed-cetvrta|Digtalni medievist 2008]]
**Cilj**: želimo napraviti konkordanciju latinskog teksta, tj. abecedno poredan popis riječi i oblika s podacima o njihovim pojavnicama (učestalost, kontekst, kolokacije itd.)
**Treba nam**: računalno obradiv tekst, program za konkordanciju.
===== Računalno obradiv tekst =====
Bilo koji računalno napisan dokument spremimo ("Save As/ Spremi kao") u formatu ''.txt'' ili ''.xml''.
===== Program za konkordanciju =====
Kao i više puta dosad, predlažem da na svoje računalo instalirate [[http://www.antlab.sci.waseda.ac.jp/antconc_index.html|AntConc]] i proučite [[http://www.antlab.sci.waseda.ac.jp/software/README_AntConc3.2.4.pdf|priručnik]] (u PDF formatu).
====== Procedura ======
- Izraditi popis riječi
- Poslati riječi servisu za lematizaciju
- Proučiti dobiveni popis: a) prepoznate / jednoznačno lematizirane riječi, b) višeznačno lematizirane riječi, c) neprepoznate riječi (te d. pogrešno prepoznate riječi)
===== Popis riječi u Katančićevu spisu Columna miliaria =====
Djelo koje proučavamo (digitalni faksimil [[http://books.google.hr/books?id=teBEAAAAYAAJ|slobodno dostupan na Google Books]]) ima, u računalnom prijepisu, ukupno 28.664 riječi (pojavnica). Od njih je 8375 različnica (različitih oblika).
- [[http://www.ffzg.unizg.hr/klafil/croala/xpr/katancic-wl-abc.txt|po abecedi]]
- [[http://www.ffzg.unizg.hr/klafil/croala/xpr/katancic-wl-freq.txt|po učestalosti]]
Oduzmemo li brojke i riječi pisane slovima alfabeta, ostaje 8088 riječi. Njih ćemo pomoću računala slati servisu za lematizaciju.
Digitalno izdanje djela, pretraživo pomoću sustava PhiloLogic, dostupno je preko ove poveznice: [[http://www.ffzg.unizg.hr/klafil/croala/kat.whizbang.form.html]].
===== Servis za lematizaciju =====
Na internetu postoji više takvih servisa, a jedan je dostupan zahvaljujući [[http://www.projectbamboo.org/|projektu Bamboo]] i [[http://www.perseus.tufts.edu/hopper/|digitalnoj knjižnici Perseus]] (Sveučilište Tufts, Massachusetts, SAD).
Ondje pretraga za //aedificare// izgleda ovako: [[http://services-qa.projectbamboo.org/bsp/morphologyservice/analysis/word?word=aedificare&lang=lat&engine=morpheus]]. Rezultat je u RDF formatu.
Ovakvom servisu možemo čitav popis riječi (pa i onaj od oko 8.000 riječi iz Katančića) poslati automatski, pomoću računalnog programa. Evo jednoga:
#!/usr/bin/perl -w
# morphb.pl - sends a list of words to Perseus morphology service
# usage: perl morphb.pl filename
use strict;
use warnings;
require LWP::UserAgent;
my $addr2 = "http://services-qa.projectbamboo.org/bsp/morphologyservice/analysis/word?lang=lat&engine=morpheus&word=";
my ($verbum);
# my @verba = ('kakao', 'mare', 'rubrum', 'urbs', 'littera');
while ($verbum = <>) {
chomp $verbum;
&uag();
}
sub uag {
my $ua = LWP::UserAgent->new;
$ua->timeout(30);
$ua->env_proxy;
my $response =
$ua->get($addr2 . $verbum);
if ($response->is_success) {
print $response->content( ); # or whatever
print "\n";
}
else {
die $response->status_line;
}
}
Evo primjera identificirane riječi (RDF u JSON notaciji):
{
"RDF" : {
"Annotation" : {
"created" : "30\nNov\n2012\n22:36:03\nGMT",
"creator" : {
"Agent" : {
"about" : "org.perseus:tools:morpheus.v1"
}
},
"hasBody" : {
"resource" : "urn:uuid:4b1e5028-38d0-41a3-9b3a-c82ab666c6d6"
},
"hasTarget" : {
"Description" : {
"about" : "urn:word:mirae"
}
},
"title" : null,
"about" : "urn:TuftsMorphologyService:mirae:morpheus",
"Body" : {
"rest" : {
"entry" : {
"infl" : [
{
"num" : "plural",
"decl" : "1st\n&\n2nd",
"pofs" : {
"$" : "adjective",
"order" : 2
},
"case" : {
"$" : "nominative",
"order" : 7
},
"stemtype" : "us_a_um",
"gend" : "feminine",
"term" : {
"stem" : "mi_r",
"lang" : "lat",
"suff" : "ae"
}
},
{
"num" : "plural",
"decl" : "1st\n&\n2nd",
"pofs" : {
"$" : "adjective",
"order" : 2
},
"case" : {
"$" : "vocative",
"order" : 1
},
"stemtype" : "us_a_um",
"gend" : "feminine",
"term" : {
"stem" : "mi_r",
"lang" : "lat",
"suff" : "ae"
}
},
{
"num" : "singular",
"decl" : "1st\n&\n2nd",
"pofs" : {
"$" : "adjective",
"order" : 2
},
"case" : {
"$" : "dative",
"order" : 5
},
"stemtype" : "us_a_um",
"gend" : "feminine",
"term" : {
"stem" : "mi_r",
"lang" : "lat",
"suff" : "ae"
}
},
{
"num" : "singular",
"decl" : "1st\n&\n2nd",
"pofs" : {
"$" : "adjective",
"order" : 2
},
"case" : {
"$" : "genitive",
"order" : 6
},
"stemtype" : "us_a_um",
"gend" : "feminine",
"term" : {
"stem" : "mi_r",
"lang" : "lat",
"suff" : "ae"
}
}
],
"dict" : {
"decl" : "1st\n&\n2nd",
"hdwd" : {
"$" : "mirus",
"lang" : "lat"
},
"pofs" : {
"$" : "adjective",
"order" : 2
}
},
"uri" : null
}
},
"type" : {
"resource" : "cnt:ContentAsXML"
},
"about" : "urn:uuid:4b1e5028-38d0-41a3-9b3a-c82ab666c6d6"
}
}
}
}
====== Rezultati ======
- [[http://www.ffzg.unizg.hr/klafil/croala/xpr/kat-ima.html|Popis Katančićevih oblika koje je servis za lematizaciju prepoznao]], s lemama (uključujući i višestruke, tj. mjesta dvojbene lematizacije) i poveznicama na pretrage u [[http://www.ffzg.unizg.hr/klafil/croala/kat.whizbang.form.html|Katančićevu tekstu]]. Takvih je oblika 6394 (oko 77%). //Zbog veličine datoteke, treba malo pričekati da se učita!// --- jednoznačno je lematizirano 4452 oblika (oko 55% ukupno poslanih na lematizaciju), a višeznačno 1884 (oko 23%)
- [[http://www.ffzg.unizg.hr/klafil/croala/xpr/kat-nema.html|Popis Katančićevih oblika koje servis nije prepoznao]]; ima ih 1752 (22%), u ovoj je tablici prikazano 1755. Oblike koji nisu prepoznati predstavit ćemo kao popis sa sljedećim podacima: sam oblik, njegova osnova koju je moguće tražiti u Katančićevu tekstu, te postavljanje istog upita svim tekstovima u CroALa.((Niz slova za pretragu (oblik iz Katančićeva teksta) donesen je velikim slovima, jer PhiloLogic, sustav za pretraživanje kojim se koristi CroALa, koristi velika slova za "univerzalno" pretraživanje (U = v = u, I = j = i = y).))
Pregledno:
| Jednoznačno lematizirano | 4452|
| Višeznačno | 1884|
| Ukupno lematizirano | **6336**|
| Neprepoznato | 1752|
| Ukupno oblika (različnica) poslanih na lematizaciju | **8088**|
Primjer tablice s nelematiziranim oblikom:
^ Redni broj ^ Oblik ^ Broj pojavnica ^ Kod Katančića ^ U CroALa ^
| 1310. | QUOCIRCA | 3 | [[http://www.ffzg.unizg.hr/klafil/croala/cgi-bin/search3t?dbname=kat&OUTPUT=kwic&word=QUOCIRCA|Katančić]] | [[http://www.ffzg.unizg.hr/klafil/croala/cgi-bin/search3t?dbname=croala&OUTPUT=TF&word=QUOCIRCA|CroALa]] |