Konkordancija latinskog teksta, s posebnim osvrtom na Katančićevu raspravu "De columna milliaria..."

Slične stranice: Digitalno manipuliranje tekstovima, Diarium Latinitatis, Digtalni medievist 2008

Cilj: želimo napraviti konkordanciju latinskog teksta, tj. abecedno poredan popis riječi i oblika s podacima o njihovim pojavnicama (učestalost, kontekst, kolokacije itd.)

Treba nam: računalno obradiv tekst, program za konkordanciju.

Računalno obradiv tekst

Bilo koji računalno napisan dokument spremimo (“Save As/ Spremi kao”) u formatu .txt ili .xml.

Program za konkordanciju

Kao i više puta dosad, predlažem da na svoje računalo instalirate AntConc i proučite priručnik (u PDF formatu).

Procedura

  1. Izraditi popis riječi
  2. Poslati riječi servisu za lematizaciju
  3. Proučiti dobiveni popis: a) prepoznate / jednoznačno lematizirane riječi, b) višeznačno lematizirane riječi, c) neprepoznate riječi (te d. pogrešno prepoznate riječi)

Popis riječi u Katančićevu spisu Columna miliaria

Djelo koje proučavamo (digitalni faksimil slobodno dostupan na Google Books) ima, u računalnom prijepisu, ukupno 28.664 riječi (pojavnica). Od njih je 8375 različnica (različitih oblika).

Oduzmemo li brojke i riječi pisane slovima alfabeta, ostaje 8088 riječi. Njih ćemo pomoću računala slati servisu za lematizaciju.

Digitalno izdanje djela, pretraživo pomoću sustava PhiloLogic, dostupno je preko ove poveznice: http://www.ffzg.unizg.hr/klafil/croala/kat.whizbang.form.html.

Servis za lematizaciju

Na internetu postoji više takvih servisa, a jedan je dostupan zahvaljujući projektu Bamboo i digitalnoj knjižnici Perseus (Sveučilište Tufts, Massachusetts, SAD).

Ondje pretraga za aedificare izgleda ovako: http://services-qa.projectbamboo.org/bsp/morphologyservice/analysis/word?word=aedificare&lang=lat&engine=morpheus. Rezultat je u RDF formatu.

Ovakvom servisu možemo čitav popis riječi (pa i onaj od oko 8.000 riječi iz Katančića) poslati automatski, pomoću računalnog programa. Evo jednoga:

#!/usr/bin/perl -w
# morphb.pl - sends a list of words to Perseus morphology service
# usage: perl morphb.pl filename
use strict;
use warnings;
 
require LWP::UserAgent;
my $addr2 = "http://services-qa.projectbamboo.org/bsp/morphologyservice/analysis/word?lang=lat&engine=morpheus&word=";
my ($verbum);
# my @verba = ('kakao', 'mare', 'rubrum', 'urbs', 'littera');
 
while ($verbum = <>) {
 	chomp $verbum;
 &uag();
}
sub uag {
 my $ua = LWP::UserAgent->new;
 $ua->timeout(30);
 $ua->env_proxy;
 
 my $response = 
$ua->get($addr2 . $verbum);
 
 if ($response->is_success) {
     print $response->content( );  # or whatever
     print "\n";
 }
 else {
     die $response->status_line;
 }
}

Evo primjera identificirane riječi (RDF u JSON notaciji):

{
   "RDF" : {
      "Annotation" : {
         "created" : "30\nNov\n2012\n22:36:03\nGMT",
         "creator" : {
            "Agent" : {
               "about" : "org.perseus:tools:morpheus.v1"
            }
         },
         "hasBody" : {
            "resource" : "urn:uuid:4b1e5028-38d0-41a3-9b3a-c82ab666c6d6"
         },
         "hasTarget" : {
            "Description" : {
               "about" : "urn:word:mirae"
            }
         },
         "title" : null,
         "about" : "urn:TuftsMorphologyService:mirae:morpheus",
         "Body" : {
            "rest" : {
               "entry" : {
                  "infl" : [
                     {
                        "num" : "plural",
                        "decl" : "1st\n&\n2nd",
                        "pofs" : {
                           "$" : "adjective",
                           "order" : 2
                        },
                        "case" : {
                           "$" : "nominative",
                           "order" : 7
                        },
                        "stemtype" : "us_a_um",
                        "gend" : "feminine",
                        "term" : {
                           "stem" : "mi_r",
                           "lang" : "lat",
                           "suff" : "ae"
                        }
                     },
                     {
                        "num" : "plural",
                        "decl" : "1st\n&\n2nd",
                        "pofs" : {
                           "$" : "adjective",
                           "order" : 2
                        },
                        "case" : {
                           "$" : "vocative",
                           "order" : 1
                        },
                        "stemtype" : "us_a_um",
                        "gend" : "feminine",
                        "term" : {
                           "stem" : "mi_r",
                           "lang" : "lat",
                           "suff" : "ae"
                        }
                     },
                     {
                        "num" : "singular",
                        "decl" : "1st\n&\n2nd",
                        "pofs" : {
                           "$" : "adjective",
                           "order" : 2
                        },
                        "case" : {
                           "$" : "dative",
                           "order" : 5
                        },
                        "stemtype" : "us_a_um",
                        "gend" : "feminine",
                        "term" : {
                           "stem" : "mi_r",
                           "lang" : "lat",
                           "suff" : "ae"
                        }
                     },
                     {
                        "num" : "singular",
                        "decl" : "1st\n&\n2nd",
                        "pofs" : {
                           "$" : "adjective",
                           "order" : 2
                        },
                        "case" : {
                           "$" : "genitive",
                           "order" : 6
                        },
                        "stemtype" : "us_a_um",
                        "gend" : "feminine",
                        "term" : {
                           "stem" : "mi_r",
                           "lang" : "lat",
                           "suff" : "ae"
                        }
                     }
                  ],
                  "dict" : {
                     "decl" : "1st\n&\n2nd",
                     "hdwd" : {
                        "$" : "mirus",
                        "lang" : "lat"
                     },
                     "pofs" : {
                        "$" : "adjective",
                        "order" : 2
                     }
                  },
                  "uri" : null
               }
            },
            "type" : {
               "resource" : "cnt:ContentAsXML"
            },
            "about" : "urn:uuid:4b1e5028-38d0-41a3-9b3a-c82ab666c6d6"
         }
      }
   }
}

Rezultati

  1. Popis Katančićevih oblika koje je servis za lematizaciju prepoznao, s lemama (uključujući i višestruke, tj. mjesta dvojbene lematizacije) i poveznicama na pretrage u Katančićevu tekstu. Takvih je oblika 6394 (oko 77%). Zbog veličine datoteke, treba malo pričekati da se učita! — jednoznačno je lematizirano 4452 oblika (oko 55% ukupno poslanih na lematizaciju), a višeznačno 1884 (oko 23%)
  2. Popis Katančićevih oblika koje servis nije prepoznao; ima ih 1752 (22%), u ovoj je tablici prikazano 1755. Oblike koji nisu prepoznati predstavit ćemo kao popis sa sljedećim podacima: sam oblik, njegova osnova koju je moguće tražiti u Katančićevu tekstu, te postavljanje istog upita svim tekstovima u CroALa.1)

Pregledno:

Jednoznačno lematizirano 4452
Višeznačno 1884
Ukupno lematizirano 6336
Neprepoznato 1752
Ukupno oblika (različnica) poslanih na lematizaciju 8088

Primjer tablice s nelematiziranim oblikom:

Redni broj Oblik Broj pojavnica Kod Katančića U CroALa
1310. QUOCIRCA 3 Katančić CroALa
1) Niz slova za pretragu (oblik iz Katančićeva teksta) donesen je velikim slovima, jer PhiloLogic, sustav za pretraživanje kojim se koristi CroALa, koristi velika slova za “univerzalno” pretraživanje (U = v = u, I = j = i = y).
 
z/konkordancija.txt · Last modified: 26. 01. 2013. 20:21 by njovanov
 
Recent changes RSS feed Creative Commons License Donate Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki