RomCro – Računalni usporedni korpus tekstova na romanskim jezicima i hrvatskom

Citirati kao / Citar como / Cite as: Bikić-Carić, Mikelenić & Bezlaj (2023).

Osnovne informacije / Información básica / Basic information:

Projekt Računalni usporedni korpus tekstova na romanskim jezicima i hrvatskom (RomCro) pokrenut je 2019. godine na Katedri za romansku lingvistiku Odsjeka za romanistiku Filozofskog fakulteta Sveučilišta u Zagrebu. Korpus objedinjuje romanske jezike (francuski, portugalski, rumunjski, talijanski i španjolski), a dodatkom hrvatskoga pridonosi postojećim jezičnim resursima za hrvatski jezik. Sastoji se od (prvenstveno) književnih tekstova iz 20. i 21. stoljeća, i to tako da uz svaki izvornik postoje i njegovi prijevodi na sve ostale jezike. Inovacija ovog projekta je prvenstveno u tome što za sada ne postoji korpus s takvom kombinacijom jezika, pa prema tome niti mogućnost da istraživači rade s tako sveobuhvatnim izvorom podataka. Korpus je vrijedan izvor podataka za lingvistička istraživanja ovih jezika, posebno ona kontrastivna, a zaključci se tih istraživanja mogu između ostaloga primijeniti i u traduktologiji, odnosno prevoditeljskoj praksi te u nastavi jezika i obrazovanju budućih nastavnika. Cilj projekta je stvoriti što veći računalni korpus istih tekstova na pet romanskih jezika i hrvatskom. Korpus trenutno broji 15,9 milijuna riječi.

El proyecto Corpus paralelo de textos en lenguas romances y en croata (RomCro) empezó el año 2019 en la Cátedra de Lingüística Románica del Departamento de Estudios Románicos de la Facultad de Humanidades y Ciencias Sociales de la Universidad de Zagreb. El corpus une las cinco lenguas romances (francés, portugués, rumano, italiano y español) y, con la adición del croata, brinda una contribución a los recursos lingüísticos existentes del idioma croata. Se compone (principalmente) de textos literarios de los siglos XX y XXI, de manera que a cada texto en su idioma original se agregan las traducciones a los demás idiomas. La innovación de este proyecto radica primordialmente en el hecho de que hasta ahora no existía un corpus con dicha combinación de idiomas y, por lo tanto, tampoco la posibilidad de que los investigadores trabajen con una fuente de datos tan completa. El corpus es una valiosa fuente de datos para las investigaciones lingüísticas de estas lenguas, especialmente las investigaciones contrastivas, cuyas conclusiones pueden aplicarse en los estudios de traducción, es decir, en la práctica de la traducción y en la enseñanza de idiomas, así como en la formación de futuros docentes. El objetivo del proyecto es crear el mayor corpus posible de los mismos textos en las cinco lenguas romances y en croata. El corpus cuenta actualmente con 15.9 millones de palabras.

The project Parallel Corpus in Romance Languages and Croatian (RomCro) started in 2019 at the Chair of Romance Linguistics of the Department of Romance Languages and Literature of the Faculty of Humanities and Social Sciences, University of Zagreb. The corpus unites five Romance languages ​​(French, Portuguese, Romanian, Italian and Spanish) and, with the addition of Croatian, makes a contribution to the existing linguistic resources for the Croatian language. It consists of (primarily) literary texts from the 20th and 21st centuries and translations into other languages of the corpus are added to each text in its original language. The innovation of this project lies mainly in the fact that until now there was no corpus with this combination of languages available​​ and, therefore, the researchers didn’t have the possibility to work with such a complete data source. The corpus is a valuable source of data for linguistic research on these languages, especially contrastive research, whose conclusions can be applied in translation studies or in the practice of translation, as well as in language teaching and in the training of future teachers. The aim of the project is to create the largest possible corpus of the same texts in the five Romance languages ​​and in Croatian. The corpus currently has 15.9 million words.

Voditeljica projekta / Directora del proyecto / Project leader: dr. sc. Gorana Bikić-Carić

Suradnici / Colaboradores / Collaborators: dr. sc. Dražen Varga, dr. sc. Bojana Mikelenić (Katedra za španjolski jezik / Cátedra de Lengua Española / Chair of Spanish language), Metka Bezlaj (Sveučilište u Zadru / Universidad de Zadar / University of Zadar)

Pristup korpusu / Acceso al corpus / Corpus access:

https://www.sketchengine.eu/ (pristup s AAI@EduHr elektroničkim identitetom Filozofskog fakulteta, ostale korisnike molimo da nas kontaktiraju: bmikelen@ffzg.hr) / El acceso al corpus es otorgado automáticamente a los colegas de la Facultad de Humanidades y Ciencias Sociales de la Universidad de Zagreb. A otros usuarios de Sketch Engine les rogamos que nos contacten a bmikelen@ffzg.unizg.hr para otorgarles el acceso. / Access to the corpus is automatically granted to colleagues from the Faculty of Humanities and Social Sciences of the University of Zagreb. For other Sketch Engine users, please contact us at bmikelen@ffzg.unizg.hr to gain access.

Direkatn pristup / Acceso directo / Direct access: RomCro

Korpus u znanstvenim radovima / El corpus en los trabajos científicos / The corpus in scientific articles:

Bikić-Carić, G., Mikelenić, B. & Bezlaj, M. (2023). Construcción del RomCro, un corpus paralelo multilingüe. Procesamiento del Lenguaje Natural, 70. Sociedad Española para el Procesamiento del Lenguaje Natural, 99-110.

Bikić-Carić, G., & Bezlaj, M. (2022). Neke specifičnosti upotrebe određenog člana u romanskim jezicima (s posebnim naglaskom na francuski i španjolski) [u tisku]. Filozofski fakultet Univerziteta u Sarajevu.

Bikić-Carić, G. (2020). Quelques particularités dans l’expression de la détermination du nom. Comparaison entre cinq langues romanes. Studia Universitatis Babes-Bolyai-Philologia, 65 (4), 39-54.

Predstavljanje korpusa na međunarodnim konferencijama / El corpus en las conferencias internacionales / Presentation of the corpus at international conferences:

Mikelenić, B., & Oliver, A. „A Multilingual Literary Parallel Corpus and its Application in Machine Translation“, Corpora in Language learning, Translation and Research, Sveučilište u Zadru, 23. i 24. kolovoza 2023.

Mikelenić, B., & Bikić-Carić, G. „Contrastive Analysis of Articles in Romance Languages and Croatian on a Parallel Corpus“, 10th International Contrastive Linguistics Conference, Sveučilište u Mannheimu, 18.-21. srpnja 2023.

Mikelenić, B., & Bezlaj, M. „Desafíos en la construcción de un corpus paralelo multilingüe“, XIII International CORPUS Linguistics Conference – CILC2022, Sveučilište u Bergamu, 26.-28. svibnja, 2022.

Bikić-Carić, G., & Bezlaj, M. „Neke specifičnosti upotrebe određenog člana u romanskim jezicima (s posebnim naglaskom na francuski i španjolski)“, 70 godina izučavanja romanskih kultura, jezika i književnosti na Filozofskom fakultetu Univerziteta u Sarajevu, Filozofski fakultet Univerziteta u Sarajevu, 3.-4. prosinca 2021.

Bezlaj, M., & Bikić-Carić, G. “Le choix entre l’infinitif et une forme conjuguée après les verbes d’opinion dans cinq langues romanes”, Considérations philologiques en contexte français et francophone, Filološki fakultet Blaže Koneski Sveučilišta Sv. Ćiril i Metod u Skoplju, Skopie, 19.-20. studenoga 2021.

Mikelenić, B., & Bezlaj, M. “Construcción del RomCro: un corpus paralelo de lenguas romances y croata”, III Encuentro de Jóvenes Hispanistas, Eötvös Loránd Tudományegyetem, Budimpešta, 3.-5. ožujka 2021.

Bikić-Carić, G., & Bezlaj, M. “Construcción de un corpus multilingüe y su aplicación en el análisis contrastivo de los artículos”, XLIX Simposio de la Sociedad Española de Lingüística, Universitat Rovira i Virgili, Tarragona, 21.-24. siječnja 2020.

Ostala predstavljanja korpusa / Otras presentaciones del corpus / Other presentations of the corpus:

Zagrebački lingvistički krug, 16. siječnja 2024.

‘Language In The Human-Machine Era’ 2nd Training School, Universidade do Porto, 31. svibnja 2022.

19. međunarodna izložba inovacija ARCA 2021, Nacionalna i sveučilišna knjižnica u Zagrebu, 14. do 16. listopada 2021.

Okrugli stol “Empowering Learning Through Technology”, HEIC (Higher Education Institutions Conference), 12. studenoga 2021., https://www.heic.hr/panels2021