Maćkowce - o korpusie

O korpusie

Informacje ogólne

Korpus Tekstów Gwarowych z Maćkowiec na Podolu powstał na podstawie nagrań wykonanych podczas badań terenowych w latach 2002‑2003 i 2010. Nagrania zostały następnie ręcznie przepisane do plików MS Word. W tekstach zamieszczono dodatkowe informacje, umożliwiające późniejsze znakowanie korpusu (zob. Znakowanie). Tak przygotowane pliki zostały skonwertowane do postaci XML, a następnie uzupełnione o warstwę zapisu standaryzowanego i zlematyzowane (szczegóły opisuję w zakładce Lematyzacja oraz w artykule Krawczyk-Wieczorek 2012). W następnym kroku pliki zostały przekształcone w korpus tekstów, nadający się do przeszukiwania za pomocą wyszukiwarki Poliqarp w wersji stacjonarnej. Kilka lat później pliki korpusu zostały skonwertowane do postaci pozwalającej na udostępnienie korpusu online i przeszukiwanie go za pomocą wyszukiwarki MTAS. Przeprowadzono także automatyczną anotację morfosyntaktyczną za pomocą tagera Concraft 2, wytrenowanego na tekstach pisanych polszczyzną ogólną.

Materiał

Korpus tekstów gwarowych z polskiej wsi Maćkowce na Ukrainie zawiera 277 tys. segmentów w rozumieniu NKJP (o zasadach segmentacji zob. w Instrukcji). Korpus powstał na podstawie ok. 27 godzin nagrań rozmów z dwudziestoma informatorami. Nagrania przeprowadziły współpracownice Pracowni Polszczyzny Kresowej IJP PAN, której kierownikiem był wówczas Janusz Rieger. Tam też przechowywane są kasety oraz pliki z nagraniami.

Podczas badań prowadzono swobodne rozmowy z informatorami, w których przede wszystkim pytano o ich życiorys oraz historię wsi, a także odpytywano Kwestionariusz do badań gwar kresowych J. Riegera¹, pozwalający na zebranie słownictwa z różnych zakresów tematycznych oraz informacji gramatycznych. Badaniami zostały objęte jedynie osoby z najstarszego pokolenia, gdyż priorytetem było zebranie możliwie najstarszego materiału językowego oraz informacji od naocznych świadków tragicznych wydarzeń z lat trzydziestych XX wieku i z czasów drugiej wojny światowej. Na rozmowy z przedstawicielami młodszych pokoleń niestety nie było wtedy czasu.

Trzy eksploratorki rozmawiały z mieszkańcami Maćkowiec w języku ogólnopolskim, natomiast jedna, pochodząca z pobliskich Hreczan, mówiła miejscową gwarą (przeprowadziła ona wywiady z informatorami AL23, HB27, H40, KP23, KP27, S50, SP23, WB29, a także – po raz drugi – z informatorką BB26).

Ze względu na niezbyt wielką objętość zebranego materiału, a zarazem na jego unikalność, postanowiłam w całości zamieścić go w korpusie, pomimo że teksty wchodzące w skład korpusu mają bardzo różną długość. Nie próbowałyśmy też dobierać informatorów pod względem parametrów socjolingwistycznych, istotne było jedynie to, by urodzili się i znaczną część życia spędzili w Maćkowcach.

Warstwy zapisu

Nagrania zostały przepisane w uproszczonym zapisie fonetycznym, z zachowaniem wszelkich istotnych cech językowych, również fonetycznych. Uproszczenie polegało na zastąpieniu znaków alfabetu fonetycznego literami polskiego alfabetu i ich kombinacjami (np. š przez sz), co miało zarówno służyć wygodzie przepisującego, jak i uprościć przetwarzanie tekstów w korpus elektroniczny.

Prócz tej warstwy zapisu w korpusie dostępna jest również warstwa standaryzowana. Zastosowana standaryzacja jest dość daleko posunięta, gdyż obejmuje cechy ortograficzne (np. domb → dąb), fonetyczne (chudz’ili → chodzili) oraz końcówki gramatyczne (np. chcema → chcemy). Dzięki temu znacznie ułatwione było zastosowanie do lematyzacji korpusu narzędzi stworzonych do analizy tekstów ogólnopolskich. Nie ingerowano natomiast w warstwę leksykalną. Więcej na temat zapisu znajduje się w Instrukcji.

Znakowanie

Korpus przeznaczony był do badań nad leksyką i temu celowi podporządkowane było jego znakowanie. Prócz lematyzacji i anotacji morfosyntaktycznej korpus jest oznakowany pod względem następujących informacji:

osoba mówiąca
kwalifikator etymologiczny (wyraz ogólnopolski, gwarowy, ukrainizm, rusycyzm itp.)
znaczenie (odpowiednik ogólnopolski)
temat rozmowy
czy segment jest nazwą własną lub elementem nazwy własnej
czy segment jest cytatem z innego języka
czy jest to recytacja (pieśni, wiersze itp.)
czy segment jest komentarzem osoby przepisującej
czy segment jest odpowiedzią na pytania kwestionariusza gramatycznego.

Szczegółowy wykaz atrybutów i ich wartości znajduje się w Instrukcji.

Informacje te umożliwiają m.in. oddzielenie słownictwa należącego do systemu gwary od rozmaitych wtrętów obcych. Pozwalają także na badanie liczebności segmentów o określonej etymologii (np. wyrazów ogólnopolskich czy zapożyczeń) oraz na występowanie danych leksemów u poszczególnych informatorów. Przypisanie znaczeń pozwala na wyszukanie par i grup synonimów (np. poprzez znaczenie ‘córka’ wyszukujemy zarówno wyraz rodzimy córka, jak i zapożyczenie doczka). Zasady przypisywania znaczeń zostały dokładniej opisane w Instrukcji.

Zasady lematyzacji

Oddzielenie różnych leksemów od wariantów tego samego leksemu jest zawsze kwestią arbitralną. Za ten sam leksem uznaję warianty fonetyczne oraz morfologiczne. Warianty fonetyczne mogą różnić się cechami wymowy, jak zmiany barwy samogłosek, nieregularna realizacja rezonansu nosowego, uproszczenia grup spółgłoskowych, inna niż ogólnopolska realizacja dawnych samogłosek pochylonych, relikty mazurzenia i inne. Warianty morfologiczne mogą się różnić typem odmiany, rodzajem, liczbą lub postacią niektórych form osobowych czasownika. Prócz tego należą tu formy z obocznością w temacie oraz bez niej, powstałe w wyniku wyrównań morfologicznych.

Przypisywanie znaczeń

Wyrazy ogólnopolskie otrzymały zwykle znaczenie identyczne z lematem. Tylko wyjątkowo niektóre wyrazy zaklasyfikowane jako ogólnopolskie otrzymywały inne znaczenie. Po pierwsze są to te leksemy, które w polszczyźnie ogólnej są stylistycznie nacechowane, a w gwarze neutralne, np. gadać ‘mówić’. Prócz tego dotyczy to nietypowych dla polszczyzny ogólnej zdrobnień i innych formacji słowotwórczych, np. bluzczyna ‘bluzka_nac’. Trzecia tego rodzaju sytuacja to zleksykalizowane warianty fonetyczne i morfologiczne wyrazów ogólnopolskich, np. abit ‘habit’. Przypisane segmentom znaczenia miały posłużyć wyszukaniu synonimów, dlatego też przeważnie są jednowyrazowe. Nie dało się tu uniknąć pewnych uproszczeń, jak choćby tego, że odpowiedniki te są niekiedy wyrazami wieloznacznymi, w tym kontekście użytymi tylko w jednym ze swych znaczeń (np. pohruzić ‘załadować’ – chodzi o znaczenie ‘umieścić coś w jakimś środku transportu’). Rozbudowane definicje nie nadawałyby się do przeszukiwania korpusu. Znaczenia są wielowyrazowe przede wszystkim wtedy, gdy niemożliwe było znalezienie jednowyrazowego ogólnopolskiego odpowiednika (np. połudnać ‘jeść_drugie_śniadanie’, ustać ‘zmęczyć_się’ – zawsze stosowany jest zapis z podkreślnikiem). Znaczenia są wielowyrazowe również dla pewnych grup wyrazów, np. zdrobnień czy wyrazów nacechowanych stylistycznie (np. paseczka ‘święconka_zdr’, rubaszczyna ‘koszula_nac’).

Aleksandra Wieczorek

1 Komputeropis.