Informacja o "ciasteczkach" i przetwarzaniu danych osobowych

Ta strona przetwarza Twoje dane osobowe takie jak adres IP i używa ciasteczek do przechowywania danych na Twoim urządzeniu.

Z jednej strony ciasteczka używane są w celu zapewnienia poprawnego funkcjonowania serwisu. Jeśli nie wyrażasz na nie zgody, opuść tę stronę, gdyż bez nich nie jest ona w stanie poprawnie działać.

Drugim celem jest gromadzenia statystyk odwiedzin oraz analiza zachowania użytkowników w serwisie. Masz wybór, czy zezwolić na wykorzystywanie Twoich danych osobowych w tym celu, czy nie. W celu dokonania wyboru kliknij w odpowiedni przycisk poniżej.

Wyrażam zgodę na "ciasteczka":

 

Historia powstania korpusu


W poszukiwaniu zaginionych gwar

W latach 2002‑2004, jeszcze jako studentka pierwszych lat, byłam trzykrotnie wraz z Genowefą Tymbrowską i Martą Gugałą na badaniach terenowych gwar polskich na Żytomierszczyźnie i Podolu. Badania te były zainicjowane przez prof. Janusza Riegera, wówczas kierownika Pracowni Polszczyzny Kresowej IJP PAN, który w późniejszych latach był promotorem mojej pracy magisterskiej oraz doktorskiej.

Nasze badania na Ukrainie były mocno uzależnione od różnych czynników praktycznych i siłą rzeczy wybiórcze. W ciągu dwóch lub trzech tygodni należało zebrać jak największy materiał na dość dużym obszarze, pamiętając o tym, że w wielu miejscowościach odchodzi już ostatnie pokolenie pamiętające język polski. Często byłyśmy pierwszymi osobami rejestrującymi tamtejszą polszczyznę. Zatem – podobnie zresztą jak badacze innych gwar – przeprowadzałyśmy wywiady głównie z przedstawicielami najstarszego pokolenia, aby uchwycić możliwie oryginalną postać miejscowej mowy. Na rozmowy z innym osobami zwykle brakowało czasu, nie mówiąc o szerzej zakrojonych, przekrojowych badaniach danej społeczności.

Wyjeżdżając z Polski, nie miałyśmy dokładnego planu działań, jedynie kilka nazw miejscowości lub tylko okolicy, gdzie mogli mieszkać Polacy. Dlatego też prace należało rozpocząć od odszukania miejscowości i domów, w których można jeszcze spotkać osoby mówiące po polsku. Te informacje uzyskiwałyśmy od osób znających lokalną społeczność – najczęściej polskich księży katolickich. Następnie musiałyśmy zorganizować sobie dojazd do wskazanej miejscowości i nocleg na miejscu. Wszystko to nie mogłoby się udać bez rozeznania na tych terenach Genowefy Tymbrowskiej, polonistki i badaczki polszczyzny na Ukrainie, mającej korzenie południowokresowe, która kierowała naszym niewielkim zespołem. Nieocenione wsparcie otrzymałyśmy również od wspomnianych już księży oraz miejscowych Polaków, którzy bez wahania oferowali nam nocleg, podwiezienie lub inną pomoc w miarę swoich często skromnych możliwości.

Liczne z wiosek, do których docierałyśmy, były prawie całkiem opuszczone. Dlatego Maćkowce i sąsiednia Szaróweczka były dla nas ogromnym zaskoczeniem: chyba nigdzie indziej nie spotkałyśmy tak dużego skupiska osób znających język polski i w dodatku posługujących się nim w kontaktach rodzinnych. Było to jedyne miejsce, do którego wróciłyśmy w kolejnym roku. Kilka lat później kolejne nagrania przeprowadziła tam na moją prośbę Ludmiła Januszewska, pracownica Pracowni Polszczyzny Kresowej IJP PAN, pochodząca z pobliskich Maćkowcom Hreczan.

Komputer w rękach dialektologa

Kiedy w 2004 roku uczestniczyłam w sesji „Korpus tekstów w badaniach leksykograficznych”, zorganizowanej z inspiracji prof. Janusza Riegera przez OBTA UW (obecnie Wydział „Artes Liberales” UW) w ramach programu MSH, zaczęłam się zastanawiać nad możliwością zastosowania nowo poznanych narzędzi do badania polskich gwar kresowych. Problemem nie do przebycia wydawał się zapis fonetyczny, różnice w stosunku do polszczyzny ogólnej oraz duża wariantywność występująca w tych gwarach na wszystkich poziomach językowych. Wydawało się, że bez daleko posuniętej standaryzacji tych tekstów nie da się zastosować do nich istniejących narzędzi do anotacji i lematyzacji tekstów polskich. Jednak taka standaryzacja oznaczałaby bezpowrotną stratę cennych danych językowych. Rozwiązaniem wydało mi się zastosowanie dwóch warstw zapisu: oryginalnej oraz standaryzowanej. Parę lat później udało mi się wraz z Mężem zrealizować ten pomysł na potrzeby badania słownictwa gwary Maćkowiec.

W wyniku naszych żmudnych i prowadzonych chwilami po omacku prac w 2010 roku powstał lematyzowany korpus, pozwalający, jak sądzę, całkiem trafnie uchwycić zjawiska, które do tej pory nie były na takim materiale badane metodami ilościowymi. W doktoracie udało mi się pokazać – choć tylko na wycinku rzeczywistości językowej – jak leksyka zapożyczona współwystępuje z rodzimą oraz zweryfikować wrażenie o bardzo licznej obecności zapożyczeń w gwarach kresowych: choć rzucające się w oczy, zapożyczenia okazały się w tekstach znacznie rzadsze niż można by się spodziewać.

Przez kilka lat korpus tekstów z Maćkowiec funkcjonował jedynie w wersji stacjonarnej, a moje – trzeba przyznać, niezbyt usilne – starania o jego publikację w Internecie rozbijały się o problemy techniczne i finansowe. W roku 2018 w Instytucie Podstaw Informatyki PAN na potrzeby polskich korpusów tekstów przystosowano wyszukiwarkę MTAS, pozwalającą – w odróżnieniu od zastosowanego w korpusie tekstów z Maćkowiec Poliqarpa – na zachowanie wielu warstw zapisu. Jest ona wykorzystywana m.in. na stronie Korpusomat1, stwarzającej pewien szablon do publikacji korpusów tekstów. To pozwoliło mi powrócić do myśli o zamieszczeniu korpusu w Intenecie. Wszystkie prace związane z konwersją korpusu do nowego formatu oraz liczne poprawki merytoryczne, których nie byłam w stanie sobie odmówić, przeprowadziła Dorota Komosińska, którą poznałam podczas prac nad Elektronicznym Korpusem Tekstów Polskich z XVII i XVIII Wieku.

Zarejestrowane podczas naszych badań terenowych teksty to nie tylko unikalny materiał językowy, to również historia naszych rozmówców, ich rodzin i sąsiadów. Cieszę się, że mogę udostępnić je w nowoczesnej postaci korpusu elektronicznego.

Aleksandra Wieczorek

1 Witold Kieraś, Łukasz Kobyliński, and Maciej Ogrodniczuk. Korpusomat — a tool for creating searchable morphosyntactically tagged corpora. Computational Methods in Science and Technology, 24(1):21–27, 2018.