Informacja o "ciasteczkach" i przetwarzaniu danych osobowych

Ta strona przetwarza Twoje dane osobowe takie jak adres IP i używa ciasteczek do przechowywania danych na Twoim urządzeniu.

Z jednej strony ciasteczka używane są w celu zapewnienia poprawnego funkcjonowania serwisu. Jeśli nie wyrażasz na nie zgody, opuść tę stronę, gdyż bez nich nie jest ona w stanie poprawnie działać.

Drugim celem jest gromadzenia statystyk odwiedzin oraz analiza zachowania użytkowników w serwisie. Masz wybór, czy zezwolić na wykorzystywanie Twoich danych osobowych w tym celu, czy nie. W celu dokonania wyboru kliknij w odpowiedni przycisk poniżej.

Wyrażam zgodę na "ciasteczka":

 

Lematyzacja


Elektroniczny korpus tekstów z Maćkowiec powstał do moich badań nad słownictwem tej wsi, jednak był to również eksperyment, który pokazał, że możliwe jest automatyczne przetwarzanie tekstów w niestandardowym i rozchwianym zapisie. Na tle opublikowanych obecnie korpusów polskich jest on bardzo niewielki, a jednak był zbyt duży, aby jedna osoba mogła oznakować go ręcznie. Dlatego też zdecydowaliśmy się na automatyczną lematyzację (w pierwotnej wersji korpus nie był anotowany morfosyntaktycznie). Autorem opisanych dalej prac programistycznych jest Michał Wieczorek.

Do lematyzacji tekstów z Maćkowiec nie mogliśmy użyć istniejących tagerów, gdyż były one oparte na słownikach morfologicznych zawierających jedynie leksemy ogólnopolskie i trenowane na tekstach pisanych polszczyzną ogólną. Dlatego też zastosowaliśmy szereg własnych rozwiązań, poczynając od standaryzacji zapisu, tak by można było posłużyć się gotowym słownikiem morfologicznym polszczyzny. Do rozpoznania leksemów gwarowych i zapożyczonych stworzyliśmy osobny słownik morfologiczny.

Odgadywanie standardowych odpowiedników segmentów w zapisie fonetycznym

Do konwersji zapisu fonetycznego na standardowy powstał zestaw ponad 300 reguł, które przekształcały dany ciąg znaków w inny, np. ćecie. Reguły zostały podzielone na trzy pliki, wykonywane po kolei, tak, aby część reguł działała na rezultatach działania innych.

Wiele przekształceń ma więcej niż jeden możliwy rezultat, np. ż rz | ż, dlatego też często było dużo rezultatów zmian, np.:

szklonka → żkląka, żklanka, rzkląka, szkląka, żklonka, rzklanka, rzklonka, szklanka, szklonka

Należało spośród nich wybrać te właściwe. Do tego wykorzystany został analizator morfologiczny Morfeusz SIaT1. Spośród rezultatów zamiany wybierana była ta forma, która występowała na liście form gramatycznych wyrazów polskich Morfeusza (w powyższym przykładzie szklanka). Niekiedy jednak wśród rezultatów nie było ani jednej formy, która byłaby identyczna z jakąś istniejącą formą polską, np.:

gark’i → garki, garkie, garkij, garkiej

W takiej sytuacji staraliśmy się wytypować spośród rezultatów zmian formę jak najbardziej podobną do istniejących form polskich za pomocą obliczenia odległości edycyjnej Levenshteina. W metodzie tej porównuje się dwa zapisy. Każda z różnic pomiędzy nimi otrzymuje pewien koszt, a im suma tych kosztów jest wyższa, tym mniej podobne są dwa porównywane wyrazy. Np. ciągi znaków damydomy są bardziej podobne niż damydom. Ze względu na specyfikę przetwarzanych tekstów poszczególnym operacjom na znakach przypisano różne wartości, tak aby niektórym z nich dać pierwszeństwo. Np. w języku mówionym częste są uproszczenia grup spółgłoskowych, więc operacja dodania znaku oznaczającego spółgłoskę otrzymała niski koszt. Dzięki temu formy ogólnopolskie różniące się od wyników zamiany obecnością litery oznaczającej spółgłoskę (np. garnkigarki) były kwalifikowane jako „tańsze” i tym samym bardziej podobne od tych różniących się w inny sposób (np. arkigarki) i preferowane przy wyborze. W ten sposób spośród powyższych rezultatów konwersji segmentu gark’i wytypowany został rezultat garki, do którego można dopasować trzy formy polskie o niskim koszcie zmian: garnki, garbkigwarki. Sposób wyboru jednej z nich zostanie opisany dalej.

Zdarzało się również, że mamy kilka rezultatów działania reguł, które są zgodne z istniejącymi formami polskimi:

czṷarty → cswarte, cswarty, czwarte, czwarty, człarte, człarty, cswartej, czwartej, człartej, dzswarte, dzswarty, dzswartej

W takiej sytuacji wybierana była spośród nich ta, która była najbliższa graficznie formie wyjściowej (w tym przypadku jest to forma czwarty).

Lematyzacja

Kolejny krok to przypisanie wytypowanym dotychczas formom standardowym (szklanka, garnki, garbki, gwarki, czwarty) postaci hasłowej, do czego znów wykorzystano analizator Morfeusz SIaT. Z powodów opisanych w poprzednim punkcie lub też w wyniku homonimii występującej w polszczyźnie zdarzało się, że segment otrzymywał więcej niż jeden możliwy lemat (gark’igarnki – lemat garnek, garbki lemat garbek, gwarki lemat gwarek; majomają lemat maić lub mieć). Ostatnim krokiem był zatem wybór jednej interpretacji zapisu standaryzowanego oraz jednego lematu. Do tego celu posłużyliśmy się listą frekwencyjną polskich form wyrazowych (w powiązaniu z lematem), zbudowaną na podstawie korpusu Słownika frekwencyjnego polszczyzny współczesnej2.

Uzupełnienie listy form wyrazowych o wyrazy dyferencjalne

W omówionych dotychczas krokach możliwa była lematyzacja jedynie leksemów ogólnopolskich. Do lematyzacji wyrazów zapożyczonych, archaicznych i gwarowych posłużyła dodatkowa lista wszystkich form gramatycznych tych wyrazów wraz z lematami. Do jej zbudowania wykorzystaliśmy dwa pliki służące do budowy listy wszystkich form wyrazowych, przeznaczone dla programów do sprawdzania pisowni (dostępne na stronie www.sjp.pl). Pierwszy plik zawiera listę polskich leksemów w formie podstawowej wraz z symbolami oznaczającymi wzorzec odmiany (np. skrzypce/fW). Symbole te odsyłają do drugiego pliku, dzięki któremu można zbudować wszystkie formy gramatyczne leksemów z pliku pierwszego.

Z tekstów z Maćkowiec wypisane zostały możliwie wszystkie leksemy dyferencjalne (w postaci hasłowej, niekiedy zrekonstruowanej), a następnie lista ta została posegregowana a tergo. Przy każdym z leksemów wpisany został symbol odmiany, umożliwiający automatyczne utworzenie wszystkich jego hipotetycznych form gramatycznych (zgodnie z ogólnopolskimi wzorcami odmiany). Symbole przypisywałam, wzorując się na liście leksemów ze strony sjp.pl: przy każdym leksemie wpisywałam symbol znajdujący się przy wyrazie ogólnopolskim należącym do tego samego paradygmatu odmiany, zatem np. wyraz Maćkowce otrzymał symbol fW na wzór: skrzypce/fW. W ten sposób uzyskaliśmy wszystkie formy nazwy wsi: Maćkowiec (tak właśnie brzmi forma dopełniacza w gwarze), Maćkowcom, Maćkowcami, Maćkowcach, jak skrzypiec, skrzypcom, skrzypcami, skrzypcach.

Wyrazy dyferencjalne są tu traktowane jak zapożyczenia w pełni adaptowane pod względem gramatycznym do polszczyzny. Jest to konstrukt sztuczny, gdyż np. dla leksemu przedać zrekonstruowana forma czasu przyszłego pierwszej osoby liczby mnogiej brzmi przedamy, podczas gdy w gwarze mówi się przydoma. Jednak w procesie standaryzacji zapisu formy gwarowe są zamieniane na pseudoliteracke typu przedamy i dzięki temu prawidłowo lematyzowane.

Weryfikacja

Możliwe było jedynie pobieżne sprawdzenie rezultatów opisanych działań. W tym celu wybraliśmy próbkę tekstów, składającą się z dziesięciu losowo dobranych fragmentów o długości 50 ciągów znaków każdy, pochodzących od dziesięciu różnych informatorów. W próbce tej, składającej się z ok. 350 – 400 słów, program nie rozpoznał prawidłowo trzynastu słów, co stanowi ok. 3%.

Połączenie wariantów fonetycznych i gramatycznych w jeden leksem

Na koniec dla niektórych leksemów powstała osobna lista, łącząca ich warianty pod jedną postacią hasłową, np. szczypulaćsztypulać ‘utykać’ pod sztypulać, witrzankawitrianka ‘ospa wietrzna’ pod witrianka.

Kwalifikacja etymologiczna oraz przypisanie znaczeń

Każdy segment ma przypisane znaczenie oraz kwalifikator etymologiczny. Segmentom będącym formami wyrazów dyferencjalnych oznaczenia te zostały przyporządkowane na podstawie stworzonego do tego celu słownika. Wyrazy, których lematy nie występowały w tym słowniku, otrzymywały kwalifikator „ogólnopolskie” oraz znaczenie identyczne z lematem.

Aleksandra Wieczorek

1 Zob. Marcin Woliński, Morfeusz — a practical tool for the morphological analysis of Polish, (w:) Mieczysław A. Kłopotek, Sławomir T. Wierzchoń, Krzysztof Trojanowski (red.), Intelligent Information Processing and Web Mining, Advances in Soft Computing, Berlin: Springer-Verlag 2006, s. 503–512.

2 Słownik frekwencyjny polszczyzny współczesnej, opr. I. Kurcz, A. Lewicki, J. Sambor, K. Szafran, J. Woronczak, red. Z. Saloni, t. 1—2, Kraków 1990; nowsza wersja korpusu obecnie dostępna jest na stronie http://clip.ipipan.waw.pl/PL196x.