Automatyczna rekonstrukcja lingwistyczna
Dawne języki są skarbnicą informacji o ludzkiej kulturze i historii. Jednak ich odtwarzanie wymaga niejednokrotnie dziesięcioleci żmudnej wytężonej pracy. Naukowcy z Uniwersytetu Kalifornijskiego w Berkeley stworzyli oprogramowanie komputerowe, które znakomicie przyspiesza prace nad rekonstrukcją przodków obecnych języków.
Najbardziej ekscytujące w tym systemie jest wykorzystanie wielu pomysłów lingwistów na rekonstrukcję historyczną i zautomatyzowanie ich tak, że rozwiązujemy problemy w większej skali. Więcej danych, więcej wyrazów, więcej języków, ale w krótszym czasie - mówi profesor informatyki Dan Klein.
Oprogramowanie korzysta z wnioskowania probabilistycznego. Było ono w stanie zrekonstruować drzewo genealogiczne ponad 600 języków austronezyjskich na podstawie bazy danych 140 000 wyrazów. Dokładność rekonstrukcji wyniosła 85% w porówananiu z rekonstrukcję wykonaną przez lingwistów. Proces ręcznej rekonstrukcji może trwać latami. Automatyczny system wykonuje go w ciągu dni lub nawet godzin.
Co więcej, jak zapewnia profesor psychologii Tom Griffiths z Computational Cognitive Science Lab, nasz model statystyczny może zostać wykorzystany nie tylko do wykonania odniesień do przeszłości, ale również przewidywania zmian w przyszłości.
Historia pisma liczy sobie zaledwie 6000 lat. Powstało ono zatem długo po pojawieniu się protojęzyków. Lingwiści, chcąc się dowiedzieć jak wyglądały, muszą dokonywać żmudnych porównań języków, poszukiwania związków pomiędzy nimi i na tej podstawie mogą stwierdzić, czy mają one wspólnych przodków oraz określić, jak ci przodkowie wyglądali. Zrozumienie, w jaki sposób zmienia się język, które dźwięki z większym prawdopodobieństwem ulegną zmianie i jak będą brzmiały, wymaga zrekonstruowania i analizowania olbrzymich ilości dawnych form. To właśnie tam przydaje się automatyczna rekonstrukcja - wyjaśnia profesor statystyki Alexandre Bouchard-Cote.
Wspomniane oprogramownie korzysta z metody Monte Carlo opartej na łańcuchach Markowa. Bada ono wyrazy pokrewne, czyli takie, które występują w różnych językach, ale mają podobne brzmienie, historię i pochodzenie. Na tej podstawie oblicza prawdopodobieństwo ich pochodzenia od konkretnego protojęzyka. Na każdym etapie próbuje przewidzieć zmiany jakie zaszły w danym wyrazie, co ułatwia rekonstrukcję. Po określeniu wcześniejszej formy zapamiętuje ją i ponownie sprawdza, poprawiając w razie potrzeby.
Komentarze (1)
MrVocabulary (WhizzKid), 13 lutego 2013, 21:16
Z jednej strony mam nadzieję, że mój sceptycyzm do tej metody okaże się nieuzasadniony. W końcu lingwistyka jest dość ścisłą nauką i fajnie, że nie wszyscy współcześni językoznawcy zajmują się literaturoznawstwem. Z drugiej jednak strony...
Widzę masę problemów.
Po pierwsze: opis leksykograficzny najlepiej opisanych języków (w tym polskiego, francuskiego czy niemieckiego, a nawet - choć w mniejszym stopniu - angielskiego) pozostawia wiele do życzenia. Zastanawia mnie więc jakość zebranego materiału dla tych 600 kiepsko opisanych języków. Nawet jeśli mają przetłumaczone te słowa, to przecież w etymologii bardzo ważne jest ich znaczenie i fleksja. Np. w polskim klej i glina to dwie regionalne wersje tego samego wyrazu.
Po drugie: To, że wyrazy są podobne, jeszcze o niczym nie świadczy. Podobieństwo jest względne. Dla etymologa podobieństwo to różnica jednej lub dwóch głosek, pod warunkiem, że ta różnica jest różnicą występującą w wielu przypadkach, np. jeśli mamy zestaw:
To możemy powiedzieć, że podobieństwo między angielskim a polskim jest prawdopodobnie nieprzypadkowe, ponieważ a) mamy zrekonstruowane poszczególne stadia rozwoju danego wyrazu (który przyjął różne formy w poszczególnych językach), B) różnica t : d między angielskim a całą resztą jest regularna, tzn. zachodzi w pewnej grupie przypadków. Co więcej, dochodzi kwestia homonimii: przecież bal kostiumowy i bal drewniany to nie to samo, a śledź w śmietanie to nie jest follow in cream.
Po trzecie: badanie etymologii można robić albo dobrze, albo szybko. Dlaczego? Bo logiczna teoria nie zawsze równa się prawdzie. Do niedawno sądzono, że angielskie shark /ʃɑ:k/ pochodzi z języka Majów, którzy posiadali słowo na "potwora z wody", wymawiane w przybliżeniu /χok/ lub /ʃok/, i najstarsze znane użycie tego słowa miało miejsce w Anglii kilka lat po odkryciu Ameryki. Niedługo potem ktoś się przekopał przez kilkadziesiąt tysięcy listów, i w jednym z nich słowo shark pojawiło się prawie 40 lat przed wyprawą Kolumba, co dość mocno podważa jego pochodzenie od Majów.
Po czwarte: kwestia sprzężona z poprzednimi punktami. Jeśli wziąć 200 wyrazów z dwóch kompletnie dowolnych języków świata, ok. 5-10% z nich jest podobnych w brzmieniu dla laika. Jakieś 150 lat temu jeden z języków austronezyjskich miał wyraz /dva/ na liczbę dwa. Podobne, prawda? Ale a) rekonstrukcja wykazała, że wyewoluował ze słowa kompletnie niepodobnego do niczego w językach indoeuropejskich, B) obecna forma tego słowa również nie jest zbyt podobna (niestety nie pamiętam jak wyglądało/wygląda, więc nie będę zmyślał). Co prawda zabytków piśmiennych pewnie tam jest niewiele do badania, ale to tym bardziej bym uważał w masowym obliczaniem.
Podsumowanie: fakt, że badanie etymologii poszczególnych wyrazów jest trudniejsze niż statystyczna ocena pokrewieństwa języków, ale nadal sądzę, że ten algorytm jest podatny na bzdury (jednocześnie mają duży potencjał). Większość zaproponowanych do tej pory rodzin językowych albo nie jest powszechnie uznanych, albo są kompletnie przez świat naukowy odrzucone. Jestem bardzo ciekawy, co im wyjdzie - mam nadzieję, że mnie mile zaskoczą
PS. Przewidywanie, jak się język zmieni, jest bardzo ryzykowne w momencie, gdy świat jest tak samoświadomy swojego posługiwania się językiem. Świadoma standaryzacja i badanie języków bardzo silnie na nie wpływa, tak samo jak kontakty językowe na nieznaną dotąd skalę (głównie przez Internet - np. angielska leksyka gier wideo jest asymilowana prawie w całości; przykładowo to frag 'zabić przeciwnika w grze FPS' przyjęło się w wielu językach: pol. s|fragować, fr. fragger, niem. fraggen itd.).