Przedmiot, metodologia i zakres badań

Przedmiotem opisu jest Korea, Koreańczycy i Koreańskość XX wieku przez pryzmat tekstów polskich. W projekcie zatem chcemy się dowiedzieć jak najwięcej o Korei (polityka, gospodarka, przyroda, kultura, nauka itp.) w okresie ostatnich 100 lat. Opis ten sporządzimy w sposób bardzo specyficzny i można powiedzieć – niezwykły, to znaczy na postawie oryginalnych wycinków prasowych.

Planujemy odnaleźć i przedstawić wszystkie istotne zapisy, notatki, informacje z prasy 1901-2000. Tak szeroko zakrojona akcja pozwoli w pełni ukazać piękno i specyfikę narodu koreańskiego, jak również jego trudną historię (w wielu punktach bardzo podobną do historii Polski – ze względu na podobną wielkość geograficzną i społeczną narodu: około kilkadziesiąt milionów mieszkańców oraz ze względu na lokalizację geograficzną pomiędzy wielkimi mocarstwami: Chiny i Japonia oraz Niemcy i Rosja).

Dla szczególnie ważnych pod względem kulturowym lub historycznym haseł sporządzone będą:

a) unikalne wykresy frekwencyjne, które ilustrują popularność danego hasła, danego zjawiska itp. Np.:

Wykres 1. Częstości dla wyraz taekwondo

b) opisy-komentarze, których zadaniem jest opis historyczno-społecznego tła zjawisk politycznych, kulturalnych, społecznych itp.

Jak zostało wcześniej już powiedziane, odnajdziemy i przedstawimy wszystkie ważne w XX wieku wystąpienia słów: Korea, Koreańczycy itp. Ale to nie wszystko. Skolekcjonowane i przestawione będą również hasła, które w sposób opisowy dotyczą Korei:

a) z zakresu polityki ( Li Syng Man, Yun Bo-seon, Park Chung-hee, Choi Kyu-ha, Chun Doo-hwan, Roh Tae-woo, Kim Young-sam, Kim Dae-jung, Roh Moo-hyun, Lee Myung-bak, Park Geun-hye ),

b) ze świata sportu (taekwondo),

c) z kultury (samulnori),

d) nazwy geograficzne (Seul, Incheon, Naktong-gang, Seorak-san, Halla-san),

e) nazwy własne (Samsung, LG),

...

f) varia (kimchi, K-pop itd.).

SKALA

Przestawmy poniżej materiały tekstowe, którymi dysponujemy (które zgromadziliśmy dotychczas: czasopisma i książki). Będą one stanowić wyjściową bazę dla naszych badań. Wyjściowa baza danych operuje danymi:

Około 3 miliony dokumentów z lat 1750-2010. Dane dla przykładowych haseł:

a) Seul – 10 000 cytatów

b) seulski – 500 cytatów

c) Korea – 50 000 cytatów

d) koreański – 20 000 cytatów

e) Koreańczyk – 4500 cytatów

Dokładnie: obecnie (styczeń 2017 r.) Odkrywka obejmuje 3,31 milionów [dokładnie: 3310217] publikacji (czasopism, książek, dokumentów prawnych, tekstów elektronicznych itd.) składających się z 22,96 milionów stron. Zgromadzony zasób tekstowy to sumarycznie 93 miliardów znaków ( 14 miliardów wyrazów), obejmuje kilka stuleci historii języka polskiego. Lata 1810–2013 reprezentowane są na tyle obszernie, by można było formułować tezy o charakterze ilościowym; teksty z lat wcześniejszych (i z ostatnich) też są obecne, choć w mniejszej liczbie. Poniżej przedstawimy 3 wykresy z danymi, które posiadamy. Są to: a) wykres liczby tekstów w danym roku, b) wykres typu dokumentu, który posiadamy, c) wykres dokładności chronologicznej, z jaką gromadzimy teksty.

Wykres 2. Rozkład tekstów w latach

Wykres 3. Typ dokumentu

Wykres 4. Dokładność chronologizacyjna

Z tej bazy wybierzemy dla tego etapu pracy wszystkie ważne informacje o Korei (nie wykluczamy, że w wypadku powodzenia tej części projektu dla lat 1901-2000) przygotujemy podobne zestawienia dla XIX i XXI wieku, tj. okresu: 1801-1900 oraz 2001-2017.

Planuje się w projekcie stworzenie bazy o objętości kilkanaście tysięcy haseł-cytatów. Każde hasło zostanie zilustrowane oryginalnym cytatem dotyczącym Korei. Szczególnie ważne hasła zostaną omówione (sporządzone będą dla nich komentarze). Końcowy wynik będzie miał dwojaką postać:

a) seria 10 monografii z przedrukowanymi najważniejszymi ilustracjami-cytatami dotyczącymi Korei,

b) specjalnie zaprojektowany i stworzony portal internetowy, w którym umieścimy wszystkie wycinki (100% materiału) tak, aby każda zainteresowana osoba na całym świecie mogła samodzielnie i bezpłatnie korzystać z tego materiału. Oczywiście, portal taki zawierać będzie informacje o formie i finansowaniu projektu (KOREAN STUDIES GRANT).

METODOLOGIA

Punktem wyjścia naszych poszukiwań są biblioteki cyfrowe oraz materiały własne. Biblioteki cyfrowe oferują materiał już zdigitalizowany w postaci skanu, natomiast w ramach zespołu badawczego wykonującego opisywany projekt dokonaliśmy także samodzielnie, pilotażowo (próbkę około 2000 czasopism z różnych dziedzin tematycznych z okresu PRL), we własnym zakresie skanowania materiałów prasowych z XX wieku.

a) Opis polskich bibliotek cyfrowych:

Na początku XXI w. pojawiła się Wielkopolska Biblioteka Cyfrowa, która ustaliła standard tego typu usługi. Biblioteki cyfrowe służą do badań dla wielu naukowców, głównie w zakresie nauk humanistycznych. Co ciekawe, polski model bibliotek cyfrowych w sposób unikalny pozwala na korzystanie z ujętych tam materiałów bezpłatnie.

Fot. 1. Strona www Wielkopolskiej Biblioteki Cyfrowej

Biblioteki cyfrowe, które doczekały się już sporej liczby omówień w literaturze przedmiotu (por. np. Górny M., Wierzchoń P.,Polish digital libraries as a philologist's tod. Based on 666 adjectives from the Digital Library of Wielkopolska, Poznań 2010), przechowują różne typy zbiorów (druki, wycinki prasowe, materiały audiowizualne); najpopularniejszymi obiektami bibliotecznymi są rękopisy, starodruki i materiały prasowe, zwłaszcza z XX w., por.:

Fot. 2. Wybrane materiały dLibry

W rezultacie w ciągu ok. 10 lat zgromadzono w Polsce ponad milion zdigitalizowanych obiektów bibliotecznych, z czego znaczną część stanowią teksty przedwojenne, np.:

Fot. 3. Wybrane tytuły przedwojennych czasopism w zasobach dLibry

jak również z okresu 1945-1989, np.:

Fot. 4. Wybrane tytuły powojennych czasopism w zasobach dLibry

b) Opis koreańskich bibliotek cyfrowych:

Koreańskim odpowiednikiem polskiej Federacji Bibliotek Cyfrowych może być koreańska Cyfrowa Biblioteka Narodowa. Celem stworzenia tej biblioteki jest wzrost konkurencyjności Korei w procesie budowy społeczeństwa informacyjnego XXI w. Dostarcza ona wielu informacji dla ogółu społeczeństwa, a jej bardziej szczegółowymi celami są: dystrybucja zdigitalizowanych danych bez względu na obszar i czas dostępu, integracja systemu między głównymi krajowymi bibliotekami cyfrowymi, promocja działalności bibliotecznej, a szczególnie e-bibliotecznej, oraz zapobieganie redundancji (powtarzalności) inwestycji czynionych przez rozproszone biblioteki krajowe. Biblioteka cyfrowa funkcjonuje od 1996 r. i swoją rolę widzi w podziale zadań użytecznych dla pewnych grup społecznych (obywateli, skonfederowanych bibliotek, operatorów systemów bibliotecznych). I tak, dla obywateli udostępnia się narodową bazę zdigitalizowanych tekstów, przyczyniając się tym samym do budowy społeczeństwa opartego na wiedzy, końcowemu użytkownikowi oferuje się bezpieczny, czynny nieprzerwanie serwis, bibliotekom zapewnia się ulepszenie infrastruktury przez redukcję nieefektywnych komponentów poszczególnych bibliotek (know-how), co z kolei pozwala na redukcję kosztów. Natomiast operatorom systemów poszczególnych bibliotek oferuje się w federacji wdrożenie standardów modelu biblioteki interaktywnej (co także prowadzi do redukcji wymaganego budżetu). Baza danych obejmuje głównie:

a) szczególnie wartościowe publikacje zwarte,

b) oficjalne gazety opublikowane między 1894 a 1945 rokiem,

c) dane publikowane przez Ministerstwo Kultury i Turystyki,

d) gazety opublikowane przed 1945 rokiem,

e) dzieła koreańskiej klasyki,

f) kolekcję e-booków,

g) czasopisma naukowe (akademickie),

h) dysertacje doktorskie z dziedziny humanistyki,

i) itp.

Fot. 5. Strona www koreańskiej National Digital Library

Koreańska Cyfrowa Biblioteka Narodowa skupia także biblioteki pomocnicze, np.:

국립중앙도서관

Narodowa Biblioteka Korei

http://www.nl.go.kr/

국회도서관

Zbiorcza Biblioteka Narodowa

http://www.nanet.go.kr/

법원도서관

Biblioteka Sądowa Korei

https://library.scourt.go.kr/

KAIST

Library Biblioteka KAIST (głównie profil naukowy)

http://library.kaist.ac.kr/

NDSL

Narodowa Naukowa Biblioteka Cyfrowa

http://www.ndsl.kr/

RISS

Wyszukiwarka internetowa wykorzystująca zasoby biblioteczne

http://www.riss.kr/

농업전문도서관

Biblioteka Gospodarki Rolnej

http://lib.rda.go.kr/

국방전자도서관

Biblioteka Obrony Narodowej

https://nddl.mil.kr/

Jak widać, mamy tu zgromadzenie tekstów globalne, ogólne. My natomiast chcemy przygotować już gotowe materiały możliwe do natychmiastowego użycia.

Aby lepiej przybliżyć ideę naszego przedsięwzięcia, możemy odesłać do bardzo unikalnej przeglądarki archiwalnych gazet jakim jest Naver (newslibrary.naver.com):

Fot. 6. Strona www koreańskiej wyszukiwarki Naver

Przeglądarka ta pozwala wybrać datę i przeglądać archiwalne wydania gazet, np.:

Fot. 7. Strona www koreańskiej wyszukiwarki Naver – artykuł dotyczący Polski

Problemem jest to, że czytelnik musi a) wymyślić zapytanie, b) musi samodzielnie przebijać się przez masy tekstu i dokonywać żmudnej analizy, czy dany tekst odnosi się do poszukiwanego przez niego problemu czy nie (tę pracę wykona zespół w projekcie). Nie istnieje jednak nawet taki system gazet dla prasy polskiej , a zatem system taki stworzyliśmy na potrzeby proponowanego projektu: Korea, Koreańczycy i koreańskość w zdigitalizowanych materiałach polskich XX wieku. Propaganda – Wątki nieznane – Sensacje . Na tym polega unikalność naszego projektu.

W naszym projekcie chodzi zatem o totalne, całościowe, kompleksowe tematyczne wyszukanie oraz zgromadzenie w jednym miejscu wszystkich informacji o Korei XX wieku w tekstach polskich. Chcemy zatem wykonać taką pracę wyszukiwawczą i dokumentacyjną, a następnie interpretacyjną. W tym celu opracowaliśmy specyficzną metodologię pracy, a mianowicie: SYSTEM ODKRYWKA.

Przygotowanie korpusu tekstowego: SYSTEM ODKRYWKA.

Co dwa dni ludzkość wytwarza tyle informacji, ile zgromadziła cała cywilizacja do roku 2003. W tym codziennym, gigantycznym przyroście danych elektronicznych, m.in. tekstowych danych cyfrowych, ludzie zapominają o pierwszych eksabajtach informacji. Te eksabajty ukryte są obecnie w zdigitalizowanych tekstach historycznych. Wiedza o świecie przyrasta „w przód”, z każdym elektronicznie wytworzonym dokumentem, e-mailem itp., ale także codziennie przyrasta „w tył” – z każdym zeskanowanym historycznym dokumentem. Zatem potrzebny jest system wydobycia informacji uporządkowanej historycznie z totalnych zasobów tekstowych. W polskich bibliotekach cyfrowych, w różnorodnych (państwowych, samorządowych, hobbystycznych, prywatnych) serwisach internetowych, archiwach stron WWW i wcześniejszych form komunikacji elektronicznej itd. rozproszone są miliony polskich tekstów (gazet, czasopism, tekstów, książek, dokumentów, listów, zapisów nutowych i wielu innych) od końca XVIII do początku XXI wieku. Materiały te często nie są indeksowane przez wyszukiwarkę Google. Pierwotnym zamierzeniem było stworzenie narzędzia do szybkiego i efektywnego prowadzenia badań historyczno-językowych. Wkrótce jednak uzmysłowiliśmy sobie, że takie środowisko może być pomocne także w dociekaniach naukowych o Korei.

Istota fotodokumentacji.

Cytatów szukamy w opisanym wyżej polskim elektronicznym korpusie tekstowym. Każdy cytat zaprezentowany będzie w formie oryginalnego skanu, w którym odnajdziemy informacje historyczne o Korei XX wieku. Cytat taki pozwala w niezmienionej formie, w 100% oryginalnej formie przedstawić informacje prasowe. Dzięki tej metodzie zyskujemy wierny obraz treści dotyczących Korei. Nie istnieje obecnie bardziej wierna i dokładna metoda przekazywania tekstowych informacji historycznych.

Analiza filologiczna. Opis wycinków.

Niektóre odnalezione przez nas obrazy będą wymagały komentarza filologicznego. Głównie chodzi nam tu o problem propagandy polskiej prasy w latach 1945-1989, w których Korea Południowa była przedstawiana raczej w negatywnym świetle. Przykład: w poniższym cytacie z roku 1950 rząd amerykański został negatywnie określony jako „imperialiści”. Mówi się w nim o planach utworzenia amerykańskiej siatki szpiegowskiej na terenie Korei Północnej, jak również: zatruciu wodociągów itp.

Jak widzimy, projekt zatem musi mieć charakter zarówno informatyczny (wydobywanie tekstów), jak i filologiczny (ich analiza i interpretacja). Dlatego projekt ten traktujemy jako pionierski, unikatowy i nazywamy PROJEKTEM HYBRYDOWYM: łączy w sobie najlepsze zalety cyfrowej humanistyki i klasycznej analizy humanistyczno-filologicznej. Nie znamy dotąd takiego projektu hybrydowego w obrębie koreanistyki, który obejmowałby taką skalę działania, czyli: wydobycie 10 000 cytatów z 3,31 miliona posiadanych przez nas tekstów, składających się z 22,96 mln stron, co obejmuje: 93 miliardów znaków (14 iliardów wyrazów).

Analiza statystyczna.

Dzięki zgromadzonej bazie danych tekstów z XX wieku dla haseł szczególnie ważnych i istotnych dla opisu Korei i Koreańczyków będziemy mogli przestawić unikalne wykresy frekwencyjne. Wykresy te pokażą tendencje dla konkretnych wyrazów, por. np. popularność wyrazu Samsung w XX wieku:

Wykres 5. Wykres częstości słowa Samsung

Własne studio digitalizacyjne.

Zespół badawczy nie będzie się opierał wyłącznie na zdigitalizowanych materiałach z bibliotek cyfrowych. Rozpoczęliśmy już własną procedurę skanowania książek i czasopism. Pracownia nasza dysponuje bardzo silnym (szybkim) koreańskim skanerem: MDS-3000C z koreańskiej firmy MIRU Document Scanners: Zoo Moon Trading Co.; 404-137 Mokdong, Yangchongu, Seoul, South Korea. Na stronie specyfikacji czytamy, że MDS-3000C wyposażony jest w bardzo dobre prowadzenie papieru. Prędkość skanowania wynosi dla modelu dla modelu MDS-3000C - 90ppm/180ipm. Bardzo mocny i trwały system podawania pozwala na skanowanie dokumentów bardzo cienkich. A także: MDS-3000C ma bardzo wytrzymałą konstrukcję, aby można skanować w trybie ciągłym, czyli w pełnym wymiarze czasu. Zeskanowane obrazy mogą być zapisane w formacie TIFF, JPEG, BMP, PDF lub w innym. Skaner ten bardzo walnie przyczynia się do pozyskania unikalnych materiałów dotyczących Korei.

Sporządzenie portalu www: Korea XX wieku.

Całość materiału, jaki powstanie w grancie, umieszczona będzie w specjalnie utworzonym ogólnodostępnym portalu www.Korea-XX.pl. Portal ten już został próbnie wykonany jako makieta.