과제 내용, 규모 및 방법

과제 내용은 폴란드 텍스트 프리즘으로 본 20 세기 한국, 한국인, 한국주의이다. 지난 100년 동안 한국의 정치, 경제, 문화, 자연, 교육 등등에 대해서 알아내고자 한다. 이 기술은 바로 실직적인 텍스트에서 나올 것이다.

1901-2000년에 나타난 중요한 기록을 찾아내고 기술할 계획이다. 본 과제는 한국의 다양성과 아름다움을 보여 줄 것이다.

역사적, 문화적 측면에서 중요한 등재어 같은 경우에:

가) 빈도율 도표를 작성한다. 예:

나) 역사-사회적 배경의 논평을 제공한다.



위에 말한 바와 같이 20에 나타난 제일 중요한 등재어를 제공할 계획이다. 예를 들어서, Korea(한국), Koreanczycy(한국인)등을 기술할 것인데 선별된 그리고 소개될 키워드도 아래와 같이 기술할 계획이다:

가) 정치 분야: Li Syng Man, Yun Bo-seon, Park Chung-hee, Choi Kyu-ha, Chun Doo-hwan, Roh Tae-woo, Kim Young-sam, Kim Dae-jung, Roh Moo-hyun, Lee Myung-bak, Park Geun-hye

나) 스포츠 분야: taekwondo

다) 문화 분야: samulnori

라) 지리학 분야: Seoul, Incheon, Naktong-gang, Seorak-san, Halla-san

마) 고유명사: Samsung, LG

...

바) 기타: k-pop

규모

여태까지 본 과제를 준비하기 위해서 수집된 자료(잡지, 교과서)를 보여 준다. 본 프로젝트의 출발점이 될 것이다. 1750년-2010년 사이에 나온 자료 데이터는 3백만 개의 기록물이다. 이에서 나타난 등재어:

가)Seul(서울): 10 000개

나)seulski(서울의): 500개

다)Korea(한국): 50 000개

라)koreanski(한국의): 20 000개

마)Koreanczyk(한국인):4500개



정확히 현재 (2017년 1월) 3,31백만정도의(3310217) 출판물(교과서, 책, 법률 자료, 디지털 텍스트)을 가지고 있으며 총 22,96천만 개의 페이지이다. 아래의 도표는 자료의 규모를 보여 준다.

가) 각 해의 자료 수

나) 자료 종류

다) 수집된 자료의 연차에 따른 정확성

각 등재어는 실제의 텍스트에서 표시될 것이다. 그래서 본 프로젝트의 마지막 결과는: 가)10권의 단행본 (등재어+실제 짧은 텍스트, 즉 이 텍스트에서 나타난 본 등재어) 나)인터넷 포털: 본 포털에서 전체 연구결과를 무료로 제공한다. 검색 기능이 포함될 것이다. 인터넷 웹사이트에서 (KOREAN STUDIES GRANT) 재정지원에 관한 정보를 표기할 것이다.

방법

본 과제의 방법은 연구에 필요한 자료를 수집하고 분석하는 것이다. 먼저, 디지털 도서관에서 제공하는 스캔 텍스트를 수집한다. 또한, 연구에 필요할 한국과 관련 잡지를 수동으로 스캔하고 디지털화한다. 여태까지 본 과제를 준비하기 위해 빠른 시간에 2000개의 잡지를 이미 스캔하고 디지털화했다. 방법 계획은:

가) 폴란드 디지털 도서관 자료 수집과 사용:

21세기에 ‘Wielkopolska Biblioteka Cyfrowa(비엘코폴스카 디지털 도서관)이 생겼다. 이 도서관에서 무료로 필요한 자료를 추출할 수가 있다. 아래의 사진 참고:

사진1: 폴란드 디지털 도서관

본 디지털 도서관에는 다양한 자료, 즉 필사본, 신문, 촬영 자료, 사본, 등등을 제공한다. 참고: Górny M., Wierzchoń P., Polish digital libraries as a philologist's tod. Based on 666 adjectives from the Digital Library of Wielkopolska, Poznań 2010).

사진2: 다양한 자료

결과적으로 지난 10년 동안 폴란드에서 1백만 이상 디지털 자료를 수집했다.

사진3: 폴란드 잡지 제목

그런데 본 프로젝트에서는 과제와 관련된 내용만 즉, 한국관 관련된 내용을 추출하고자 한다. 또한 선택된 날짜에 해당한 텍스트를 제공하고자 한다. 이해하기 위해서 한국에서 사용이 잘 되는 네이버와 비슷한 도서관을 만들고자 한다.

사진4: 네이버 디지털 도서관

이 도서관에서 날짜를 선택하면 그 날의 신문을 볼 수가 있다.

Fot. 7. Strona www koreańskiej wyszukiwarki Naver – artykuł dotyczący Polski

그런데 이 디지털 도서관의 문제는 독자는 날짜를 알아야 되고, 찾는 내용(정보, 개념 등등)을 찾으려면 많은 양의 분석을 해야 한다. 그런데 본 프로젝트는 폴란드 텍스트를 사용하되 분야별로 등재어를 준비하면 각 등재어, 문제, 개면, 관심 분야를 쉽게 검색할 수 있을 것이다. 이 프로젝트의 바로 과제 중심이며 유익한 핵심이다. 한 자리에 한국 XX세기에 대해서 모든 나타난 정보를 제공한다. 이렇게 하기 위해서 이른바 ‘노두 체계’가 필요하다.

나) 코퍼스 준비 ‘노두 체계’:

매 이틀마다 사람들은 수많은 정보를 만들고 사용한다. 그래서 이 수많은 자료를 분류하고 분리할 필요가 있다. 폴란드 국립 디지털 도서관, 지방 디지털 도서관, 개인 인터넷 포털이나 웹사이트에서 다양한 텍스트를 찾을 수 있다. 대략, 18세기부터 20세기까지 나온 자료가 있다고 추정된다. 이러한 많은 자료에 나타난 한국, 한국인, 한국주의에 대한 연구는 필요하게 되었다.

다) 포토코퍼스 준비:

본 프로젝트 제목과 관련된 최대한 모든 등재어를 찾으려고 하고 각 등재어 어느 자료이나 어디에서 어떤 문맥에서 언제에 나타나는지 보여 줄 것이다. 그래서 필요한 자료를 스캔하고 포토코퍼스를 준비한다. 정보를 전달하기 위해 이것보다 더 정확한 방법이 없다.

라) 언어문학적인 분석/논평:

가끔 찾아낸 텍스트-포토스캔이 언어문학적 논평이 필요하다. 특히, 1945-1989 정치 텍스트에 나타난 공산주의의 선전이라는 것이다. 즉, 폴란드 신문에 대한민국을 안 좋은 각도에서 보여 주는 것이다. 이러한 경우에 추가 설명이 필요하다.

위와 같이 본 프로젝트는 정보적 특징도 가지고 언어문학적 기술도 가진다. 그래서 이 프로젝트를 종합적 프로젝트라고 볼 수가 있다. 장점은 디지털 인문학을 포함하기도 하고 전통적 언어문학적 기술을 포함하기도 한다.

마) 통계적인 분석:

20세기 수집된 텍스트 데이터 베이스의 중요한 등재어는 빈도율 도표로 제공할 것이다. 예를 들어, 삼성이라는 단어의 빈도율을 보여 줄 것이다.

이 모든 과정을 거치기 위해 디지털 연구실을 준비했다. 연구 팀은 디지털 시설을 활용할 것이다. 잡지나 교과서를 스캔하기 위해 한국 스캐너를 사용한다. 시설 속성: 스캐너: MDS-3000C, 회사명: MIRU Document Scanners: Zoo Moon Trading Co.: 404-137 목동 양천구, 서울. 스캔한 자료를 TIFF, JPEG, BMP, PDF 형식으로 저장한다.

바) 인터넷 포털 만들기 www.korea-xx.pl

모든 결과물은 인터넷 포털에 올릴 계획이다. 이 포털을 이미 운용하고 있다.