자연어 처리로 Voynich manuscript를 해독하기

갑자기 미야자키 이치사다 선생의 말[1]이 생각나는데, 고문서 해독은 당대의 언어와 문화 전반에 걸쳐 두루 꿰고 있지 않으면 불가능하다. 샹폴리옹이 고대 이집트 신성문자를 해독하는 과정에서 얼마나 많은 개고생-_-을 했는지, 일전에 읽은 Roy와 Lesley의 책[2]에 잘 나와 있다.

미해독된 고대 필사본들 가운데 가장 악명이 높은 것이 Voynich manuscript인데, 많이들 들어보셨을 터이다. 현재까지 해독이 되지 않고 있는 문서인데, 위키피디아를 보니 양피지의 방사선 탄소연대 측정으로 대략 15세기 초에 제작된 것으로 추정된다고 한다.

이 악명높은 고문서를 자연어 처리 기법으로 뚫어보려는 시도[3]가 있었는 듯 하다. 2016년 논문이라 좀 오래 됐는데, 나는 방금 봤으므로-_- 걍 포스팅 함. ㅋㅋㅋ

Alberta 대학 소속의 자연어 처리 연구자인 Greg Kondrak 선생이 Voynich manuscript를 해독하려고 시도한 모양인데, 무료로 논문을 볼 수 있다. 논문 앞쪽[3;p77]에는 암호해독의 정석 중의 정석인 frequency attack과 문자들 사이의 이산 거리 확률을 비교하는 시도를 한 듯 한데, 이렇게 오랫동안 해독되지 않은 문서에 그런 흔한 방법이 통할런지 의문이다. ㅎ

여하간 캐릭터 빈도 분석과 anagram 분석을 이용해서 통계적인 자연어 처리 방식으로 어느 언어인지 맞추기를 시도한 듯 한데, 세계 인권 선언에 들어 있는 380개 언어들과 비교한 결과 히브리 어일 가능성이 높다고 결론을 내린 듯 하다. 근데 위키피디아를 보니 유대인 매거진인 Mosaic에서 그럴리 없다고 주장[4]하는 듯. ㅋ 논문의 몇몇 가정이 매우 의심스럽다고 말하는 듯 한데, 뭐 본인은 히브리 어는 전혀 모르니 넘어갑시다. ㅋ

여하간 내가 보기에는 아무리 통계적 접근을 했다지만, 그 기반은 매우 잘 알려진 고전적 암호해독 기법인데, 히브리 어가 정말 정답이라면 과거 누군가는 히브리 어로 해독을 시도해 이미 풀렸을 가능성이 높을 듯 하다. 역시 고문서를 해독하기 위해서는 당대의 문화와 배경을 연결해야 가능하지, 문자만으로는 곤란하다고 본다. 문외한이 보기에도 꽤나 회의적인 결과가 아닐 수 없다. ㅎ

.


2018.9.15
voynich manuscript 보이니치 필사본 (jayhoonie.tistory.com)

.


[1] 오늘의 한마디(宮崎市定) (sonnet.egloos.com)
[2] 내 백과사전 [서평] 문자를 향한 열정 : 세계 최초로 로제타석을 해독한 샹폴리옹 이야기 2012년 7월 14일
[3] Hauer, B., & Kondrak, G. (2016). Decoding Anagrammed Texts Written in an Unknown Language and Script. Transactions Of The Association For Computational Linguistics, 4, 75-86. Retrieved from https://transacl.org/ojs/index.php/tacl/article/view/821
[4] Mosaic No, the Mysterious Voynich Manuscript Is Not Written in Hebrew FEB. 7 2018

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중

This site uses Akismet to reduce spam. Learn how your comment data is processed.