거대한 코퍼스로 놀기

코퍼스란 텍스트에 관한 여러가지 구조적 정보가 태깅되어 있는 거대한 텍스트 데이터베이스이다. 자세한 내용은 일전에 소개한 책 ‘언어, 컴퓨터, 코퍼스 언어학'[1]을 참조하기 바란다.

하바드 대학교와 구글이 협력하여 5천억 단어로 이루어진 영문 코퍼스를 구축했다고 한다. 각각의 텍스트를 시대별로 구분한 모양인데, 영어뿐만 아니라 프랑스어, 스페인어, 독일어, 러시아어, 중국어(아마 북경어일듯?), 헤브루어까지 작업했다고 한다. 그들은 이 결과를 사이언스지에 발표[2]했다. 이와 관련된 이코노미스트 기사[3]가 있어 소개한다. 본인이 자주 들르는 블로그 bit-player에도 관련 포스팅[4]이 되어 있다.

이걸 가지고 할 수 있는 재미있는 놀이가 있는데, 시대별로 어떤 단어가 얼마만큼의 빈도로 등장했는지 확인해 볼 수 있다. 구글 n-gram 뷰어[5]에서 검색가능하다. 연속된 어구로 최대 5개짜리까지 검색 가능하다. 즉, 1단어로 된 말은 1-gram이고 “the economist”와 같이 두 단어로 된 말은 2-gram이다. 5-gram까지 검색이 가능하다. bit-player에도 몇 개의 예시가 되어 있는데, 본인도 검색해봤다.
(클릭하면 커짐)
리만, 가우스, 푸앵카레, 힐베르트를 검색해봤는데, 1920년에서 40년 사이에 푸앵카레를 언급한 택스트가 급격히 증가한다. 저 시절은 토폴로지가 유행타던 시절이라서 그런 듯 싶다. ㅎㅎㅎ

각자 흥미로운 단어들의 시대별 출현 빈도수를 검색해보는 것도 재미있을 것이다. 🙂

 


2010.12.28
On “culturomics” and “ngrams” in LanguageLog

 


2017.10.9
연합뉴스 인공지능용 한국어 말뭉치 155억어절 구축…5년간 175억 지원 2017/10/09 08:31

 


[1] http://zariski.egloos.com/2241170
[2] Jean-Baptiste Michel, et al. (2010) “Quantitative Analysis of Culture Using Millions of Digitized Books”, Science, 16 Dec 2010, DOI:10.1126/science.1199644
[3] 이코노미스트 Reading by numbers Dec 16th 2010
[4] Googling the lexicon in bit-player
[5] https://books.google.com/ngrams

Advertisements

2 thoughts on “거대한 코퍼스로 놀기

  1. ‘Hangeul’은 1962년에 조금 높다가 비율이 낮아졌네요…(이건 대체 뭔결과)
    ‘Dokdo’는 계속 상승세이고 (서경덕교수님 감사합니다ㅎ)
    그런데 ‘Korea’는 2000년대부터 하락세
    구글을 좀 못 믿겠는데요…(아니 Nuclear가 1900년대결과가 있어..)
    ‘Obama’가 1920년대 가장많이 출현한것은… 어떻게 할까요( Iraq는 거의 0%인데말이죠)
    ‘Aleph’는 카오스…

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중