거대한 코퍼스로 놀기

코퍼스(corpus)란 텍스트에 관한 여러가지 구조적 정보가 태깅되어 있는 거대한 텍스트 데이터베이스이다. 자세한 내용은 일전에 소개한 책 ‘언어, 컴퓨터, 코퍼스 언어학‘을 참조하기 바란다.

하바드 대학교와 구글이 협력하여 5천억 단어로 이루어진 영문 코퍼스를 구축했다고 한다. 각각의 텍스트를 시대별로 구분한 모양인데, 영어뿐만 아니라 프랑스어, 스페인어, 독일어, 러시아어, 중국어(아마 북경어일듯?), 헤브루어까지 작업했다고 한다. 그들은 이 결과를 사이언스지에 발표했다. 이와 관련된 이코노미스트 기사가 있어 소개한다.

이코노미스트 Reading by numbers Dec 16th 2010

본인이 자주 들르는 블로그 bit-player에도 관련 포스팅이 되어 있다. 참조바란다.

이걸 가지고 할 수 있는 재미있는 놀이가 있는데, 시대별로 어떤 단어가 얼마만큼의 빈도로 등장했는지 확인해 볼 수 있다. 구글 n-gram 뷰어에서 검색가능하다. 연속된 어구로 최대 5개짜리까지 검색 가능하다. 즉, 1단어로 된 말은 1-gram이고 “the economist”와 같이 두 단어로 된 말은 2-gram이다. 5-gram까지 검색이 가능하다. bit-player에도 몇 개의 예시가 되어 있는데, 본인도 검색해봤다.
(클릭하면 커짐)
리만, 가우스, 푸앵카레, 힐베르트를 검색해봤는데, 1920년에서 40년 사이에 푸앵카레를 언급한 택스트가 급격히 증가한다. 저 시절은 토폴로지가 유행타던 시절이라서 그런 듯 싶다. ㅎㅎㅎ

각자 흥미로운 단어들의 시대별 출현 빈도수를 검색해보는 것도 재미있을 것이다.🙂

 


2010.12.28
On “culturomics” and “ngrams” in LanguageLog

2 thoughts on “거대한 코퍼스로 놀기

  1. ‘Hangeul’은 1962년에 조금 높다가 비율이 낮아졌네요…(이건 대체 뭔결과)
    ‘Dokdo’는 계속 상승세이고 (서경덕교수님 감사합니다ㅎ)
    그런데 ‘Korea’는 2000년대부터 하락세
    구글을 좀 못 믿겠는데요…(아니 Nuclear가 1900년대결과가 있어..)
    ‘Obama’가 1920년대 가장많이 출현한것은… 어떻게 할까요( Iraq는 거의 0%인데말이죠)
    ‘Aleph’는 카오스…

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중