일본어 한자 빈도분석 : 일상 일본어의 90%를 커버하는 777개의 한자

에드거 앨런 포의 유명한 소설 ‘The Gold-Bug‘에는 영문에 등장하는 알파벳의 출현 비율이 다르다는 사실을 이용해 암호를 해독하는 빈도분석법이 등장하는 장면이 있다. 고전적이고 기초적인 암호해독 기법 중 하나이긴 한데, 일전에 이걸 너무 남용한 사례에 대한 이야기도 한 적[1]이 있다. ㅎㅎㅎ

해커 뉴스[2]에 일상 일본어의 90%를 커버하는 777개의 한자에 대한 이야기가 나와 있던데, 원문[3]에는 무슨 근거로 777개의 한자를 선택한 건지 출처가 제대로 나와 있지 않다. 해커 뉴스의 댓글을 보니 누가 그걸 찾아놨길래, 그 연구[4]를 대충 봤다.

보니까 아시히 신문 기사를 기반으로한 코퍼스를 바탕으로 통계를 낸 것 같다. appendix A[4;p489]에 대략 상위 3000개의 한자를 빈도수와 함께 나열하고 있다. 본인의 초 짧은 일본어 실력으로는 100위 정도까지밖에 모르겠다-_- 사실 90%면 원활한 일상 글읽기에는 좀 문제가 있는 수준이긴 하지만, 모르는 단어는 문맥상 대충 때려맞춘다고 가정하면, 핵심 및 분위기 파악 정도는 가능한 수준의 독해 능력이 아닐까 싶다. 근데 요새는 한-일 번역기 수준이 꽤 좋아서, 일본어를 전혀 몰라도 텍스트의 핵심파악 같은 건 쉽게 되긴 한다-_- appendix B에는 히라가나, appendix C에는 카타카나의 출현 빈도가 나와 있다. 본 블로그에서는 첫 300개 한자만 올려 놓음.

아무래도 기반이 신문기사다 보니까, 정치관련 한자(정당 이름이라든지)가 상당히 상위권에 있는 듯 하다. 일상 회화에서 그런 한자 출현빈도는 좀 떨어진다는 점을 감안해야 할 듯 하다.

한글 자모의 통계도 궁금해서 찾아봤는데, 국립국어원 홈페이지에서 제공하는 2005년 통계[5]가 있었다. 통계의 기본이 된 코퍼스는 명확하지는 않지만 세종 코퍼스를 쓴 듯 하다. 어디서 듣기로는 한국어 코퍼스 중 이용가능한 유일한 코퍼스라나 뭐라나-_-

1	2105587	초성	ㅇ
2	1926007	중성	ㅏ
3	1355527	중성	ㅣ
4	1328090	종성	ㄴ
5	1171038	초성	ㄱ
6	1151976	중성	ㅡ
7	942819	중성	ㅓ
8	862073	중성	ㅗ
9	800785	초성	ㄷ
10	776891	종성	ㄹ
11	756477	초성	ㅅ
12	748509	초성	ㅈ
13	635299	초성	ㅎ
14	617205	종성	ㅇ
15	610211	초성	ㄹ
16	596893	초성	ㄴ
17	592419	중성	ㅜ
18	429661	초성	ㅁ
19	422490	중성	ㅕ
20	411538	종성	ㄱ
21	409768	중성	ㅐ
22	393695	중성	ㅔ
23	359029	초성	ㅂ
24	258542	종성	ㅁ
25	219186	종성	ㅆ
26	200266	초성	ㅊ
27	179818	중성	ㅢ
28	162656	중성	ㅘ
29	133729	종성	ㅂ
30	114592	종성	ㅅ
31	106679	초성	ㅌ
32	99794	중성	ㅚ
33	98986	초성	ㅍ
34	94576	중성	ㅛ
35	72604	초성	ㄸ
36	64997	초성	ㄲ
37	63728	중성	ㅑ
38	57373	중성	ㅝ
39	48097	초성	ㅋ
40	47506	중성	ㅟ
41	47135	중성	ㅠ
42	44394	중성	ㅖ
43	30376	종성	ㄶ
44	29184	초성	ㅆ
45	26948	종성	ㅎ
46	25868	종성	ㅄ
47	25341	종성	ㅌ
48	20434	초성	ㅉ
49	18535	종성	ㄷ
50	17173	종성	ㅈ
51	16938	종성	ㅍ
52	16037	초성	ㅃ
53	11215	중성	ㅙ
54	9944	종성	ㅊ
55	7330	종성	ㄺ
56	6068	종성	ㄲ
57	4344	종성	ㄻ
58	3769	중성	ㅒ
59	3023	종성	ㅀ
60	2790	종성	ㄵ
61	2183	종성	ㄼ
62	2035	중성	ㅞ
63	357	종성	ㄳ
64	302	종성	ㅋ
65	131	종성	ㄾ
66	78	종성	ㄿ
67	5	종성	ㄽ

근데 을 쓰는 한국어 단어가 있긴 있나??? 싶어서 검색을 해 봤는데, 있긴 있었다-_-

.


[1] 내 백과사전 자연어 처리로 Voynich manuscript를 해독하기 2018년 9월 13일
[2] The most frequent 777 kanji, gives 90% coverage of Kanji in the wild (hacker news)
[3] The Triple 7 Kanji List (japanesecomplete.com)
[4] Chikamatsu, N., Yokoyama, S., Nozaki, H. et al. “A Japanese logographic character frequency list for cognitive science research” Behavior Research Methods, Instruments, & Computers (2000) 32: 482. https://doi.org/10.3758/BF03200819
[5] 현대 국어 사용 빈도 조사 2 (korean.go.kr)

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중

This site uses Akismet to reduce spam. Learn how your comment data is processed.