미국인이 북한에게 배우는 영단어 dotard

몇 달 된 기사지만 걍 재밌어서 포스팅함-_-

북한에서 트럼프를 욕할 때 ‘늙다리 미치광이’를 dotard라는 단어로 번역한 모양인데, 이게 영미권에서는 거의 쓰이지 않는 단어라서 anglophone들이 꽤 흥미로와 하는 것 같다.[1,2,3]

처음에는 옛날 트럼프가 트위터에 남긴 오타인 covfefe[4]같은 건줄 알았는데, 사람들이 사전을 찾아보니 실제로 있는 단어라서, 반트럼프 진영에서 나름 인기가 있었는 듯 하다[3]. ㅋㅋ 뉴욕타임즈는 1980년 이래로 자사 기사 중에 이 단어는 10회 쓰였다[5]고-_- hapax legomenon이 아닌게 다행인가-_- 뉴욕타임즈는 북한이 가진 영어사전이 꽤 오래된 것이라 추정하는 듯 하다. 참고로 예전에 어느 블로거가 covfefe스러운 단어를 R로 생성하는 시범을 보이는 글[6]을 봤는데, 재미있으니 함 읽어 보시라. ㅋ

일전에 이야기한 google 코퍼스[7]로 이 단어의 출현 빈도수를 검색해봤다.

1800년대에는 꽤 쓰였지만 시대를 지나면서 출현 빈도가 꾸준히 감소하는 것을 확인할 수 있다. 젊은 사람은 잘 모를 법한 단어인 듯 하다. 북한 덕에 나도 단어 하나 배웠나-_-?

 


[1] 와이어드 KIM JONG-UN CALLING TRUMP A ‘DOTARD’ GAVE THE INTERNET A LANGUAGE LESSON 09.22.17 01:06 PM
[2] 연합뉴스 김정은 ‘늙다리 미치광이’ 영문 표현 ‘dotard’에 관심 집중 2017/09/22 16:39
[3] 허핑턴포스트 김정은이 ‘늙다리’ 트럼프를 비난하자 미국인들이 일제히 ‘늙다리’를 검색하고 있다 2017년 09월 22일 14시 28분 KST
[4] https://www.urbandictionary.com/define.php?term=covfefe
[5] 뉴욕타임즈 Kim Jong-un Called Trump a ‘Dotard.’ What Does That Even Mean? SEPT. 22, 2017
[6] 米国のトランプ大統領の謎の covfefe ツイートをRで再現する in Colorless Green Ideas
[7] 내 백과사전 거대한 코퍼스로 놀기 2010년 12월 22일

Advertisements

GIF를 읽는 법

이미지 형식 중의 하나인 GIF 포맷은 1987년에 최초에 제안되었다고 한다. 월드 와이드 웹 그 자체의 역사보다 오래된 GIF는 현대까지도 움짤 등에 매우 유용하게-_- 활용되고 있다. ㅋ

이 GIF를 ‘기프’라고 읽을지 ‘지프’라고 읽을 지 대논쟁-_-이 있었던 것 같은데, 나는 처음 알았다. ㅋㅋㅋ 본인은 여태까지 이걸 ‘지-아이-에프’ 라고 읽어왔는데, 나처럼 읽는 사람은 별로 없는 듯-_- 초 문화 충격이다-_-

뭐 거의 예송논쟁 급의 주제지만, stack overflow에서 이걸 설문조사를 한 모양이다. 이걸 바탕으로 이코노미스트[1]지에서 국가별로 어찌 읽는지 분류하는 씨잘데기 없는 지도를 만들었다-_-

지도를 보는 방법은 (hard g 사람수/soft g 사람수)의 값을 색칠해 놓았다. 이 값이 1이면 두 발음을 하는 사람수가 같다.

/dʒɪf/의 /dʒ/ 발음을 soft g라고 하고 /ɡɪf/의 /ɡ/ 발음을 hard g라고 하는 모양인데, 위키피디아 항목도 있다. 위키피디아 링크를 보니 soft g인 /dʒ/ 발음은 Voiced postalveolar affricate(유성 후치경 파찰음???)이라고 부르는 모양이고, hard g인 /ɡ/ 발음은 Voiced velar stop(유성 연구개 파열음??)이라 부르는 것 같다. 뭐 본인은 음운론에 일자 무식이므로 넘어갑시다.

언어적 차이도 있는데, 이코노미스트지의 설명[1]에 따르면 스페인어와 핀란드어에서는 soft g가 거의 없다고 한다. 반면 아랍어의 대부분 방언에서는 hard g가 없다고 한다. 뭐 이코노미스트지[1]는 stack overflow는 대표성이 떨어지니 보정하자는 이야기가 나오지만, 내가 보기에는 중세 신학자들이 했다는 핀 머리에서 춤출 수 있는 천사수 급의 논쟁이다. ㅋㅋ 꼴리는 대로 읽으면 그만 아닌가 ㅋ

 


[1] 이코노미스트 How do you pronounce “GIF”? Jun 29th 2017

다음 빈 칸에 들어갈 적절한 단어는? “I’m tall, but my brother is taller than __”

다음 빈 칸에 들어갈 적절한 단어는?

“I’m tall, but my brother is taller than __”

수능-_-에 익숙한 사람을 위해 5지선다를 만들어 봤다. ㅋㅋㅋ

① me
② I
③ me와 I 둘 다 된다.
④ me와 I 둘 다 안 된다.
Здравствуйте

이코노미스트지[1]에서 이 문제의 해답을 설명하고 있으니, 재미로 읽어보자. ㅋㅋㅋ

 


읽기 귀찮은 사람을 위해-_- 본인이 이해한 내용을 설명하자면 이러하다.

정확한 영문법적 정답은 I’m tall, but my brother is taller than I am.

많은 영어 화자가 유일한 정답이라고 생각하는 정답은 I’m tall, but my brother is taller than I (am). (am 생략 가능) 근데 이렇게 쓰면 듣는 사람은 왠지 거만하고 빡빡한 사람이라는 느낌을 준다고 한다-_-

이코노미스트지[1]의 주장은 I’m tall, but my brother is taller than me. 도 정답이다.

‘than’을 접속사로 보느냐, 전치사로 보느냐가 핵심인데, 많은 사람들이 than을 접속사로만 쓸 수 있다고 생각하고 Taller than me와 같은 표현은 최근에 생겨난 문법파괴라고 보지만, 실제로 Taller than me와 같은 표현은 세익스피어스위프트도 썼던 표현이라고 한다. 그러니 me 썼다고 구박하지 맙시다-_- 그래도 than I 가 더 formal한 느낌을 준다고 하니, formal이 필요하면 I를 쓰는게 좋지 않을까 싶다.

 


[1] 이코노미스트 Why both I and me can be right Apr 7th 2016

국가별 / 도시별 형용사

그냥 기록차 남겨둠. ㅋㅋ

Seoulite 서울사람
New Yorker 뉴욕사람
Londoner 런던사람
Tokyoite 도쿄사람
Beijinger (Pekingese) 베이징사람
Berliner 베를린사람
Parisian 파리사람
Parisienne 파리아가씨
Washingtonian 워싱턴사람
Sydneysider 시드니사람
Roman 로마사람
Athenian 아테네사람
Singaporean 싱가포르사람
Montrealer 몬트리올사람
Quebecois (Quebecer) 퀘벡사람
Hong Konger 홍콩사람
Macanese 마카오사람
Muscovite 모스크바사람

-n형
Korea – Korean
Zimbabwe – Zimbabwean
Kenya – Kenyan
Rwanda – Rwandan
Venezuela – Venezuelan
Bolivia – Bolivian
Cuba – Cuban
Nicaragua – Nicaraguan
Chile – Chilean
Sri Lanka – Sri Lankan

-ian형
Norway – Norwegian
Iran – Iranian
Chad – Chadian
Egypt – Egyptian
Palestine – Palestinian
Jordan – Jordanian
Peru – Peruvian
Brazil – Brazilian

-i형
Nepal – Nepali
Yemen – Yemeni
Iraq – Iraqi
Israel – Israeli

-ese형
Sudan – Sudanese
Congo – Congolese
Japan – Japanese
China – Chinese

-ish형
Sweden – Swedish
Finland – Finnish
Poland – Polish
England – English

불규칙형
France – French
Germany – German
Thailand – Thai
Greece – Greek

다니엘 에버렛 선생의 신간 : How Language Began

이번 주 이코노미스트지 기사[1]를 보니 다니엘 에버렛 선생의 신간[2]을 소개하고 있는데, 내용이 무척 흥미롭다. 여유가 되면 기사 일독을 권한다. 참고로 기사 제목의 ‘high stakes‘는 큰 돈이 걸린 내기라는 뜻이라는데, 일본어로 치면 しょうねんば 정도의 의미가 될려나? ㅋ

주지하다시피, 촘스키 선생이 인간 언어 구현을 위한 생물학적 기반이 존재한다(소위 hard-wired)는 언어학과 인지과학의 혁신적 주장[3]에는 기본적으로 모든 언어가 공통으로 가진 특성[4]이 있다는 전제를 기반으로 하고 있다. 그런 특성중 하나로 자주 언급되는 것이 언어의 재귀성인데, 에버렛 선생이 피라항 어를 연구하면서 재귀성이 없는 특징에 주목한 것이 유명하다. 에버렛 선생의 책 ‘잠들면 안 돼, 거기 뱀이 있어'[5]에 자세한 설명이 있으니 참고 바란다. 이 책[5]을 요약한 것과 비슷한 느낌이 드는 뉴요커 글[6]이 있는데, 뉴스페퍼민트에 전문 번역[7]이 있다. 재미 있으니 일독을 권한다. 이와 관련해서 Tom Wolfe라는 사람이 The Kingdom of Speech라는 책을 써서 촘스키를 열라 깐 모양-_-인데, 정작 촘스키 선생은 한 부족의 예외 따위는 신경 안 쓴다는 정도로 열라 쿨하게 반응[8]한 듯 ㅋㅋ

여하간 이번 신간[2]에서 에버렛 선생은 재귀성이 언어의 필수적 요소가 아니라면 더 넓은 범위에서 언어를 정의할 수 있고, 따라서 호모 에렉투스가 언어를 사용했다는 주장을 하는 듯 한데, 이렇게 되면 최초의 언어가 발생했다고 추정하는 호모 사피엔스의 길게 잡아 수십만년보다 더 오래된 백만년 이상으로 거슬러 올라가게 된다. 고인류학까지 물린 주장이라 꽤나 논쟁인 것 같다. ㅎㅎ 예전에 본 블로그에 달린 veritaholic님의 댓글[9]을 보니 호모 에렉투스가 일종의 음성신호를 내면서 살았다는 증거는 일단 있는 듯해 보이는데, 고인류학 문제를 에버렛 선생이 어떻게 설득력있게 풀어나갈지 꽤나 궁금해지지 않을 수 없다. ㅎㅎ

위키피디아의 Origin of language 항목에 따르면, 1866년 파리언어학회는 정관에 언어의 기원에 관한 어떤 연구도 금지한다는 조항을 넣었다고 한다. 그만큼 떡밥도 많고 논쟁도 많은게 최초의 언어 논란인데, 여기에 에버렛 선생도 가세하면서 좀 더 복잡해 지는 듯 하다. ㅎㅎ 최초의 언어를 연구하는 방법론에 관해서는 일전에 읽은 크리스틴 케닐리의 저서[10]가 무척 유익하니 일독을 권한다.

작년에 이코노미스트지에서 컴퓨터 공학자인 Robert C. Berwick과 촘스키 선생이 공저한 ‘Why Only Us'[11]를 소개하는 기사[12]를 본게 생각나는데, 이 책[11]은 안 읽어봤지만 대충보니 merge와 같은 언어의 재귀성을 어떻게 얻었는지에 대해 논하는 것 같은데, 그런 재귀적 특성이 단일 인물에 의해 발현되었다는 이야기가 있는 것 같다. 이건 촘스키 선생의 과한 주장이 아닌가 싶은데, 여하간 언어의 재귀성이 필수가 아니라는 에버렛 선생의 관점과 배치된다. 언어의 기원에 촘스키 선생도 가세했으니 복잡다 복잡해.. ㅋ

여하간 에버렛 선생의 이번 신간[2]의 번역서가 과연 나올지 모르겠는데, 나왔으면 좋겠다 ㅋㅋ 아니면 그 전작[13]이라도… -_-

 


2018.1.12

 


[1] 이코노미스트 An argument over the evolution of language, with high stakes Oct 5th 2017
[2] https://www.amazon.com/How-Language-Began-Humanitys-Invention/dp/0871407957
[3] 내 백과사전 촘스키가 일으킨 혁명 2013년 4월 20일
[4] 내 백과사전 보편 문법에 대한 간략한 소개 2013년 11월 27일
[5] http://zariski.egloos.com/2473201
[6] 뉴요커 The Interpreter April 16, 2007
[7] 내 백과사전 옮기는 이 (The Interpreter): 인류학, 심리학, 언어학, 그리고 연구자의 인생에 관하여 2015년 2월 17일
[8] 뉴욕타임즈 Noam Chomsky and the Bicycle Theory OCT. 31, 2016
[9] 내 백과사전 [서평] 언어의 기원 2013년 7월 11일
[10] 내 백과사전 [서평] 언어의 진화 : 최초의 언어를 찾아서 2013년 4월 28일
[11] https://www.amazon.com/Why-Only-Us-Language-Evolution/dp/0262034247
[12] 이코노미스트 Noam Chomsky Mar 23rd 2016
[13] https://www.amazon.com/Dark-Matter-Mind-Articulated-Unconscious/dp/022607076X/

한국어 word2vec 서비스

일전에 MIT tech 기사[1]에서 word2vec에 대한 이야기를 처음 들었을 때는, 이게 되겠나-_- 싶었는데, 이걸 한국어로 구현한 사이트[2]를 봤다. 개인이 제공하는 웹서비스다보니 일전의 시인 뉴럴[3]처럼 언제 닫힐지는 모르겠다. ㅎ

백그라운드 지식을 설명하는 사이트가 몇 개[4,5]있는데, tl;dr 했다-_- 사이트 주인에 따르면 위키피디아와 나무위키를 코퍼스로 사용했다고 한다. 근데 나무위키를 코퍼스로 사용하는 건 아무래도 실수 같은데…-_-

몰랐는데 검색해보니 word2vec이 성차별 논란에 휩싸여 있는 듯[6] 하다. 근데 이건 뭐 당연한 결과 같은데, 현실 언어에 성차별이 엄연히 있고, 그것을 가지고 학습을 했으니…-_- 한국어에는 host, hostess 처럼 성별 구분이 명확한 단어가 영어에 비해 적은 듯 하여 어떻게 될지 모르겠다.

여하간 몇 개 연산을 시험해 봤는데, MIT tech 기사[1]처럼 왕-남자+여자를 계산[7]해 보니 ‘국왕’이 나온다. ㅎㅎㅎ 본인이 해 본 시도로,

왕-남자+여자 = 국왕
국왕-남자+여자 = 술탄
아버지+어머니 = 아내
아버지-남자+여자 = 어머니
어머니-여자+남자 = 아버지
부모-여자+남자 = 어머니
부모-어머니 = 개도국
큰+작은 = 커다란
빨간+노란 = 파란
빠른+느린-빠른 = 굼뜬
케냐-나이로비+카이로 = 사마라
에베레스트-높은+넓은 = 안나푸르나

음… 성능을 떠나서 이런 전산 언어학적 방법이 얼마나 유용할런지는 조금 의문이다. semantic한 성질을 제대로 반영하는지도 의문이고…

 


2017.10.29
Language Models, Word2Vec, and Efficient Softmax Approximations by Rohan Varma

 


[1] MIT technology review King – Man + Woman = Queen: The Marvelous Mathematics of Computational Linguistics September 17, 2015
[2] http://w.elnn.kr/search/
[3] 내 백과사전 인공지능 시팔이 : 시인 뉴럴 2015년 6월 8일
[4] word2vec 관련 이론 정리 by BEOMSU KIM
[5] Word2Vec in deeplearning4j.org
[6] MIT technology review How Vector Space Mathematics Reveals the Hidden Sexism in Language July 27, 2016
[7] http://w.elnn.kr/search/?query=%EC%99%95-%EB%82%A8%EC%9E%90%2B%EC%97%AC%EC%9E%90

태아가 자궁에서 다른 언어를 구별하는가?

페이스북의 언어학 덕후 페이지[1]에서 흥미로운 연구 결과[2]를 소개하고 있다. 내 설명 보다는 전문가의 설명이 낫겠지 ㅋㅋㅋ

일전에 다국어에 노출된 생후 7개월된 아기는 같은 나이의 단일 언어에 노출된 아기보다 두뇌나 인지 능력이 더 뛰어나다는 연구[3]가 있다고 했는데[4], 이것도 너무 이른 나이가 아닌가 싶더니만, 이제 태어나기 전까지 올라갈 줄이야. ㅋㅋ

원문을 좀 보려고 했는데, 몽땅 유료라서 포기했다-_- 근데 심박수만으로 언어구별을 한다고 보기에는 좀 무리가 있지 않나 싶기도 한데, 게다가 abstract를 보니 표본 수도 12명 밖에 안 되는 하여 좀 그렇다. ㅋ 건강 관련 연구는 펀딩이 빠방해서 그런지 몰라도, 표본수가 천 단위가 넘는 연구가 많은 듯 한데, 이런 연구는 늘 표본 수가 20 안팎인 듯 하여 아쉽다.

 


[1] https://www.facebook.com/linguisticsnerd/posts/453879251647464
[2] Minai, U., Gustafson, K., Fiorentino, R., Jongman, A., & Sereno, J. (2017). “Fetal rhythm-based language discrimination: A biomagnetometry study”. NeuroReport 28(10), 561-564, DOI: 10.1097/WNR.0000000000000794.
[3] Á. M. Kovács and J. Mehler(2009) “Cognitive gains in 7-month-old bilingual infants”, PNAS April 21, 2009 vol. 106 no. 16 6556-6560, doi: 10.1073/pnas.0811323106
[4] 내 백과사전 다국어 학습은 무조건 좋다 2013년 11월 4일

중국어 친족관계 계산기

아버지의 사촌을 당숙이라 부르듯이, 친족간의 호칭이 쓸데없이 복잡한 문화가 중국에도 있는 듯 하다. 뭐 원래 중국문화가 한국으로 온 것일테지만 말이다. ㅎ

가끔 들러서 글을 읽는 Colorless Green Ideas 블로그[1]에 중국어 친족관계 계산기[2]가 소개되어 있어서 포스팅해 봄. ㅋ 나름 재미있는 블로그이니 다른 글도 읽어볼 것을 권한다. ㅎㅎ

우측의 C를 누르면 나(我)에서 출발하게 된다. 중국어에 가 소유격을 나타내는데, 나의 아버지의 부인 (즉, 어머니)를 계산하고 싶으면 我 的 父 的 妻 를 차례로 누르고 마지막에 등호를 누르면 어머니를 의미하는 중국어 妈妈가 계산결과로 나온다. ㅋㅋㅋ 한국어 버전도 필요할 듯. ㅎㅎ

 


[1] 中国語の親族名称を調べるためのウェブサービス in Colorless Green Ideas
[2] http://lishengzxc.github.io/relativecalc/

“유전자”를 벵골어로 번역하기

싯다르타 무케르지 저/이한음 역, “유전자의 내밀한 역사“, 까치, 2017, p124

우리는 지붕에 있는 발코니로 올라갔다. 마침내 하늘이 보였다. 너무나 빠르게 어스름이 깔려서, 마치 지구가 태양으로부터 고개를 돌리는 광경을 거의 느낄 수 있는 듯 했다. 아버지는 멀리 있는 역의 불빛을 바라보았다. 멀리서 한 마리 외로운 새처럼 열차가 기적을 울리며 지나가고 있었다. 아버지는 내가 유전에 관한 책을 쓴다는 것을 알고 있었다.

“유전자라…” 아버지가 눈을 찌푸리며 중얼거렸다.

“뱅골말로는 뭐라고 하죠?”

아버지는 적당한 말이 있는지 떠올려보았지만, 없었다. 하지만 대신 쓸만한 단어를 찾아냈다.

“아베드(abhed)가 어떨까?” 아버지로부터는 처음 듣는 단어였다. “나눌 수 없는” 또는 “뚫을 수 없는”을 뜻하지만, 대강 “정체성”이라는 의미로도 쓰인다고 했다. 나는 아버지가 그 단어를 골랐다는 데 놀랐다. 단어의 반향실(echo chamber)이라고나 할까. 멘델이나 베이트슨도 많은 울림을 지닌 그 단어에 흡족해했을 듯 하다. 나눌 수 없는, 뚫을 수 없는, 정체성.

나는 모니 형, 라제시 삼촌, 지구 삼촌(정신병을 앓던 저자의 친척들임) 을 떠올리면 어떤 생각이 드는지 아버지에게 물어보았다.

“아베데르 도시(Abheder dosh)”

정체성의 결함. 유전질환, 자아로부터 분리할 수 없는 오점, 그 모든 의미를 담은 말이었다. 아버지는 그 불가분성과 화해했다.

책에 Abheder dosh의 의미가 설명되어 있지 않은데, 검색해보니 벵골어로 ‘도쉬(দোষ)’는 죄, 잘못, 실수를 의미[1]하는 것 같다. [1]에서 발음도 들을 수 있다. 그래서 Abheder dosh는 ‘정체성의 결함’, ‘유전적 오점’ 정도의 의미가 되는 것 같다. abhed는 검색해봐도 의미를 찾을 수 없는데, 아무래도 뱅골어에서조차 흔하지는 않은 단어 같다.

 


[1] http://www.shabdkosh.com/bn/translate/dosha/dosha-meaning-in-Bengali-English