태아가 자궁에서 다른 언어를 구별하는가?

페이스북의 언어학 덕후 페이지[1]에서 흥미로운 연구 결과[2]를 소개하고 있다. 내 설명 보다는 전문가의 설명이 낫겠지 ㅋㅋㅋ

일전에 다국어에 노출된 생후 7개월된 아기는 같은 나이의 단일 언어에 노출된 아기보다 두뇌나 인지 능력이 더 뛰어나다는 연구[3]가 있다고 했는데[4], 이것도 너무 이른 나이가 아닌가 싶더니만, 이제 태어나기 전까지 올라갈 줄이야. ㅋㅋ

원문을 좀 보려고 했는데, 몽땅 유료라서 포기했다-_- 근데 심박수만으로 언어구별을 한다고 보기에는 좀 무리가 있지 않나 싶기도 한데, 게다가 abstract를 보니 표본 수도 12명 밖에 안 되는 하여 좀 그렇다. ㅋ 건강 관련 연구는 펀딩이 빠방해서 그런지 몰라도, 표본수가 천 단위가 넘는 연구가 많은 듯 한데, 이런 연구는 늘 표본 수가 20 안팎인 듯 하여 아쉽다.

 


[1] https://www.facebook.com/linguisticsnerd/posts/453879251647464
[2] Minai, U., Gustafson, K., Fiorentino, R., Jongman, A., & Sereno, J. (2017). “Fetal rhythm-based language discrimination: A biomagnetometry study”. NeuroReport 28(10), 561-564, DOI: 10.1097/WNR.0000000000000794.
[3] Á. M. Kovács and J. Mehler(2009) “Cognitive gains in 7-month-old bilingual infants”, PNAS April 21, 2009 vol. 106 no. 16 6556-6560, doi: 10.1073/pnas.0811323106
[4] 내 백과사전 다국어 학습은 무조건 좋다 2013년 11월 4일

중국어 친족관계 계산기

아버지의 사촌을 당숙이라 부르듯이, 친족간의 호칭이 쓸데없이 복잡한 문화가 중국에도 있는 듯 하다. 뭐 원래 중국문화가 한국으로 온 것일테지만 말이다. ㅎ

가끔 들러서 글을 읽는 Colorless Green Ideas 블로그[1]에 중국어 친족관계 계산기[2]가 소개되어 있어서 포스팅해 봄. ㅋ 나름 재미있는 블로그이니 다른 글도 읽어볼 것을 권한다. ㅎㅎ

우측의 C를 누르면 나(我)에서 출발하게 된다. 중국어에 가 소유격을 나타내는데, 나의 아버지의 부인 (즉, 어머니)를 계산하고 싶으면 我 的 父 的 妻 를 차례로 누르고 마지막에 등호를 누르면 어머니를 의미하는 중국어 妈妈가 계산결과로 나온다. ㅋㅋㅋ 한국어 버전도 필요할 듯. ㅎㅎ

 


[1] 中国語の親族名称を調べるためのウェブサービス in Colorless Green Ideas
[2] http://lishengzxc.github.io/relativecalc/

“유전자”를 벵골어로 번역하기

싯다르타 무케르지 저/이한음 역, “유전자의 내밀한 역사“, 까치, 2017, p124

우리는 지붕에 있는 발코니로 올라갔다. 마침내 하늘이 보였다. 너무나 빠르게 어스름이 깔려서, 마치 지구가 태양으로부터 고개를 돌리는 광경을 거의 느낄 수 있는 듯 했다. 아버지는 멀리 있는 역의 불빛을 바라보았다. 멀리서 한 마리 외로운 새처럼 열차가 기적을 울리며 지나가고 있었다. 아버지는 내가 유전에 관한 책을 쓴다는 것을 알고 있었다.

“유전자라…” 아버지가 눈을 찌푸리며 중얼거렸다.

“뱅골말로는 뭐라고 하죠?”

아버지는 적당한 말이 있는지 떠올려보았지만, 없었다. 하지만 대신 쓸만한 단어를 찾아냈다.

“아베드(abhed)가 어떨까?” 아버지로부터는 처음 듣는 단어였다. “나눌 수 없는” 또는 “뚫을 수 없는”을 뜻하지만, 대강 “정체성”이라는 의미로도 쓰인다고 했다. 나는 아버지가 그 단어를 골랐다는 데 놀랐다. 단어의 반향실(echo chamber)이라고나 할까. 멘델이나 베이트슨도 많은 울림을 지닌 그 단어에 흡족해했을 듯 하다. 나눌 수 없는, 뚫을 수 없는, 정체성.

나는 모니 형, 라제시 삼촌, 지구 삼촌(정신병을 앓던 저자의 친척들임) 을 떠올리면 어떤 생각이 드는지 아버지에게 물어보았다.

“아베데르 도시(Abheder dosh)”

정체성의 결함. 유전질환, 자아로부터 분리할 수 없는 오점, 그 모든 의미를 담은 말이었다. 아버지는 그 불가분성과 화해했다.

책에 Abheder dosh의 의미가 설명되어 있지 않은데, 검색해보니 벵골어로 ‘도쉬(দোষ)’는 죄, 잘못, 실수를 의미[1]하는 것 같다. [1]에서 발음도 들을 수 있다. 그래서 Abheder dosh는 ‘정체성의 결함’, ‘유전적 오점’ 정도의 의미가 되는 것 같다. abhed는 검색해봐도 의미를 찾을 수 없는데, 아무래도 뱅골어에서조차 흔하지는 않은 단어 같다.

 


[1] http://www.shabdkosh.com/bn/translate/dosha/dosha-meaning-in-Bengali-English

랜섬웨어 WannaCry를 언어학적으로 분석하다

이코노미스트지 단신[1]으로 흥미로운 이야기를 들어서 좀 검색을 해 봤다. ㅋㅋㅋ

일전에 워너크라이 랜섬웨어에 대한 이야기[2]를 한 바 있는데, 카스퍼스키나 시만텍 등의 각종 보안 전문가들은 북한이 하지 않았을까 하는 추정울 하는 모양[3]이다. 일전에 swift 해킹사건[4]도 북한의 가능성이 나오고 있는데, 이거 뭐 만물 북한설-_-도 아니고 ㅋㅋㅋ

한편 워너크라이 랜섬웨어가 각종 언어를 지원한다는 점에서 착안하여 Flashpoint라는 회사에서 언어학적인 접근을 시도해 본 모양[5]이다. 이게 뭔 회사인가 싶었는데, 홈페이지에 있는 자신들의 소개[6]에 의하면, 데이터 분석으로 어떤 컨설팅을 제공하는 회사인 듯 하다.

이 회사의 주장[5]에 의하면 비록 워너크라이가 28개 국어의 지원을 하고 있으나 각종 번역문과 구글 번역기와의 단어 매칭을 하면 영어, 중국어 번체, 중국어 간체를 제외한 모든 언어가 98% 이상의 높은 매칭을 보인다. 따라서 모두 기계번역에 의한 문장이고 인간이 쓴 문장은 아니라는 추정이 가능하다. 영어 버전은 비록 인간이 쓰긴 했으나 치명적인 문법적 오류가 있어, 모국어가 영어는 아닌 사람인 걸로 추정된다.

많은 부분에서 워너크라이의 안내문구를 쓴 사람은 매우 유창한 중국어 화자라는 추정을 할 수 있다고 하는데, 본인이 중국어에 까막눈이라 잘 모르겠다-_- ㅋㅋㅋ 워너크라이의 문구에는 help를 의미하는 ‘帮助‘ 대신에 ‘帮组’ 라고 오타가 있는 모양인데, 이것은 기계 번역으로 작성한 것이 아니라 작성자가 자판으로 직접 친 글임을 강력하게 시사한다고 한다.

한편 week를 의미하는 ‘礼拜‘는 남중국, 홍콩, 타이완에서 흔히 쓰이는 표현이고, 안티바이러스를 의미하는 ‘杀毒软件‘는 중국 본토에서 더 흔한 표현이라고 한다.

어쨌든 그들의 결론은 워너크라이를 제작한 사람은 중국어에 유창하고, 중국 남부지방 사람일 가능성이 높다고 판단하는 듯. 문장이 좀 길었다면 일전에 롤링씨 사건[7]처럼 Forensic Linguistics를 동원할 수도 있지 않을까 싶다. ㅋ

Flashpoint는 안내 문구만 분석했는데, 코드 속에는 좀 더 많은 내셔널리티가 있지 않을까 하는 생각이 든다. 일전에 Dark Hotel에서 한국어 화자로 추정되는 코드가 보인다는 이야기[8]를 한 적이 있는데, 부지불식간에 언어적 습관이 코드에 남아 있을 수도 있다. 그래서 CIA에서는 국적 혼동용의 obfuscater 같은 것도 사용하는 모양[9]이다. 앞으로 멀웨어 제작자는 다국어 능력도 필요할 듯 ㅋㅋㅋ

 


2017.6.8
보안뉴스 워너크라이 협박 편지, 중국어 하는 사람이 썼다 2017-05-26 14:25

 


2017.6.18
보안뉴스 [주말판] 해커 잡기 위해 동원되는 언어 분석의 가치란 2017-06-17 11:05

 


[1] 이코노미스트 에스프레소 The world in brief, May 30th 2017
[2] 내 백과사전 랜섬웨어 WannaCry 확산 2017년 5월 15일
[3] the hacker news Google Researcher Finds Link Between WannaCry Attacks and North Korea Monday, May 15, 2017
[4] 내 백과사전 방글라데시 SWIFT 해킹 사건과 북한의 관련성 2017년 3월 26일
[5] Linguistic Analysis of WannaCry Ransomware Messages Suggests Chinese-Speaking Authors in Flashpoint blog
[6] https://www.flashpoint-intel.com/about/
[7] 내 백과사전 법언어학으로 밝혀낸 롤링의 정체 2013년 7월 21일
[8] 내 백과사전 Regin과 Dark Hotel : 악성코드로 이루어지는 사이버 첩보활동 2014년 11월 29일
[9] the hacker news WikiLeaks Reveals ‘Marble’ Source Code that CIA Used to Frame Russia and China Friday, March 31, 2017

Bankspeak : 세계 은행 보고서의 “and”사용 빈도

세계 은행 수석 이코노미스트인 폴 로머 선생이 세계 은행의 보고서와 이메일이 불필요하게 길다고 불평했던 모양[1,2]이다. 특히 “and”라는 접속사가 너무 남용된다고 불평했던 모양인데, 정말인지 어떤지 이코노미스트지[1]에서 친절하게도 세계 은행 보고서에 사용된 “and”의 사용빈도 그래프를 보여주고 있다. ㅋㅋㅋ

위 그래프의 출처는 스탠포드 문헌 연구소(Stanford Literary Lab)[3]에서 발간한 보고서인 것 같은데, Quantitative linguistics의 관점에서 세계 은행 보고서를 분석한 글[4]인 것 같다. 보고서 뒷부분[4;p17]에도 “and”가 무진장 많다는 이야기가 나온다. 이런 세계 은행의 문장스타일이 무척 독특한 느낌을 주는건지는 몰라도, 보고서[4] 제목이 Bankspeak이다. 이건 아무래도 오웰의 newspeak를 패러디한 신조어 같다. ㅋ

폴 로머 선생은 글 속에 “and”의 비율이 2.6%를 넘으면 불명확해진다고 말한 모양[1]인데, 도대체 2.6은 어디서 나온 숫자인지 알 길이 없다-_- 2012년에 발간되는 세계 은행의 보고서는 “and” 비율이 거의 6%에 육박하니, 폴 로머 선생이 싫어할 만 하다. ㅋㅋ 이코노미스트지 자기네들은 1.6%라고 (광고 제외) 뻐기는 중-_-

얼마나 “and”를 많이 쓰는지, 웹진 mother jones에 세계은행 보고서의 예문이 실려있는데[5] 그대로 인용해보자.

  • promote corporate governance and competition policies and reform and privatize state-owned enterprises and labor market/social protection reform
  • There is greater emphasis on quality, responsiveness, and partnerships; on knowledge-sharing and client orientation; and on poverty reduction

이게 뭔 소리야-_-

일전에 본 블로그에서 영어 해석 퀴즈를 낸 적[6]이 있었는데, 그 중 한 문제가 다음과 같다.

Put the same space between Romio and and and and and Juliet.

폴 로머 선생이 이 문장을 매우 싫어할 듯. ㅋㅋㅋ

 


[1] 이코노미스트 A spat over language erupts at the World Bank May 26th 2017
[2] 가디언 World Bank economist sidelined after demanding shorter emails and reports Friday 26 May 2017 07.32 BST
[3] https://litlab.stanford.edu/pamphlets/
[4] Bankspeak: The Language of World Bank Reports,. 1946–2012 (pdf)
[5] mother jones Paul Romer and the Parataxis of the World Bank MAY 25, 2017 6:27 PM
[6] 내 백과사전 영어 해석 종결자 2011년 5월 2일

이코노미스트지의 기계 번역/음성 인식 기사

이코노미스트지에서 1년에 네 번 발행하는 Technology Quarterly에는 다양한 기술 분야의 현황을 두루 소개하는 글로 채워지는데, 이번 주는 완전 작정하고 모든 기사가 기계 번역과 음성 인식 분야에 몰빵[1]을 하고 있다-_- 얼마전에 아마존 에코가 대박 많이 팔렸다[2]는 기사를 봤는데, 이쪽 분야가 확실히 요즘 화제가 되긴 되는 모양이다. ㅋㅋ

기계번역/음성인식 분야에 관한 역사와 최신 현황을 두루 아우르고 있는 듯 한데, 너무 길어서-_- 본인은 앞쪽 절반 정도만 읽었다. 흑 그놈의 영어 울렁증 ㅋ

초반에 ALPAC에 관한 이야기가 나오는데, 본인은 이런 역사가 있는 줄 처음 알았다. ㅎㅎ 당시에 기계번역에 대한 장밋빛 전망이 우세했던 모양인데, 1964년에 미 정부에서 7명의 학자 자문단 ALPAC을 구성하여 기계번역의 미래에 관해 물어보니, 기계번역이 완성되려면 택도 없다는 요지의 보고서-_-를 내는 바람에, 기계번역 분야의 지원금이 몽땅 끊기고 이 분야는 거진 20년간 암흑기에 들어갔다고 한다. ㅋㅋ 하긴 근래들어 엄청 좋아졌다는 구글 번역기도 대충 의미 파악용으로만 쓸 수 있지, 실제 활용가능한 문장으로는 좀 무리가 많은데, 60년대는 오죽하겠나 싶다.

기계 번역으로 과거에는 rule-based translation이 주력이었던 모양인데, 검색해보니 그런 관점에서의 재미있는 글[3]도 발견할 수 있었다. 과학동아의 1987년(!) 글인데, 과학동아 대단하다 ㅋㅋㅋ 1987년도 글을 웹으로 볼 수 있게 서비스 하다니 ㅋㅋ rule-based translation이 번역 알고리즘의 주력이던 시절의 관점을 간접적으로나마 엿볼 수 있어, 기술의 시대감이 느껴진다.

글[1] 중간에 Mark Liberman 교수가 언급되는데, 본 블로그에서도 종종 소개하는 유명한 언어학 블로그 Language Log[4]의 필진 중 한 명이다. 뭐 언어학 공부하는 사람은 이 블로그 이미 다 알고 있더만. ㅋ

일전에 확률 문법에 대한 이야기[5]에서도 잠시 나오고, 구글의 SyntaxNet 소개[6]에서도 나오지만, 언어의 모호성과 중의성 때문에, 또 문법의 예외적 측면이 너무 광범위해서 rule-based는 한계가 많다. statistics-based는 (비록 촘스키 선생은 대단히 회의적이라지만 ㅋ) 그런 측면에서 돌파구가 될 수 있다. 근래에는 이 두 가지에다가 neural network를 짬뽕한 Neural machine translation이 시도되는 모양.

중간에 phrase-based 번역과 neural-network 번역, 인간 번역을 비교한 그래프도 있다. 모든 번역에서 neural-network 번역은 phrase-based보다 우수하지만 인간이 직접 번역한 것 보다는 못한 점수를 얻는다. 꽤나 고무적인 결과지만, 본인이 보기에는 아직 갈 길이 멀다. 언제나 그렇듯이 60%에서 90%로 향상하기는 쉽지만, 90%에서 99%로 향상하는 것은 어렵기 때문이다.

일전에 음성인식 스마트거울 만드는 이야기[7]도 했지만, annyang[8]을 써 보니 음성인식 쪽은 진짜 성능이 비약적으로 발전한 것 같다. 뭐 좀 시끄러우면 인식 실패할 때가 많긴 하지만-_- 비교적 조용한데 설치하면 거의 백발백중이다. 음성합성도 마찬가진데, 일전에 소개[7]한 responsive voice[9]를 이용하면 정말 사람이 말하는 것 같이 사운드를 만든다. annyang이든 responsive voice든 구글의 데이터를 베이스로 쓰니 결국 구글의 기술인데, 구글이 무슨 요술을 부린건지 한국어를 이렇게 잘 맞춘다. 마술과 구별이 안 될거라는 클라크 선생의 말이 역시 맞구만-_-

 


[1] http://www.economist.com/technology-quarterly/2017-01-07
[2] geekwire Amazon Echo sales up 9X compared to last year, company says in holiday roundup December 27, 2016 at 8:28 am
[3] 과학동아 컴퓨터 자동번역 시스템 언어장벽이 무너진다 1987년 02월호
[4] http://languagelog.ldc.upenn.edu/nll/
[5] 내 백과사전 확률 문법의 간략한 소개 2016년 10월 7일
[6] 내 백과사전 구글의 자연어 처리 오픈소스 SyntaxNet 2016년 5월 14일
[7] 내 백과사전 음성인식 스마트 거울 만들기 2016년 11월 2일
[8] https://www.talater.com/annyang/
[9] http://responsivevoice.org/

각 유럽 언어들의 “메리 크리스마스” 인사법

“메리 크리스마스”라는 인사법은 1843년 디킨스의 유명한 소설 “크리스마스 캐롤”이 히트치면서 유행하게 된 인사법[1]이라고 한다. (에베니저 스크루지를 모르는 사람은 없겠지-_-) 은근 별로 오래되지 않은 전통이다. ㅋ 월마트 같은 곳에서 크리스마스를 인정하지 않는 다른 종교인들의 배려 차원에서 PC의 일환으로 “Merry Christmas”라는 인사 대신 “Happy Holidays” 또는 “Season’s Greetings”과 같은 인사법을 시도했던 적[2]도 있었던 모양인데, 전통을 중시하는 보수적인 미국인들의 반발이 심했다고 들었다. 무슬림을 싫어하는 트럼프 지지자들의 사유 중 하나로 나왔는데, 어디서 읽은 건지 기억이 안나네-_- 위키피디아의 Christmas controversy 항목을 참고 바란다.

여하간 일전에 유럽 국가별 백만명당 메탈 밴드 수[3]를 소개했던 그 블로그의 주인이 재미있는 지도를 많이 만드는 모양인데, 크리스마스를 맞이하여 각 유럽 언어별로 크리스마스 인사법을 정리한 지도[4]를 만들었다.
merry-christmas-european-languages
어원이 같은 인사법은 같은 색이라고 한다. 어쨌건간에 크리스마스 시즌에 인사하는 법이 꼭 “메리 크리스마스”만 있는 것은 아니라는 거-_-

 


[1] 내 백과사전 디킨스의 ‘크리스마스 캐럴’ 2015년 12월 16일
[2] 포브스 Is Saying ‘Merry Christmas’ Politically Correct? Who Cares? DEC 19, 2014 @ 12:54 PM
[3] 내 백과사전 유럽 국가별 백만명당 메탈 밴드 수(2016) 2016년 8월 9일
[4] ‘Merry Christmas’ in European languages (map) by Jakub Marian

확률 문법의 간략한 소개

한국외국어대학교의 언어인지과학과 학회인 사이시옷에서 프레젠테이션 타입으로 제공하는 확률문법의 간략한 소개[1]가 올라와 있다.

다른 슬라이드도 있는데, 대부분 본인이 이미 알고 있는 내용이거나 크게 흥미가 없는 것이었지만, 이번 것은 처음 보는 지식이 무척 많았다. 무척 흥미진진한 내용이니 일독을 권한다! 꼭 읽어보시라!

참고로 중간에 나오는 Colorless green ideas sleep furiously는 유명한 촘스키 선생의 문장이다. ㅋ

 


[1] https://www.facebook.com/saishiot/posts/1786185108337192

아랍어 토트백 디자이너 인터뷰

근래 아랍어가 쓰인 토트백이 꽤 유명세를 타는 모양이다.

뭐 본인은 아랍어를 몰라서 정확히는 모르지만, 영문 번역에 따르면 대충 “이 텍스트는 아랍어에 기겁하는 사람을 겁주려는 목적 외에는 아무런 목적이 없습니다.”라는 의미같다. ㅋ

토트백의 개그센스 덕분인지 go viral된 것 같은데, 본인도 복수의 매체를 통해 이 사진을 보았다. 그러다보니 알 자지라에서 잽싸게 이 토트백 디자이너를 찾아내서 인터뷰[1]를 한 모양이다. ㅎㅎ

토트백을 디자인 한 사람은 Rock Paper Scissors의 두 설립자인 Sana Jammalieh와 Haitham Haddad라고 한다. 이 둘은 대학때부터 친구였던 모양인데, 사회 문제와 이슈를 해학적으로 표현하는 것을 좋아하는 것 같다. 바로 이번 토트백이 딱 그 케이스가 아닌가 싶다.

이스라엘 인구의 1/5은 아랍어를 모국어로 사용하는 사람이지만, 공공장소에서 아랍어를 쓰는 것을 두려워 한다.[2] 이스라엘 사회와 정부가 평상시에 팔레스타인 사람을 어떻게 다루는지 간접적으로 알 수 있는 대목이 아닐 수 없다. 일전에 수학공식을 보고 테러 시도로 오인하는 사건[3]을 보면, 서구인들의 뜬금없는 아랍어 적대감이 절대 작지만은 않을 듯 하다.

페이스북의 Rock Paper Scissors 스튜디오 페이지[4]를 검색해 보니, 이번 유명세 덕분에 토트백을 판매하는 메뉴가 생긴 것 같다. 가격은 15달러인데 국제배송을 해 주는지는 잘 모르겠다-_-

 


[1] 알 자지라 Tote bag designers: Idea came from our reality as Arabs 8 HOURS AGO
[2] 알 자지라 Israel’s war on the Arabic language 7 APRIL 2016
[3] 내 백과사전 미분방정식을 풀다가 테러리스트의 혐의로 FBI의 조사를 받게 된 사연 2016년 5월 9일
[4] https://www.facebook.com/RPS.Printshop/