랜섬웨어 WannaCry를 언어학적으로 분석하다

이코노미스트지 단신[1]으로 흥미로운 이야기를 들어서 좀 검색을 해 봤다. ㅋㅋㅋ

일전에 워너크라이 랜섬웨어에 대한 이야기[2]를 한 바 있는데, 카스퍼스키나 시만텍 등의 각종 보안 전문가들은 북한이 하지 않았을까 하는 추정울 하는 모양[3]이다. 일전에 swift 해킹사건[4]도 북한의 가능성이 나오고 있는데, 이거 뭐 만물 북한설-_-도 아니고 ㅋㅋㅋ

한편 워너크라이 랜섬웨어가 각종 언어를 지원한다는 점에서 착안하여 Flashpoint라는 회사에서 언어학적인 접근을 시도해 본 모양[5]이다. 이게 뭔 회사인가 싶었는데, 홈페이지에 있는 자신들의 소개[6]에 의하면, 데이터 분석으로 어떤 컨설팅을 제공하는 회사인 듯 하다.

이 회사의 주장[5]에 의하면 비록 워너크라이가 28개 국어의 지원을 하고 있으나 각종 번역문과 구글 번역기와의 단어 매칭을 하면 영어, 중국어 번체, 중국어 간체를 제외한 모든 언어가 98% 이상의 높은 매칭을 보인다. 따라서 모두 기계번역에 의한 문장이고 인간이 쓴 문장은 아니라는 추정이 가능하다. 영어 버전은 비록 인간이 쓰긴 했으나 치명적인 문법적 오류가 있어, 모국어가 영어는 아닌 사람인 걸로 추정된다.

많은 부분에서 워너크라이의 안내문구를 쓴 사람은 매우 유창한 중국어 화자라는 추정을 할 수 있다고 하는데, 본인이 중국어에 까막눈이라 잘 모르겠다-_- ㅋㅋㅋ 워너크라이의 문구에는 help를 의미하는 ‘帮助‘ 대신에 ‘帮组’ 라고 오타가 있는 모양인데, 이것은 기계 번역으로 작성한 것이 아니라 작성자가 자판으로 직접 친 글임을 강력하게 시사한다고 한다.

한편 week를 의미하는 ‘礼拜‘는 남중국, 홍콩, 타이완에서 흔히 쓰이는 표현이고, 안티바이러스를 의미하는 ‘杀毒软件‘는 중국 본토에서 더 흔한 표현이라고 한다.

어쨌든 그들의 결론은 워너크라이를 제작한 사람은 중국어에 유창하고, 중국 남부지방 사람일 가능성이 높다고 판단하는 듯. 문장이 좀 길었다면 일전에 롤링씨 사건[7]처럼 Forensic Linguistics를 동원할 수도 있지 않을까 싶다. ㅋ

Flashpoint는 안내 문구만 분석했는데, 코드 속에는 좀 더 많은 내셔널리티가 있지 않을까 하는 생각이 든다. 일전에 Dark Hotel에서 한국어 화자로 추정되는 코드가 보인다는 이야기[8]를 한 적이 있는데, 부지불식간에 언어적 습관이 코드에 남아 있을 수도 있다. 그래서 CIA에서는 국적 혼동용의 obfuscater 같은 것도 사용하는 모양[9]이다. 앞으로 멀웨어 제작자는 다국어 능력도 필요할 듯 ㅋㅋㅋ

 


2017.6.8
보안뉴스 워너크라이 협박 편지, 중국어 하는 사람이 썼다 2017-05-26 14:25

 


2017.6.18
보안뉴스 [주말판] 해커 잡기 위해 동원되는 언어 분석의 가치란 2017-06-17 11:05

 


[1] 이코노미스트 에스프레소 The world in brief, May 30th 2017
[2] 내 백과사전 랜섬웨어 WannaCry 확산 2017년 5월 15일
[3] the hacker news Google Researcher Finds Link Between WannaCry Attacks and North Korea Monday, May 15, 2017
[4] 내 백과사전 방글라데시 SWIFT 해킹 사건과 북한의 관련성 2017년 3월 26일
[5] Linguistic Analysis of WannaCry Ransomware Messages Suggests Chinese-Speaking Authors in Flashpoint blog
[6] https://www.flashpoint-intel.com/about/
[7] 내 백과사전 법언어학으로 밝혀낸 롤링의 정체 2013년 7월 21일
[8] 내 백과사전 Regin과 Dark Hotel : 악성코드로 이루어지는 사이버 첩보활동 2014년 11월 29일
[9] the hacker news WikiLeaks Reveals ‘Marble’ Source Code that CIA Used to Frame Russia and China Friday, March 31, 2017

Bankspeak : 세계 은행 보고서의 “and”사용 빈도

세계 은행 수석 이코노미스트인 폴 로머 선생이 세계 은행의 보고서와 이메일이 불필요하게 길다고 불평했던 모양[1,2]이다. 특히 “and”라는 접속사가 너무 남용된다고 불평했던 모양인데, 정말인지 어떤지 이코노미스트지[1]에서 친절하게도 세계 은행 보고서에 사용된 “and”의 사용빈도 그래프를 보여주고 있다. ㅋㅋㅋ

위 그래프의 출처는 스탠포드 문헌 연구소(Stanford Literary Lab)[3]에서 발간한 보고서인 것 같은데, Quantitative linguistics의 관점에서 세계 은행 보고서를 분석한 글[4]인 것 같다. 보고서 뒷부분[4;p17]에도 “and”가 무진장 많다는 이야기가 나온다. 이런 세계 은행의 문장스타일이 무척 독특한 느낌을 주는건지는 몰라도, 보고서[4] 제목이 Bankspeak이다. 이건 아무래도 오웰의 newspeak를 패러디한 신조어 같다. ㅋ

폴 로머 선생은 글 속에 “and”의 비율이 2.6%를 넘으면 불명확해진다고 말한 모양[1]인데, 도대체 2.6은 어디서 나온 숫자인지 알 길이 없다-_- 2012년에 발간되는 세계 은행의 보고서는 “and” 비율이 거의 6%에 육박하니, 폴 로머 선생이 싫어할 만 하다. ㅋㅋ 이코노미스트지 자기네들은 1.6%라고 (광고 제외) 뻐기는 중-_-

얼마나 “and”를 많이 쓰는지, 웹진 mother jones에 세계은행 보고서의 예문이 실려있는데[5] 그대로 인용해보자.

  • promote corporate governance and competition policies and reform and privatize state-owned enterprises and labor market/social protection reform
  • There is greater emphasis on quality, responsiveness, and partnerships; on knowledge-sharing and client orientation; and on poverty reduction

이게 뭔 소리야-_-

일전에 본 블로그에서 영어 해석 퀴즈를 낸 적[6]이 있었는데, 그 중 한 문제가 다음과 같다.

Put the same space between Romio and and and and and Juliet.

폴 로머 선생이 이 문장을 매우 싫어할 듯. ㅋㅋㅋ

 


[1] 이코노미스트 A spat over language erupts at the World Bank May 26th 2017
[2] 가디언 World Bank economist sidelined after demanding shorter emails and reports Friday 26 May 2017 07.32 BST
[3] https://litlab.stanford.edu/pamphlets/
[4] Bankspeak: The Language of World Bank Reports,. 1946–2012 (pdf)
[5] mother jones Paul Romer and the Parataxis of the World Bank MAY 25, 2017 6:27 PM
[6] 내 백과사전 영어 해석 종결자 2011년 5월 2일

이코노미스트지의 기계 번역/음성 인식 기사

이코노미스트지에서 1년에 네 번 발행하는 Technology Quarterly에는 다양한 기술 분야의 현황을 두루 소개하는 글로 채워지는데, 이번 주는 완전 작정하고 모든 기사가 기계 번역과 음성 인식 분야에 몰빵[1]을 하고 있다-_- 얼마전에 아마존 에코가 대박 많이 팔렸다[2]는 기사를 봤는데, 이쪽 분야가 확실히 요즘 화제가 되긴 되는 모양이다. ㅋㅋ

기계번역/음성인식 분야에 관한 역사와 최신 현황을 두루 아우르고 있는 듯 한데, 너무 길어서-_- 본인은 앞쪽 절반 정도만 읽었다. 흑 그놈의 영어 울렁증 ㅋ

초반에 ALPAC에 관한 이야기가 나오는데, 본인은 이런 역사가 있는 줄 처음 알았다. ㅎㅎ 당시에 기계번역에 대한 장밋빛 전망이 우세했던 모양인데, 1964년에 미 정부에서 7명의 학자 자문단 ALPAC을 구성하여 기계번역의 미래에 관해 물어보니, 기계번역이 완성되려면 택도 없다는 요지의 보고서-_-를 내는 바람에, 기계번역 분야의 지원금이 몽땅 끊기고 이 분야는 거진 20년간 암흑기에 들어갔다고 한다. ㅋㅋ 하긴 근래들어 엄청 좋아졌다는 구글 번역기도 대충 의미 파악용으로만 쓸 수 있지, 실제 활용가능한 문장으로는 좀 무리가 많은데, 60년대는 오죽하겠나 싶다.

기계 번역으로 과거에는 rule-based translation이 주력이었던 모양인데, 검색해보니 그런 관점에서의 재미있는 글[3]도 발견할 수 있었다. 과학동아의 1987년(!) 글인데, 과학동아 대단하다 ㅋㅋㅋ 1987년도 글을 웹으로 볼 수 있게 서비스 하다니 ㅋㅋ rule-based translation이 번역 알고리즘의 주력이던 시절의 관점을 간접적으로나마 엿볼 수 있어, 기술의 시대감이 느껴진다.

글[1] 중간에 Mark Liberman 교수가 언급되는데, 본 블로그에서도 종종 소개하는 유명한 언어학 블로그 Language Log[4]의 필진 중 한 명이다. 뭐 언어학 공부하는 사람은 이 블로그 이미 다 알고 있더만. ㅋ

일전에 확률 문법에 대한 이야기[5]에서도 잠시 나오고, 구글의 SyntaxNet 소개[6]에서도 나오지만, 언어의 모호성과 중의성 때문에, 또 문법의 예외적 측면이 너무 광범위해서 rule-based는 한계가 많다. statistics-based는 (비록 촘스키 선생은 대단히 회의적이라지만 ㅋ) 그런 측면에서 돌파구가 될 수 있다. 근래에는 이 두 가지에다가 neural network를 짬뽕한 Neural machine translation이 시도되는 모양.

중간에 phrase-based 번역과 neural-network 번역, 인간 번역을 비교한 그래프도 있다. 모든 번역에서 neural-network 번역은 phrase-based보다 우수하지만 인간이 직접 번역한 것 보다는 못한 점수를 얻는다. 꽤나 고무적인 결과지만, 본인이 보기에는 아직 갈 길이 멀다. 언제나 그렇듯이 60%에서 90%로 향상하기는 쉽지만, 90%에서 99%로 향상하는 것은 어렵기 때문이다.

일전에 음성인식 스마트거울 만드는 이야기[7]도 했지만, annyang[8]을 써 보니 음성인식 쪽은 진짜 성능이 비약적으로 발전한 것 같다. 뭐 좀 시끄러우면 인식 실패할 때가 많긴 하지만-_- 비교적 조용한데 설치하면 거의 백발백중이다. 음성합성도 마찬가진데, 일전에 소개[7]한 responsive voice[9]를 이용하면 정말 사람이 말하는 것 같이 사운드를 만든다. annyang이든 responsive voice든 구글의 데이터를 베이스로 쓰니 결국 구글의 기술인데, 구글이 무슨 요술을 부린건지 한국어를 이렇게 잘 맞춘다. 마술과 구별이 안 될거라는 클라크 선생의 말이 역시 맞구만-_-

 


[1] http://www.economist.com/technology-quarterly/2017-01-07
[2] geekwire Amazon Echo sales up 9X compared to last year, company says in holiday roundup December 27, 2016 at 8:28 am
[3] 과학동아 컴퓨터 자동번역 시스템 언어장벽이 무너진다 1987년 02월호
[4] http://languagelog.ldc.upenn.edu/nll/
[5] 내 백과사전 확률 문법의 간략한 소개 2016년 10월 7일
[6] 내 백과사전 구글의 자연어 처리 오픈소스 SyntaxNet 2016년 5월 14일
[7] 내 백과사전 음성인식 스마트 거울 만들기 2016년 11월 2일
[8] https://www.talater.com/annyang/
[9] http://responsivevoice.org/

각 유럽 언어들의 “메리 크리스마스” 인사법

“메리 크리스마스”라는 인사법은 1843년 디킨스의 유명한 소설 “크리스마스 캐롤”이 히트치면서 유행하게 된 인사법[1]이라고 한다. (에베니저 스크루지를 모르는 사람은 없겠지-_-) 은근 별로 오래되지 않은 전통이다. ㅋ 월마트 같은 곳에서 크리스마스를 인정하지 않는 다른 종교인들의 배려 차원에서 PC의 일환으로 “Merry Christmas”라는 인사 대신 “Happy Holidays” 또는 “Season’s Greetings”과 같은 인사법을 시도했던 적[2]도 있었던 모양인데, 전통을 중시하는 보수적인 미국인들의 반발이 심했다고 들었다. 무슬림을 싫어하는 트럼프 지지자들의 사유 중 하나로 나왔는데, 어디서 읽은 건지 기억이 안나네-_- 위키피디아의 Christmas controversy 항목을 참고 바란다.

여하간 일전에 유럽 국가별 백만명당 메탈 밴드 수[3]를 소개했던 그 블로그의 주인이 재미있는 지도를 많이 만드는 모양인데, 크리스마스를 맞이하여 각 유럽 언어별로 크리스마스 인사법을 정리한 지도[4]를 만들었다.
merry-christmas-european-languages
어원이 같은 인사법은 같은 색이라고 한다. 어쨌건간에 크리스마스 시즌에 인사하는 법이 꼭 “메리 크리스마스”만 있는 것은 아니라는 거-_-

 


[1] 내 백과사전 디킨스의 ‘크리스마스 캐럴’ 2015년 12월 16일
[2] 포브스 Is Saying ‘Merry Christmas’ Politically Correct? Who Cares? DEC 19, 2014 @ 12:54 PM
[3] 내 백과사전 유럽 국가별 백만명당 메탈 밴드 수(2016) 2016년 8월 9일
[4] ‘Merry Christmas’ in European languages (map) by Jakub Marian

확률 문법의 간략한 소개

한국외국어대학교의 언어인지과학과 학회인 사이시옷에서 프레젠테이션 타입으로 제공하는 확률문법의 간략한 소개[1]가 올라와 있다.

다른 슬라이드도 있는데, 대부분 본인이 이미 알고 있는 내용이거나 크게 흥미가 없는 것이었지만, 이번 것은 처음 보는 지식이 무척 많았다. 무척 흥미진진한 내용이니 일독을 권한다! 꼭 읽어보시라!

참고로 중간에 나오는 Colorless green ideas sleep furiously는 유명한 촘스키 선생의 문장이다. ㅋ

 


[1] https://www.facebook.com/saishiot/posts/1786185108337192

아랍어 토트백 디자이너 인터뷰

근래 아랍어가 쓰인 토트백이 꽤 유명세를 타는 모양이다.

뭐 본인은 아랍어를 몰라서 정확히는 모르지만, 영문 번역에 따르면 대충 “이 텍스트는 아랍어에 기겁하는 사람을 겁주려는 목적 외에는 아무런 목적이 없습니다.”라는 의미같다. ㅋ

토트백의 개그센스 덕분인지 go viral된 것 같은데, 본인도 복수의 매체를 통해 이 사진을 보았다. 그러다보니 알 자지라에서 잽싸게 이 토트백 디자이너를 찾아내서 인터뷰[1]를 한 모양이다. ㅎㅎ

토트백을 디자인 한 사람은 Rock Paper Scissors의 두 설립자인 Sana Jammalieh와 Haitham Haddad라고 한다. 이 둘은 대학때부터 친구였던 모양인데, 사회 문제와 이슈를 해학적으로 표현하는 것을 좋아하는 것 같다. 바로 이번 토트백이 딱 그 케이스가 아닌가 싶다.

이스라엘 인구의 1/5은 아랍어를 모국어로 사용하는 사람이지만, 공공장소에서 아랍어를 쓰는 것을 두려워 한다.[2] 이스라엘 사회와 정부가 평상시에 팔레스타인 사람을 어떻게 다루는지 간접적으로 알 수 있는 대목이 아닐 수 없다. 일전에 수학공식을 보고 테러 시도로 오인하는 사건[3]을 보면, 서구인들의 뜬금없는 아랍어 적대감이 절대 작지만은 않을 듯 하다.

페이스북의 Rock Paper Scissors 스튜디오 페이지[4]를 검색해 보니, 이번 유명세 덕분에 토트백을 판매하는 메뉴가 생긴 것 같다. 가격은 15달러인데 국제배송을 해 주는지는 잘 모르겠다-_-

 


[1] 알 자지라 Tote bag designers: Idea came from our reality as Arabs 8 HOURS AGO
[2] 알 자지라 Israel’s war on the Arabic language 7 APRIL 2016
[3] 내 백과사전 미분방정식을 풀다가 테러리스트의 혐의로 FBI의 조사를 받게 된 사연 2016년 5월 9일
[4] https://www.facebook.com/RPS.Printshop/

국제 음성 기호와 관련된 11가지 재밌는 사실들

일전에 흥미롭게 읽은 책 ‘이상한 나라의 언어씨 이야기'[1]의 저자인 언어학자 에리카 오크런트씨가 국제 음성 기호에 대한 재미있는 글을 Mental Floss에 기고[2]했는데, 뭐 딱히 블로그에 쓸 말이 없어서-_- 이거라도 포스팅해 본다. ㅋ

  1. IPA 최초의 목적은 외국어를 쉽게 가르치기 위해서였다.
  2. 외국어를 배울 때, 외국어 단어를 모국어로 표현하는 것을 피하기 위해서 순수하게 발음을 표기하는 시스템을 고안했다고. 지금은 뭐 별의 별 발음을 다 표기할 수 있는 복잡한 체계가 됐지만.. ㅋ

  3. 점점 더 많은 언어를 포함하도록 확장되고 있다.
  4. 최초에는 불어, 영어, 독일어의 소리를 표기했지만, 이후에 아랍어 등의 인두음, 힌두어의 권설음, 코이산어흡착음 등이 포함되었다고 한다. 흡착음 이게 되게 재밌는 건데 일전에 이야기한 적[3]이 있다. ㅋㅋㅋㅋ

  5. 최초 40개에서 거의 200개까지로 불어났다.
  6. 최초의 IPA는 30개 자음과 13개 모음, 몇 개의 구분자가 전부였다고 한다. 지금은 뭐 지구상에 존재하는 거의 모든 언어를 표기할 수 있다.

  7. 키스 소리, 입술 터는 소리, vocal fry를 표현할 수 있다.
  8. vocal fry가 한국어로 뭔지 모르겠는데-_- 목구멍에서 그르렁대면서 말하는 소리 같다. 키스 소리(양순 흡착음), 입술 터는 소리(양순 전동음)도 표기할 수 있다고 한다. 그냥 내는 소리가 아니고 이걸 구성 요소로서 쓰는 언어가 있으니 만든 건데, 세상에는 재미있는 언어가 많다. ㅋ

  9. 1971년까지 국제 음성 학회에서 나오는 저널은 IPA로 표기했다.
  10. maitrephonetique
    헐-_- 논문 읽기가 무지 빡시겠군-_-

  11. IPA를 출력하는 특수한 타자기가 있다.
  12. 타자기 시절에 IPA의 요상한 기호들을 출력하기 위해 특수한 타자기를 만들었던 적이 있었는데, 나름 꽤 비쌌었다고 한다.

  13. 매우 미세한 강세 차이를 표기할 수 있다.
  14. 영국 영어와 미국 영어의 미세한 악센트의 차이도 다 표기하는 듯. 뭐 나는 잘 구별 못하겠지만-_-

  15. 가수가 다른 언어로 된 아리아를 부르는데 사용된다.
  16. 오페라 가수들이 IPA를 공부하는 줄 몰랐네-_- 정확한 외국어 발음을 해야하니 어쩔 수 없을 듯. ㅋㅋ

  17. IPA로 쓰인 문학 작품이 있다!!
  18. IPA로 작성된 ‘Ælɪsɪz Ədˈventʃəz ɪn ˈWʌndəˌlænd’(이상한 나라의 앨리스) 등의 작품이 출간돼 있다[4]고 한다. 정확한 발음으로 읽을 수 있어 좋겠구만 ㅋㅋㅋ

  19. 철자법에서 불명료한 언어학적 사실을 구별할 수 있다.
  20. 뭐 이건 당연한 이야기다-_- 발음기호로 쓰면 the의 th와 thing의 th가 달라지는 법.

  21. 멋진 문신을 할 수 있다-_-
  22. Steve Kleinedler라는 American Heritage Dictionary의 에디터가 IPA 모음 차트를 문신해 넣은 모양이다. 에리카씨 사실은 이거 소문내려고 이 글을 쓴 게 아닐까 ㅋㅋㅋㅋㅋㅋ 어릴 적에 고모음, 중모음, 저모음, 전설모음, 후설모음 등등을 배운 기억이 새록새록 나는데, 다 까먹었다-_-

    본인도 스톡스 정리를 문신했지만[5] 돌이켜보니 참 쓸데없는 짓이다. ㅋㅋㅋㅋ

 


2016.8.9

 


[1] 내 백과사전 [서평] 이상한 나라의 언어씨 이야기 : 900개의 발명된 언어, 그 탄생에서 죽음까지 2010년 11월 21일
[2] Mental Floss 11 Fun Facts About the International Phonetic Alphabet July 20, 2016 – 2:00pm
[3] 내 백과사전 Click consonant 흡착음 2015년 5월 29일
[4] https://www.amazon.com/Alices-Adventures-Wonderland-International-Phonetic/dp/1782010831
[5] 내 백과사전 수학문신 2010년 4월 29일

Preposition stranding 전치사 좌초

페이스북의 언어학 그룹에서 그 유명한 What People Think I Do의 언어학자 버전이 올라왔는데[1], 거기서 Preposition stranding 이야기가 나왔다. 이건 뭐 일전에 수학자, 통계학자, 경제학자 버전을 소개한 적[2]이 있으니 참고 바란다. ㅋ
13131501_644523805698887_6231264869854918923_o

중간에 Poor grammar is something up with which I shall not put! 이라는 문장이 나오는데, 이게 개그인지 몰랐다. ㅋ 왜 개그인지 위키피디아의 설명에 따르면 다음과 같다-_-

Preposition stranding은 전치사 뒤에 나오는 목적어가 문장 다른 곳으로 이동하여 전치사가 말 그대로 ‘좌초’된 현상을 말한다. 본인은 영어가 짧아서 이런 용어를 처음 들었다. ㅎㅎ 예를 들어 다음과 같은 문장이 있다. 아래 예문은 유명한 언어학 블로그 language log에서 카피[3]함.

What are you talking about [ ] ?
I am grateful to the women I have spoken to [ ] since the operation.
Her father had a similar problem that he simply lived with [ ].

주로 관계대명사절(Relative clauses)에서 많이 발견되는데, 전치사가 관계대명사 앞으로 나오는 경우는 preposition fronting이고 문미에 남아있는 경우가 preposition stranding이 된다.

전치사 좌초를 과도하게 회피하는 경우에 여러 단어가 합쳐진 동사(phrasal verb)를 전치사로 인식하여 preposition fronting하는 실수가 발생하기도 한다고 한다. 예를 들어 put up with를 사용한 다음과 같은 문장이 있다.

This is the sort of tedious nonsense up with which I will not put.

이게 anglophone들에게는 꽤 웃긴 문장인 듯-_- 어쨌든 저 위의 문장도 그러한 조크들 중 하나가 된다. ㅋ

 


[1] https://www.facebook.com/groups/koreangroupoflinguistics/permalink/1065283453527643/
[2] 내 백과사전 사람들이 생각하는 수학자, 통계학자, 경제학자가 하는 일 2012년 3월 3일
[3] AN INTERNET PILGRIM’S GUIDE TO STRANDED PREPOSITIONS in Language Log

자연어 처리를 통한 암 연구

페이스북에서 JAMA Oncology를 팔로우 하고 있는데, 흥미로운 제목의 논문[1]이 소개[2]되어 있었다. 뭐 유료라서 읽지는 못했지만-_-, 비슷한 키워드 검색으로 무료로 읽을 수 있는 몇몇 논문이 있었다. 뭐 물론 대부분은 무슨 말인지 잘 모르겠지만-_- 앞부분을 조금 보면 이 분야의 목적이나 연구 진행의 정도를 대략 가늠할 수 있다.

pathologist가 조직검사를 시행하면 pathology reports라는 보고서를 쓰는 모양인데, 이것은 사람이 읽을 수 있는 그냥 텍스트 문서이다. 그런데 보고서의 양식이나 규격이 통일되어 있지 않은 경우가 많아서 기계로 처리하기가 난감한 상황이 많은 것 같다. 이런 보고서를 대량으로 모아서 자연어 처리를 통해 데이터를 조직화하여, 암의 집단적인 경향성을 파악하거나 병의 진행을 예측하는 용도 등등으로 쓰는 연구가 있는 것 같다. 암에 관한 글을 보면, 암은 더 이상 단일 질병이 아니다라는 말이 많이 나오는데, 이는 암의 종류마다 다른 접근과 방법론이 필요하다는 의미인 듯 하다. 그런 암들의 분류에도 자연어 처리를 응용할 수 있는 것 같다. 본인은 열라 기발한 아이디어라고 생각했는데-_-, 레퍼런스를 쭉 보니 1990년대 논문도 상당히 많은 걸로 봐서는 연구 자체는 꽤 오래 된 것 같다. 헐.

얼마전에 파나마 페이퍼스[3]와 관련하여 e discovery 이야기[4]를 했지만, 문서가 대규모로 생성되는 시대에 대규모 텍스트의 분석툴이 점차 확립되는 과정에 있는게 아닌가 싶다. 자연어 처리는 기계가 읽을 수 있는 정보와 사람이 읽을 수 있는 정보를 통역한다는 의미에서 향후 발전이 꼭 필요한 분야가 아닐까 싶다. 그런 의미에서 자연어 처리 분야의 응용이 앞으로도 상당히 많아질 것 같다. 여하간 어느 분야의 지식이 전혀 예상치 못한 곳에 접목되는 현상이 신기하다고나 할까. ㅎ

 


[1] Yim W, Yetisgen M, Harris WP, Kwan SW. Natural Language Processing in Oncology: A Review. JAMA Oncol. Published online April 28, 2016. doi:10.1001/jamaoncol.2016.0213.
[2] https://www.facebook.com/permalink … 190741773
[3] 내 백과사전 Panama Papers 2016년 4월 6일
[4] 내 백과사전 e 디스커버리 2016년 4월 7일