자연어 처리를 통한 암 연구

페이스북에서 JAMA Oncology를 팔로우 하고 있는데, 흥미로운 제목의 논문[1]이 소개[2]되어 있었다. 뭐 유료라서 읽지는 못했지만-_-, 비슷한 키워드 검색으로 무료로 읽을 수 있는 몇몇 논문이 있었다. 뭐 물론 대부분은 무슨 말인지 잘 모르겠지만-_- 앞부분을 조금 보면 이 분야의 목적이나 연구 진행의 정도를 대략 가늠할 수 있다.

pathologist가 조직검사를 시행하면 pathology reports라는 보고서를 쓰는 모양인데, 이것은 사람이 읽을 수 있는 그냥 텍스트 문서이다. 그런데 보고서의 양식이나 규격이 통일되어 있지 않은 경우가 많아서 기계로 처리하기가 난감한 상황이 많은 것 같다. 이런 보고서를 대량으로 모아서 자연어 처리를 통해 데이터를 조직화하여, 암의 집단적인 경향성을 파악하거나 병의 진행을 예측하는 용도 등등으로 쓰는 연구가 있는 것 같다. 암에 관한 글을 보면, 암은 더 이상 단일 질병이 아니다라는 말이 많이 나오는데, 이는 암의 종류마다 다른 접근과 방법론이 필요하다는 의미인 듯 하다. 그런 암들의 분류에도 자연어 처리를 응용할 수 있는 것 같다. 본인은 열라 기발한 아이디어라고 생각했는데-_-, 레퍼런스를 쭉 보니 1990년대 논문도 상당히 많은 걸로 봐서는 연구 자체는 꽤 오래 된 것 같다. 헐.

얼마전에 파나마 페이퍼스[3]와 관련하여 e discovery 이야기[4]를 했지만, 문서가 대규모로 생성되는 시대에 대규모 텍스트의 분석툴이 점차 확립되는 과정에 있는게 아닌가 싶다. 자연어 처리는 기계가 읽을 수 있는 정보와 사람이 읽을 수 있는 정보를 통역한다는 의미에서 향후 발전이 꼭 필요한 분야가 아닐까 싶다. 그런 의미에서 자연어 처리 분야의 응용이 앞으로도 상당히 많아질 것 같다. 여하간 어느 분야의 지식이 전혀 예상치 못한 곳에 접목되는 현상이 신기하다고나 할까. ㅎ

 


[1] Yim W, Yetisgen M, Harris WP, Kwan SW. Natural Language Processing in Oncology: A Review. JAMA Oncol. Published online April 28, 2016. doi:10.1001/jamaoncol.2016.0213.
[2] https://www.facebook.com/permalink … 190741773
[3] 내 백과사전 Panama Papers 2016년 4월 6일
[4] 내 백과사전 e 디스커버리 2016년 4월 7일

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중