근래 논의되는 재현성 위기가 과장되어 있다는 주장

며칠 전에 워싱턴 포스트 기사[1]에서 구글이 딥 러닝으로 안저 사진 판독을 하여 심장마비를 예측할 수 있다는 초 신박한 기사를 봤는데, 네이쳐의 논문[2]을 기사화 한 것이었다. 비슷한 시도가 과거에도 있었던 모양인데, 구글이 안저 사진으로 당뇨망막병증을 딥 러닝으로 진단하려는 시도가 2016년에 있었다[3]고 한다. 유명한 헬스케어 블로그를 운영하는 최윤섭 선생의 글[4]에서 설명하고 있으니 참고하면 좋다.

아 근데 여기서 반전. 페북의 ‘시바의 유전학'[5]을 보니, 이 연구[3]가 재현 안된다는 주장[6]이 올라온 듯. 딥 러닝 할 때, 초기값 설정이나 activation 함수 같은 설정에 따라서 결과가 꽤 달라지는 모양인데, 모르긴 해도 구글에서 연구 과정을 자세히 공개 안한 듯 하다. 뭐 기업 기밀일 수도 있고 ㅎㅎ

요새 재현성 위기라든지, p-hacking 등등 이야기로 난리인데, 이코노미스트지 기사[7]에서 이러한 종류의 논란이 좀 과장되어 있다는 주장[8]이 소개되어 있다.


그래프에서 나와 있듯이, 재현성 위기에 대한 언급은 근래 몇 년 들어서 폭증하고 있는 추세지만, 실질적으로 저널당 correction 또는 retraction의 개수는 20년 전과 크게 차이 없다는 것이다. 게다가 중국과 인도 학자들이 하는 의심스러운 짓(?)의 비율을 감안한다면 영미권에서 실제로 일어나는 misconduct의 수는 과거와 비교하여 근래 특별히 더 많은 것은 아니라는 이야기다.

그리고 Daniele Fanelli 선생의 글[8] 마지막에는 실재하지 않는 이러한 종류의 위기감이 더 나은 과학을 위해 필요한지에 대해 회의적인 견해를 밝히고 있다. 이런 내러티브는 과학적 증거에 대한 불신감을 키우고, 반과학 어젠다를 키운다고 보는 듯 하다. 과학적 증거에 대한 불신감이라 하니 아툴 가완디 선생의 칼텍 축사[9]가 생각나는데, 뭐 내가 보기에는 재현성 위기에 주목하는 사람은 반과학이나 과학에 대한 불신이 있는 사람일 가능성은 낮으므로, 이 주장에는 좀 재론의 여지는 있어보인다. 여하간 과학계는 사람들이 생각하는 것 보다는 건전하다는 이야기 되겠다. ㅎ 중국과 인도만 좀 정신 차리면 좋을 텐데-_-

 


2018.4.25
‘1호 인공지능 의사’라는 IDx-DR에 대한 고찰 (chiweon.com)

.


2018.8.7
science Plan to replicate 50 high-impact cancer papers shrinks to just 18 Jul. 31, 2018 , 5:45 PM

.


2018.8.16
딥마인드 AI, 인간 의사 수준으로 안구 질환 찾아낸다 (thegear.co.kr)

.


2018.11.6
1 in 4 Statisticians Say They Were Asked to Commit Scientific Fraud (hacker news)
Wang MQ, Yan AF, Katz RV. “Researcher Requests for Inappropriate Analysis and Reporting: A U.S. Survey of Consulting Biostatisticians.” Annals Internal Medicine. ;169:554–558. doi: 10.7326/M18-1230

.


2019.2.2

.


2019.2.19
[학계 소식] 연구 재현성 위기, 사회과학 저널에까지 파급 (ibric.org)

 


[1] 워싱턴 포스트 In our eyes, Google’s software sees heart attack risk February 19
[2] Ryan Poplin, et al. “Prediction of cardiovascular risk factors from retinal fundus photographs via deep learning”, Nature Biomedical Engineering volume 2, pages158–164 (2018) doi:10.1038/s41551-018-0195-0
[3] Varun Gulshan, Lily Peng, Marc Coram, et al, “Development and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs” (December 13, 2016) JAMA. 2016;316(22):2402-2410. doi:10.1001/jama.2016.17216
[4] 구글 안과 전문의 수준의 의료 인공지능 발표 (최윤섭의 Healthcare Innovation)
[5] https://www.facebook.com/genetics001/posts/1578816375567326
[6] Mike Voets, Kajsa Møllersen, Lars Ailo Bongo, “Replication study: Development and validation of deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs”, arXiv:1803.04337 [cs.CV]
[7] 이코노미스트 Are research papers less accurate and truthful than in the past? Mar 17th 2018
[8] Daniele Fanelli, “Opinion: Is science really facing a reproducibility crisis, and do we need it to?”, PNAS published ahead of print March 12, 2018. https://doi.org/10.1073/pnas.1708272114
[9] 내 백과사전 [아툴 가완디의 칼텍 축사] 과학에 대한 불신 2016년 6월 19일