벤포드 법칙을 이용한 부정 적발

벤포드 법칙이라는 것을 들어본 일이 있을 것이다. 뭐 여기 방문하시는 분들은 대부분 아실 듯 하지만 일단 설명해보자면, 세상에 존재하는 많은 숫자 데이터들은 맨 첫자리수가 작을 수록 더 많이 등장한다는 법칙이다. 그러니까 왠지 얼핏 생각하기에는 세상에 각종 데이터들은 대충 고르게 분포하면 아무 숫자나 다 잘 나올 것 같지만, 1로 시작하는 데이터들이 훨씬 많다는 것이다. 예를 들어 세계 각 국가별 인구수를 나열해서 첫자리수의 빈도를 매겨보면 아래 좌측의 그래프가 된다고 한다.
20121215_FNC636
이 법칙을 이용해서 각종 회계 부정이나 가격 조작을 적발할 수가 있다고 하는데, 이에 관한 논문들이 이코노미스트지[1]에 소개되어 있어 그 기사를 링크한다.

사람이 조작하는 데이터는 자연 데이터에 비해 벤포드 법칙을 덜 따르게 되고, 이를 통해 통계적으로 조작이 의심이 되는 데이터들을 발견할 수 있는 모양이다.

일전에 리보 조작 사태[2]로 시끄러웠는데, 이 리보 데이터를 벤포드 법칙에 적용해서 조작이라는 것을 확인하는 연구도 있는 모양. 이런 연구는 진작좀 하지. ㅋㅋㅋ

그리고 위 우측 그래프에는 미군에 납품하는 생선 가격의 담합 전후의 가격 변화 그래프가 나와 있는데, 담합전과 후를 벤포드 법칙과 비교해서 확연한 차이를 얻을 수 있네 어쩌네 하는 논문도 소개되어 있다. 뭐 이런건 다 적발 전에 예측해야 가치 있는거 아닌가? ㅋ 위키피디아를 보니 요즘에는 첫째 자리만 보는게 아니라 둘째 이하의 자리 통계까지 내는 모양이니 나름 효과가 있는 듯 하다.

 


[1] 이코노미스트 The scam busters Dec 15th 2012
[2] 내 백과사전 리보 조작 사태 2012년 7월 20일

Advertisements

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중