로그-로지스틱 분포의 지니 계수 유도와 유튜브의 지니 계수

kornfrost 선생의 글[1]을 읽었는데, 흥미가 좀 생겨서 이리저리 검색을 해 봤다. ㅎㅎ 물론 본인은 경제학을 전혀 전공하지 않았으므로 이 내용은 틀릴 가능성이 있다. ㅋ

.


지니 계수를 추정하기 위해, 소득이 로그-로지스틱 분포를 이루고 있다는 가정을 하는데, 여러 확률분포중에 왜 이걸 가정하는 건지, 또 로그-로지스틱에서 어떻게 지니 계수를 도출할 수 있는지, 딱 봐도 여러모로 의문점이 많은 이야기가 아닐 수 없다.

일단 로그-로지스틱 분포는 생물학 등 여러 학문 분야에서 쓰이는 모양인데, 특히 경제학 쪽에서는 소득분포를 이렇게 가정한 모델링이 좀 먹힌다는 주장[2]을 최초로 한 사람이 Peter R. Fisk라는 경제학자라서 경제학 쪽에서는 ‘Fisk 분포’라는 이름으로 더 잘 알려진 듯 하다. 그러나 소득분포를 어떤 종류의 확률분포로 가정하는 것이 적절한가에 대한 연구는 꽤나 다양하게 이루어지는 듯 하다. 별도의 단행본[3]이 있을 정도다. 마찬가지로 불평등을 어떻게 수치화할 것인지에 대해서도 여러 연구가 있는 듯 한데, 그 중 지니 계수가 가장 유명하다. 사실 나는 이거 밖에 모른다-_-

여하간 소득이 로그-로지스틱 분포를 따른다는게 무슨 말인지 생각해보자.

가로축이 소득축이고 세로축이 전체인구당 그 소득의 비율인 이산적 함수가 있다면, 이것을 확률 밀도 함수로 만들기 위해 연속버전으로 바꿔치기 한다. 그러면 가로축이 소득축이 되고, 특정 소득 구간 [a, b]에서 이 함수의 적분을 계산하면 전체 인구중에 그 소득에 해당하는 사람의 비율이 된다. 물론 정의역 전체를 적분하면 1이 되어야 하므로 세로로 상수배만큼 rescaling을 한다. 이 확률밀도함수가 ‘로그-로지스틱’이라는 의미 같다. 맞는지 잘 모르겠음-_-

로그-로지스틱 확률 밀도 함수는 다음과 같다. 정의역은 0과 양의 실수다.

\displaystyle f(x; \alpha, \beta) = \frac{ (\beta/\alpha)(x/\alpha)^{\beta-1} } {\left( 1+(x/\alpha)^{\beta} \right)^2 }

여기서 중간값과 평균을 유도하고 싶은데, 적분하기 쉬운 함수라서 중간값은 쉽다. 누적 분포함수F(x)= {(x/\alpha)^\beta \over 1+(x/\alpha)^\beta} 이므로 그냥 x=\alpha일 때 1/2이다.

근데 평균을 유도하기가 쉽지 않았다. 위키피디아에는 평균이 \beta>1일 때 \frac{\alpha \pi / \beta}{\sin (\pi / \beta)}라고 나와 있는데, 이게 어떻게 나온건지 도통 알 길이 없어서 이리저리 계산을 좀 해봤다. 처음에는 residue 적분인가 싶어서 다 까먹은-_- 복소해석학책 열라게 뒤지느라 요 며칠 삽질을 좀 했다… 젠장-_-

평균을 계산하기 위해서는 다음 적분을 해야 한다.

\displaystyle \mathrm{E}(X) = \int_{0}^{\infty} \frac{x \cdot (\beta/\alpha)(x/\alpha)^{\beta-1} } { \left( 1+(x/\alpha)^{\beta}\right)^2 }dx …. (식1)

여기서 t = \frac{1}{1+(x/\alpha)^\beta}로 치환하면 (이 치환을 생각해내느라 힘들었다-_-)

\displaystyle  \begin{aligned} \mathrm{E}(X) & = \alpha \int_{1}^{0} x(-dt) \\ &= \alpha \int_{0}^{1} \left( \frac{1}{t} -1\right)^{1/\beta}dt \\ &= \alpha \int_{0}^{1} t^{-1/\beta}(1-t)^{1/\beta}dt \\ &= \alpha\mathrm{B}\left(1-\frac{1}{\beta}, 1+\frac{1}{\beta}\right)\end{aligned}

가 된다. 여기서 B는 Beta function이다. 참고로, 로그-로지스틱 분포의 k-th moment

\displaystyle \mathrm{E}(X^k) = \alpha^k\mathrm{B}\left(1-\frac{k}{\beta}, 1+\frac{k}{\beta}\right)

이라고 한다. 나는 k-th moment를 계산 안 해봤지만 ‘can be easily computed'[4]라고 하니 잘 치환하면 될 듯. ㅋㅋㅋ 여하간 1st-moment가 평균이므로 k=1을 대입하면 똑같아진다.

이 대목에서 위키피디아 Beta function 항목의 지혜를 빌려-_- beta function의 성질들 중에 이런 게 있다고 한다.

\displaystyle \mathrm{B}(x, y+1)=\mathrm{B}(x, y) \cdot \frac{y}{x+y}, \quad \mathrm{B}(x, 1-x)=\frac{\pi}{\sin (\pi x)}

이 identity를 이용하면

\displaystyle \mathrm{E}(X) = \frac{\alpha \pi / \beta}{\sin (\pi / \beta)} …. (식2)

를 얻는다. 아~ 힘들었다-_-

.


자 그럼 확률분포로부터 지니 계수는 어떻게 계산하는가? 이건 어느 사이트[5] Chapter 4에 설명이 엄청 잘 돼 있다.

지니 계수를 구하기 위해 일단 로렌츠 곡선을 구해야 한다. 이건 [0,1]x[0,1]에 놓인 곡선인데, 가로축이 전체 인구대비 하위 소득자 비율이고, 세로축은 전체 소득대비 그 비율에 해당하는 사람의 총 소득을 의미한다. 가로축 변수를 구하기 위한 하위 소득자 비율을 구하기 위해 확률 밀도 함수를 적분해야 한다. 즉, 누적 분포함수의 역함수를 먼저 계산하면, 하위 소득자 비율 p에 대한 확률 분포 함수의 위치 z가 산출되고, 총 소득 대비 거기까지 소득의 비율 y를 구한다. 즉, \mu가 평균이라면,

\displaystyle p=F(z)=\int_{0}^{z} f(t) dt, \quad L(p)=\frac{1}{\mu} \int_{0}^{z} t f(t) d t

를 계산해야 한다. 사실 rescaling을 했으므로 \mu 자체가 총 소득과 동일한 값은 아닌데, 어차피 rescaling 상수는 분자에서도 존재해서 서로 약분되니까 L(p)의 값은 정확하게 나온다. 따라서 이 L(p)함수의 그래프가 로렌츠 곡선이 된다. 그러면 지니계수 G는 직각이등변삼각형의 넓이에서 로렌츠 곡선 아래쪽 적분값을 뺀 후 두 배해야 한다. 여기서 부분적분치환적분 p=F(z)을 대충 써먹으면-_-

\displaystyle \begin{aligned} G &=1-2 \int_{0}^{1} L(p) dp \\ &=1-2 \left[p L(p)\right]_{0}^{1}+2 \int_{0}^{1} p L^{\prime}(p) dp \\ &= -1+2 \int_{0}^{1} p L^{\prime}(p) dp \\ &= \frac{2}{\mu} \int_{X} z F(z) f(z) dz-1\end{aligned}

이렇게 계산돼야 할 것이다. 여기서 집합 X는 확률 밀도 함수의 정의역이다. 이 대목에서 로그-로지스틱 함수를 대입하면

\displaystyle \begin{aligned} G &= \frac{2}{\mu} \int_{0}^{\infty}z\cdot \frac{(z/\alpha)^\beta}{1+(z/\alpha)^\beta} \cdot \frac{(\beta / \alpha)(z / \alpha)^{\beta-1}}{\left(1+(z / \alpha)^{\beta}\right)^{2}} dz -1 \\ & = \frac{2}{\mu} \int_{0}^{\infty} \frac{\beta (z/\alpha)^{2\beta}}{(1+(z/\alpha)^\beta )^3} dz -1\end{aligned}

여기서 (식1)과 동일한 방법으로 치환하면

\displaystyle \begin{aligned} G &= \frac{2\alpha}{\mu} \int_{1}^{0} t\cdot \left(\frac{1-t}{t}\right)^{1+1/\beta} (-dt) -1 \\ & =  \frac{2\alpha}{\mu} \mathrm{B}\left(1-\frac{1}{\beta}, 2+\frac{1}{\beta}\right) -1\\ & = \frac{2\alpha}{\mu} \mathrm{B}\left(1-\frac{1}{\beta}, 1+\frac{1}{\beta}\right) \cdot \left( \frac{1+1/\beta}{2}\right) -1 \\ & = 2\cdot \left( \frac{1+1/\beta}{2}\right)-1 \\ & = \frac{1}{\beta} \end{aligned}

이 될 듯 하다. 세 번째 줄에서 네 번째 줄로 넘어갈 때 (식2)를 써먹었다. 계산 맞는지 모르겠구만-_- 사실 이 계산이 안 맞아서 삽질을 몇 번이나 했는지 모르겠다. ㅎㅎㅎ

결국 그래서 beta의 역수가 지니계수가 됨을 알 수 있다.

.


자 이제 뉴스1 기사[6]로부터 유튜브 수익 분포의 지니 계수를 추정해보자. 로그-로지스틱 분포의 중간값이 alpha이므로 alpha=150만원이다. 또한 크리에이터의 평균소득은 536만원이므로 (식2)의 inverse값을 계산해서 1/beta를 알아내야 한다. maple의 fsolve 함수를 이용하면, 방정식 150x/sin(x)=536의 근은 근사적으로 2.403751942정도가 되고 이 값을 원주율로 나누어, 유튜브 소득의 지니계수는 0.7651380069정도를 얻는다. 위키피디아의 Gini coefficient 항목에 따르면 세계에서 가장 불평등한 국가들의 수준이 0.6대 정도라고 한다. ㅎㅎㅎ

근데 내가 보기에는 지니 계수가 이거보다 더 나올 듯 하다. Stuttgart 응용과학 기술대학 소속의 Mathias Bärtl 선생의 연구[7,8]에 의하면, 상위 3% 채널이 전체 뷰의 90%-_-를 먹는다고 한다. 과일가게에서 과일 하나만 사먹어도 제일 좋은 걸로 골라 먹으려하듯이, 사실 완전 경쟁시장에서는 1등에 모두 몰릴 수 밖에 없으니, 지니 계수가 1에 근접할 수 밖에 없다. 미국에서는 요새 얼라들의 가장 핫한 장래희망이 유튜버라는데[9], 생각좀 다시 해봐라고 해야할 듯-_-

.


[1] 유튜브 수익성 (kornfrost.wordpress.com)
[2] Fisk, P.R. (1961), “The Graduation of Income Distributions”, Econometrica, 29 (2): 171–185, doi:10.2307/1909287
[3] Kleiber, C.; Kotz, S (2003), Statistical Size Distributions in Economics and Actuarial Sciences, Wiley, ISBN 978-0-471-15064-0
[4] Ahsanullah, M & Alzaatreh, A. (2018). Parameter estimation for the log-logistic distribution based on order statistics. Revstat Statistical Journal. 16. 429-443.
[5] The econometrics of inequality and poverty measurement (vcharite.univ-mrs.fr)
[6] 뉴스1 “유튜브 뛰어드니”…월급 295만→536만원 ‘껑충’ vs 소득 ‘극과 극’ 2019-08-09 06:30
[7] Bärtl, M. (2018). YouTube channels, uploads and views: A statistical analysis of the past 10 years. Convergence, 24(1), 16–32. https://doi.org/10.1177/1354856517736979
[8] 워싱턴포스트 Why almost no one is making a living on YouTube March 2, 2018
[9] 비지니스 인사이더 American kids want to be famous on YouTube, and kids in China want to go to space: survey Jul. 17, 2019, 12:18 PM

아프리카의 수학자 양성

이코노미스트지에 아프리카에서 수학자 양성활동 대한 기사[1]가 실려 있어서 포스팅해봄.

남아프리카 공화국에 소재하는 African Institute of Mathematical Science(AIMS)가 비교적 주도적인 역할을 하고 있는 것 같다. 위키피디아를 보니 2003년에 설립되었다니 나름 꽤 역사가 있는 듯? 2003년 남아공에 최초의 캠퍼스가 세워진 이래로 세네갈, 가나, 카메룬, 탄자니아, 르완다에도 캠퍼스가 설립되어 있다고 한다.

아프리카 쪽에서는 정부가 주도하기 보다는 비영리 민간 기관이 수학자를 양성하는 데 기여를 하는 듯 하다. 뭐 정부가 개판인 국가들이 워낙 많으니 이해할만 하다-_- 가나에 구글이 설립한 AI 연구센터가 있는 줄 처음 알았네. 헐. 한국에는 아직 구글 AI 연구소가 없는 걸로 알고 있다.

르완다의 수도 Kigali에는 구글과 AIMS가 펀딩하여 Quantum Leap Africa라는 인공지능 연구센터가 있다고 한다. 말 그대로 퀀텀점프 하려는 듯 ㅎㅎㅎ

이런 기관들 덕분에 능력은 있지만 진학을 하지 못한 몇몇 사람들이 학위를 따는데 기회를 얻은 모양이다. 아직까지는 학계에서 존재감이 미미하지만 나중에는 명성을 날리는 학자도 한두명 등장할지도 모를 일이다.

.


[1] 이코노미스트 How Africa can encourage home-grown maths boffins Aug 8th 2019

마일/킬로미터 변환의 수학적(?) 방법

해커 뉴스[1]에서 재미있는 이야기를 들었다.

미국은 아직까지도 세계와 도량형 통일이 안 되는 전근대적 시스템을 가지고 있는 국가 중 하나인데, 도량형의 착오로 인해 화성탐사선 Mars Climate Orbiter를 날려먹은 사고[2;p51]는 유명하다. ㅎㅎ

여하간, 마일을 킬로미터로 바꾸기 위해서는 대략 1.609를 곱해야 하는데, 이 상수가 황금비에 비교적 가깝다. 아시다시피 피보나치 수열에서 인접한 두 항의 비는 황금비에 수렴하기 때문에, 마일에 해당하는 피보나치 수는 그 다음항을 찾으면 대략적인 킬로미터가 된다. 근데 피보나치 수열에 없는 거리를 변환해야 할 때는 써먹을 수 없는 단점이 있다.

해커 뉴스[1]의 어떤 프로그래머는 2배를 암산하는 것이 빠르기 때문에, 2배를 네 번 연속으로 해서(16배가 된다) 10으로 나누면 1.6을 곱한 결과가 된다는 이야기를 하던데, 이 쪽이 더 합리적인 듯. 이거말고 절반과 1/10을 더해서 구한다는 사람도 있었다. 다들 어떻게 그렇게 암산을 잘 하지-_-? 나는 무조건 계산기다. ㅋㅋㅋ

별거 아니긴 한데, 나름 귀여운(?) 방법이라 한 번 써 봄. ㅎ

.


[1] A mathematician’s way of converting miles to kilometers (hacker news)
[2] 내 백과사전 [서평] 역사 속의 소프트웨어 오류 – 부실한 소프트웨어가 초래한 위험천만한 사건 사고들 2019년 5월 28일

음악 추천 알고리즘 : Hierarchical Poincaré Embeddings

해커 뉴스[1]에서 Hierarchical Poincaré Embeddings를 이용하여 음악 추천을 하는 이야기를 봤는데, 뭔 소리인지는 잘 모르겠지만-_- 기록차 남겨둠. 나는 이렇게 이해했는데, 아무래도 이 포스트는 오류를 포함하고 있을 가능성이 매우 높다. ㅋㅋ

일전에 Matrix factorization 이야기[2]를 했는데, 뭐 잘 모르지만 꽤나 광범위하게 쓰이는 추천 알고리즘 같다.

기계 학습을 시킬 때 학습대상의 특징을 뽑아내서 분류하고 학습하는 방식을 많이 쓰는 모양인데, 이 때 neighbor를 판정하는 방법으로 그냥 Euclidean space를 많이 쓰는 듯 하다. Matrix factorization도 오류 판정을 root mean squared를 일반적으로 쓰는 듯 한데, 이것도 일종의 Euclidean이라 봐야 할 듯 하다.

그런데 페이스북 소속 연구원 2명이 계층적 구조를 가진 데이터를 학습할 때 Euclidean 대신 Poincaré ball을 쓰면 더 나은 결과가 될 듯 하다는 주장을 하는 듯한-_- 글[3]을 대충 봤다. 아무래도 실제 회사들의 데이터들에서는 Zipf’s law처럼 값들이 한쪽에 쏠려있는 경우도 많으니까 그런 듯?

iHeartRadio라는 인터넷 라디오 방송 플랫폼이 있다고 한다. 나는 처음 들었는데 나름 꽤 큰 회사인 듯? 이 iHeartRadio 소속 4명의 연구원들이 Poincaré ball이 낫다는 주장[3]을 보고, 음악 추천에 시험해 본 듯 하다.[4] 음악의 메타데이터가 ‘장르-아티스트-곡명’ 과 같은 계층적 데이터라서 적용가능한 듯?

예를 들어 Matrix factorization으로 추천 목록을 만들면

The Shins – September
Lilly Hiatt – Jesus Would’ve Let Me Pick
METRIK – We Got It
Matrix & Futurebound – Magnetic Eyes
Dads – Dads (feat. Berried Alive & Lucas Mann)
Ugly Casanova – Spilled Milk Factory
Cursive – Ouroboros
Reggie and the Full Effect – Your Girlfriends
Hey Mercedes – What You’re Up Against
The Blood Brothers – Laser Life

와 같은 곡들이 추천되고, Poincaré 모델로 추천하면

The Strokes – Taken for a Fool
Arctic Monkeys – Brianstorm
The Strokes – 12:51
The Fratellis – Tell Me A Lie
Kings of Leon – Crawl
The Strokes – Is This It
Franz Ferdinand – Ulysses
Cage the Elephant – Shake Me Down (Unpeeled)
Death Cab for Cutie – Stay Young, Go Dancing
Kings of Leon – Notion

와 같은 곡들이 추천된다고 한다. 딱 봐도 완전 판이한 결과가 나온다. 근데 아는 아티스트가 하나도 없네-_- 요새는 맨날 아이돌 마스터 음악만 들어서…-_-

여하간 iHeartRadio에서는 사용자를 두 그룹으로 나누어 한 쪽은 푸앵카레 모델에 기반한 음악을 추천하고(treatment 그룹), 다른 한 쪽은 기존의 행렬 인수분해 기법에 기반한 음악을 추천하였더니(control 그룹), 평균 음악을 듣는 시간이 다음과 같게 나왔다고 한다.[4;p5]

헐.. 여러모로 월등히 우월하네. 현재 iHeartRadio에서는 푸앵카레 모델에 기반하여 디폴트 플레이리스트 생성기가 작동된다고 한다.

Matrix factorization을 이용한 학습 추천 시스템이 나름 꽤 널리 쓰인다고 들었는데, 산업의 종류에 따라서는 Poincaré model로 학습해서 추천하는 걸로 빠르게 바뀌지 않을까 싶은 생각도 든다. ㅎㅎ

.


[1] Music Recommendations in Hyperbolic Space (hacker news)
[2] 내 백과사전 영화 추천 알고리즘 : Matrix factorization 2019년 8월 4일
[3] “Poincaré Embeddings for Learning Hierarchical Representations”, Maximilian Nickel, Douwe Kiela arXiv:1705.08039 [cs.AI]
[4] “Music Recommendations in Hyperbolic Space: An Application of Empirical Bayes and Hierarchical Poincaré Embeddings”, Tim Schmeier, Sam Garrett, Joseph Chisari, Brett Vintch arXiv:1907.12378 [cs.IR]

영화 추천 알고리즘 : Matrix factorization

어쩌다보니 쓸데없이 Matrix factorization이라는 추천 알고리즘을 알게 됐는데, 내용이 조금 재미있어서 대충 글 써봄. 아마 넷플릭스가 이에 기반한 추천 시스템을 사용하는 듯 하다.

이를 상당히 잘 설명하는 어느 친절한 분들의 글들[1~6]이 있으니, 이를 보는 것을 권함.

타인이 좋아할만한 컨텐츠를 예측하는 것은 광고 효율성이나 매출 증진에 영향을 주므로 중요하다. 모르긴해도 Matrix factorization이 Netflix Prize에서 3위에 랭크된 이래로 대단히 널리 퍼져서 쓰이는 모양이다.

기본 아이디어는, 가로 행이 개별 유저가 영화에 준 평점이고, 세로 열이 영화별로 사람들에게 받은 평점인 거대한 matrix가 있다고 한다면, 이 matrix의 rank가 낮다고 가정하는 것이다. 음… 아무래도 비슷한 장르를 좋아하는 집단의 소속 멤버 끼리는 그 그룹에서 높게 평가한 다른 작품도 좋아할 듯 하니, 합리적으로 보인다. 여기서 matrix에서 비어있는 항목(즉, 아직 보지 않은 영화의 평점)을 예측하기 위해, matrix가 여러가지 방법(주로 singular value decomposition이 쓰이는 듯?)으로 분해된다면, 그 곱한 결과를 원래 matrix랑 에러(mean square가 주로 쓰이는 듯?)가 가장 적은 방향으로 때려 맞춰서, 원래 matrix의 비어있는 항목을 추정하는 방식 같다. 일전에 이야기한 Eigenface[7]와 뭔가 유사해 보인다.

비교적 단순해 보이는 방법인데, 의외로 성능이 무척 좋다고 한다.[3] 신박하구만. 사람의 선호가 꽤 다양해보여도 실제로는 그다지 그렇지도 않은 듯. ㅎㅎ

.


[1] 인터넷 속의 수학 – How Does Netflix Recommend Movies? (1/2) (sanghyukchun.github.io)
[2] 인터넷 속의 수학 – How Does Netflix Recommend Movies? (2/2) (sanghyukchun.github.io)
[3] Machine Learning 스터디 (17) Recommendation System (Matrix Completion) (sanghyukchun.github.io)
[4] Matrix Factorization _ Part 1 (worthpreading.tistory.com)
[5] Matrix Factorization _ Part 2 (worthpreading.tistory.com)
[6] Matrix Factorization _ Part3 (worthpreading.tistory.com)
[7] 내 백과사전 얼굴을 벡터로 만들다 : Eigenface 2013년 9월 30일

73은 유일한 쉘든 소수다

해커 뉴스[1]에서 일전에 이야기한[2] 페르마 도서관에 올라온 쉘든 소수에 관한 글[3]이 나와 있어서 좀 읽어봤다. 근데 와 은근 빡시네-_-

일단 빅뱅 이론이라는 시트콤이 뭔지 알아야 되는데, 뭐 여기 방문하시는 분들은 대부분 본 적이 있을 듯. 73번째 에피소드에 이런 내용이 있다. 재생시간 1분 50초

쉘든은 73이 21번째 소수이고 37은 12번째 소수이고, 7×3=21 등등의 성질을 이야기하는데, 이에 영감을 받아서 Byrnes 등은 이런 성질의 소수가 또 있는지에 대한 언급[4]을 하는 내용이다. 좀 더 뽀대나게 설명해보면,

n번째 소수를 p(n)이라 쓰고, 십진법으로 자리를 뒤집는 operator를 m(n)이라 쓰자. m(p(n))=p(m(n))을 만족하는 소수 p(n)은 거울성질(mirror property)을 가지고 있다고 정의하고, 십진법으로 자리수의 곱을 Π(n)이라 표기하면 Π(p(n))=n이 되는 소수 p(n)은 곱성질(product property)을 가지고 있다고 정의하자. 거울성질과 곱성질을 모두 가진 소수를 쉘든 소수라 하자. 쉘든 소수는 73이외에 더 있는가?

2015년에 제시되었으니 몇 년 된 추측인데, 딱 보자마자 직관적으로 성질을 만족하는 수가 별로 없을 듯해 보인다. 일전에 뒤집어 처음의 배수가 되는 이야기[5]도 했지만, 이런 교묘한 성질은 자리수가 늘어나면 늘어날수록, 조건을 만족하는 가능한 경우의 수가 급속히 줄어들 것이다.

근데 내 생각대로 얼마전에 그 증명[6]이 제시된 것 같다. 근데 위키피디아의 73 항목monthly에 있다고 나와 있는데, 실제로 monthly의 출판 목록[9]을 확인해보면, 앞뒤로 찾아봐도 이 기사[6]가 없다. 아놔… 이유는 모르겠음. 여하간 대충 그 내용을 봤는데, 뜬금없이 다음과 같은 부등식으로 시작한다.

17보다 큰 모든 x에 대하여 \displaystyle \pi(x) > \frac{x}{\log x}이 성립한다.

음?? 충분히 큰 수에 대해서는 성립하는줄 아는데, 17부터 부등식이 성립하는지 어떻게 알았지??? 물론 여기서 π는 prime counting function이다. 원문[6]에는 Rosser & Schoenfeld[7]를 보라고 돼 있던데, 직접보니, 큰 수들은 bound를 이용하고 작은 수들은 컴퓨터를 이용하여 직접 확인한 것 같다. 참고로 Rosser & Schoenfeld[7]의 앞부분에는 integration by part를 이용하여 오차항을 줄이는 재미있는 테크닉이 소개되어 있는데, 일전에 이야기한 내용[8]과 유사하다. ㅎㅎㅎ 어쨌든 이 부등식을 이용하여, 자리수에 9자가 많다고 가정해도 거울성질을 가진 소수는 1045를 넘을 수 없다는 것을 보인다.

일단 컴퓨터로 10억정도까지는 쉽게 커버가 가능하지만, 컴퓨터로도 1045은 좀 빡센 범위다. 이 정도 자리수의 모든 소수를 쉽게 슥슥 다루기는 쉽지 않다. PNT 등으로, 알려진 큰 소수들의 bound를 이용하여 n번째 소수의 범위를 좁히면 앞쪽의 열몇 자리 정도의 숫자가 결정된다. 10억 이상의 쉘든 소수가 존재한다면 만족해야 하는 여러가지 조건들을 이용하여 후보를 좁히는 것 같다. 그 뒤로 열라 재미없는-_- 계산노가다 이후 컴퓨터로 커버하여 확인한 것 같다.

여하간 그래서 쉘든 소수는 73밖에 없다는 거. 근데 개인적으로는 5318008이 최고라는 Raj의 의견에 동의함-_- ㅋㅋㅋㅋㅋ

.


[1] The Sheldon Conjecture (hacker news)
[2] 내 백과사전 새로 생긴 수학 사이트 두 개 2015년 9월 16일
[3] the Sheldon Conjecture (fermatslibrary.com)
[4] Byrnes, J., Spicer, C., Turnquist, A. (2015). The Sheldon conjecture. Math Horizons. 23(2): 12–15. doi:10.4169/mathhorizons.23.2.12
[5] 내 백과사전 거꾸로 뒤집어 처음의 배수가 되는 수 2011년 10월 30일
[6] Pomerance, Carl; Spicer, Chris (April 2019). “Proof of the Sheldon conjecture”. Amer. Math. Monthly.
[7] Rosser, J. B., Schoenfeld, L. (1962). Approximate formulas for some functions of prime numbers. Illinois J. Math. 6: 64–94.
[8] 내 백과사전 Euler–Maclaurin formula를 이용한 오차항 줄이기 2011년 1월 9일
[9] The American Mathematical Monthly (tandfonline.com)

영국의 새 50파운드 지폐에 튜링이 들어갈 예정

일전에 튜링 탄생 100주년을 맞아, 케임브리지 대학의 Grime 선생이 새롭게 제조될 10파운드 디자인에 튜링 초상화를 넣자는 캠페인을 한 적[1]이 있는데, 결국 제인 오스틴으로 결정되면서 불발된 적이 있었다.

오늘 해커뉴스[2]를 보니 새롭게 제조될 50파운드 지폐에는 튜링 선생의 초상화가 들어갈 예정이라고 한다.[3] 오오 Grime 선생이 좋아하실 듯. ㅎㅎㅎ Rosalind Franklin, Stephen Hawking, Ada Lovelace도 최종 후보에 있었다고 한다. 근데 세계 지폐들 도안을 대충보면 인물이 들어가지 않은 나라도 많던데, 인물을 꼭 넣어야 하나 싶기도 하다. ㅎ

신형 10파운드 지폐가 종이가 아닌 폴리머로 만든 지폐라서, 구겨지거나 물속에 넣어도 별 이상이 없을 정도로 내구성이 뛰어나다는 걸 보여주는 동영상을 본 적이 있는데, 출처가 도통 생각이 안나네. 아 이럴 때 좀 답답하다.

50파운드면 대량 6~7만원 정도 될 듯. 일전에 구한 오일러 선생의 10스위스 프랑 구권 지폐[4]와 가우스 선생이 그려진 10마르크 구권 지폐는 아직도 가지고 있다. 나중에 신형 50파운드 지폐도 한 장 구해봐야겠다.

예전에 인도에서 공무원 부패가 하도 심각해서, 경각심을 일깨우기 위해 시민운동으로 0 루피 지폐를 사용하는 시도가 있었다고 한다. 위키피디아에 따르면 250만장 이상이 유통된 듯. ㅎㅎㅎ 0원 지폐를 만들면 위조지폐인건가 아닌건가-_-

.


2019.9.2
Alan Turing to be the face of new £50 note (bankofengland.co.uk)

.


[1] 내 백과사전 튜링을 10파운드에 넣기 캠페인 2012년 6월 19일
[2] Alan Turing to feature on new £50 note (hacker news)
[3] BBC New face of the Bank of England’s £50 note is revealed 1 hour ago
[4] 내 백과사전 10 스위스 프랑 2010년 5월 3일

Serge Lang 선생의 에이즈 부정론

본인이 알기로 현대 언어학에서 한국어와 일본어는 다른 어족이라는 것이 거의 정설이라고 들은 적이 있는데, 지금 위키피디아의 Comparison of Japanese and Korean 항목을 확인해보니, 역시나 한국어와 일본어는 다른 language family라고 나와 있다.

예전에 페이스북에서 어느 물리학과 교수가 한국어와 일본어가 다른 어족이라는 걸 도저히 믿을 수 없다면서 난리를 치길래, 다른 어족인 이유를 댓글로 설명해주려는 언어학과 교수로 추정되는 인물이 등장하니, 그를 격렬하게 비난하는 장면을 본 적이 있었다. 음… 자기 전공 밖의 분야에서 주류 학설을 부정하려면 그래도 겸손하게 행동하는게 좋지 않을까하는 생각이 좀 들었는데, 여하간 Atiyah 선생처럼[1] 제 아무리 똘똘한 사람이라도 말년에는 흑화(?)될 가능성이 있다는 걸 다시 한 번 확인하게 됐다고나 할까. ㅎㅎㅎㅎ

오늘 Scott Aaronson 선생의 블로그 글[2]을 읽다보니 Serge Lang 선생이 HIV 바이러스와 AIDS의 관련성을 부정했다는 주장이 살짝 언급돼 있는 걸 봤다. 헐!?!?!? 이거 진짠가 싶어서 위키피디아를 보니 역시나 이에 관해 언급이 돼 있었다. Serge Lang 하면 수학 교과서 많이 쓴 수학자-_-로, 사용법이 101가지나 된다[3]는 그 엄청난 대수학책[4]을 쓰신 분이다.ㅋㅋ 그 명성은 익히 들어 알고 있는데, 말년에 흑화된 줄은 처음 알았네-_- 와, 진짜 놀랬다.

참고로 에이즈를 추적하는 역사에 관해서는 콰먼 선생의 책[5] 뒷부분에 꽤 자세히 나와 있는데, 이 책[5]은 꽤 재미있으니 일독을 권한다. 에이즈에 관한 연구들이 고스톱쳐서 거져 나온게 아니라는 걸 알 수 있다. 지구가 자석이라는 사실은 간단해 보이지만, 누군가 목숨을 걸고 극지방에 가서 측정을 하는 수고를 해야하듯이[6], 쉽게 얻어지는 과학적 사실은 없다고 생각한다. 알려진 학설들에 대해서는 좀 겸손해질 필요가 있을 듯.

.


[1] 내 백과사전 Atiyah 선생의 리만 가설 증명? 2018년 9월 21일
[2] On two blog posts of Jerry Coyne (scottaaronson.com)
[3] 내 백과사전 랑의 대수학책을 사용하는 101가지 방법 2011년 11월 9일
[4] Serge Lang, Algebra, 3rd Edition, Springer, Graduate Texts in Mathematics 211
[5] 내 백과사전 [서평] 인수공통 모든 전염병의 열쇠 2018년 11월 26일
[6] 내 백과사전 [서평] 얼음의 제국 – 그들은 왜 남극으로 갔나 2018년 3월 17일

통계를 이용하여 온라인 축구 도박으로 돈 벌기

kornfrost 선생께서 재미있는 논문[1]을 소개[2]하시길래 함 포스팅해봄. ㅎㅎㅎ

개인적으로 스포츠에 대해서는 완전 무식하지만, 마이클 선생의 유명한 머니볼 같은 책도 있듯이, 스포츠에 통계학적 접근이 유효하다는 사실이 신박하다. 승패를 결정짓는 엄청나게 복잡하고 많은 요소들이 어떻게 그렇게 단순하게 도출되는지 의아해진다.

예전에 SMBC에서 본 재밌는 웹툰[3]이 생각나는데, 수학을 공부한 대부분의 현명한 사람은 복권이나 카지노를 하지 않는다. (물리학자들은 다른 이유[4] 때문에-_- 카지노를 하지 않는다. ㅋㅋㅋㅋ) 근데 수학에 무지한 사람들과 매우 똑똑한 사람들은 복권과 카지노를 한다. ㅎㅎㅎ 일전에 엘렌버그 선생의 책[5]에서 복권의 기대값의 불균형을 이용하여 돈을 버는 재미있는 이야기가 생각나는구만. ㅋㅋ

논문[1]을 대충 봤는데, 특정 두 팀이 축구할 때 어느 쪽이 이길지를 직접 모델링을 구축해서 예측한게 아니라, 열라게 많은 토토사이트들에서 제시하는 배당율 과거 백데이터의 단순평균-_-을 기준으로, 지나치게 편차가 크게 배당되는 시합에 베팅을 했던 모양이다. 도박사이트들이 손님들의 베팅을 유도하기 위해 배당을 비정상적으로 조율하는 경우가 있는 모양인데, 그걸 역이용한 것 같다. 사실 본인은 토토 등을 해 본적이 없어서 어떻게 돌아가는지는 잘 모르겠음.

2005년 1월부터 2015년 6월까지 과거 10년치의 479,440 게임의 백데이터를 이용했다고 하는데, 이걸 어떻게 구한 건지는 잘 모르겠다. 도박사이트에서 이렇게 장기 백데이터를 제공하다니 엄청 친절하구만-_-

나름 승률은 좋았던 모양인데, 도박 사이트에서 돈을 잘 안 주려고 했던 모양. 예전에 소프 선생이 카지노에서 너무 큰 돈을 벌다가 죽을 뻔-_-하고, 수학적 투자이론을 카지노에서 주식으로 옮겼다는 이야기[6]가 생각난다.

논문[1]의 챕터 앞부분에 손자병법을 인용하는데, 다음 네 구절이 나와 있다.

“In the midst of chaos, there is also opportunity.”
“Who wishes to fight must first count the cost.” 
“Victorious warriors win first and then go to war … The greatest victory is that which requires no battle.” 
“One may know how to conquer without being able to do it.”

근데 세 번째 구절 빼고는 나머지는 어디를 인용한 건지 모르겠다. 세 번재 구절은 손자병법 13편 중에 3편 전략편[7]에 나오는 다음 구절이다. 그런데 그조차도 앞뒤가 바뀌어 있는 것 같다.

全軍爲上, 破軍次之(적군을 온전히 두고서 굴복시키는 것이 최상책이며, 전쟁을 일으켜 적군을 깨부수고 굴복시키는 것은 차선책이다.) … 故善用兵者, 屈人之兵而非戰山(그러므로 전쟁을 잘 아는 장수는 싸우지 않고도 적군을 굴복시키며) …

.


2019.9.9

ㅋㅋㅋㅋ

.


[1] Beating the bookies with their own numbers – and how the online sports betting market is rigged, Lisandro Kaunitz, Shenjun Zhong, Javier Kreiner, arXiv:1710.02824 [stat.AP]
[2] Beating the bookies with their own numbers – and how the online sports betting market is rigged (Kaunitz, Zhong, Kreiner 2017) (kornfrost.wordpress.com)
[3] 내 백과사전 일반인, 수학팬, 수학자의 차이 2013년 10월 11일
[4] 내 백과사전 4000명의 물리학자가 라스 베가스를 방문했을 때 2018년 3월 6일
[5] 내 백과사전 [서평] 틀리지 않는 법 – 수학적 사고의 힘 2016년 8월 13일
[6] 내 백과사전 [서평] 헤지펀드 시장의 마법사들 2017년 9월 22일
[7] 손자병법, 손무 저, 유동환 역, 홍익출판사, 초판 제1쇄 인쇄 1999년 5월 25일