로그-로지스틱 분포의 지니 계수 유도와 유튜브의 지니 계수

kornfrost 선생의 글[1]을 읽었는데, 흥미가 좀 생겨서 이리저리 검색을 해 봤다. ㅎㅎ 물론 본인은 경제학을 전혀 전공하지 않았으므로 이 내용은 틀릴 가능성이 있다. ㅋ

.


지니 계수를 추정하기 위해, 소득이 로그-로지스틱 분포를 이루고 있다는 가정을 하는데, 여러 확률분포중에 왜 이걸 가정하는 건지, 또 로그-로지스틱에서 어떻게 지니 계수를 도출할 수 있는지, 딱 봐도 여러모로 의문점이 많은 이야기가 아닐 수 없다.

일단 로그-로지스틱 분포는 생물학 등 여러 학문 분야에서 쓰이는 모양인데, 특히 경제학 쪽에서는 소득분포를 이렇게 가정한 모델링이 좀 먹힌다는 주장[2]을 최초로 한 사람이 Peter R. Fisk라는 경제학자라서 경제학 쪽에서는 ‘Fisk 분포’라는 이름으로 더 잘 알려진 듯 하다. 그러나 소득분포를 어떤 종류의 확률분포로 가정하는 것이 적절한가에 대한 연구는 꽤나 다양하게 이루어지는 듯 하다. 별도의 단행본[3]이 있을 정도다. 마찬가지로 불평등을 어떻게 수치화할 것인지에 대해서도 여러 연구가 있는 듯 한데, 그 중 지니 계수가 가장 유명하다. 사실 나는 이거 밖에 모른다-_-

여하간 소득이 로그-로지스틱 분포를 따른다는게 무슨 말인지 생각해보자.

가로축이 소득축이고 세로축이 전체인구당 그 소득의 비율인 이산적 함수가 있다면, 이것을 확률 밀도 함수로 만들기 위해 연속버전으로 바꿔치기 한다. 그러면 가로축이 소득축이 되고, 특정 소득 구간 [a, b]에서 이 함수의 적분을 계산하면 전체 인구중에 그 소득에 해당하는 사람의 비율이 된다. 물론 정의역 전체를 적분하면 1이 되어야 하므로 세로로 상수배만큼 rescaling을 한다. 이 확률밀도함수가 ‘로그-로지스틱’이라는 의미 같다. 맞는지 잘 모르겠음-_-

로그-로지스틱 확률 밀도 함수는 다음과 같다. 정의역은 0과 양의 실수다.

\displaystyle f(x; \alpha, \beta) = \frac{ (\beta/\alpha)(x/\alpha)^{\beta-1} } {\left( 1+(x/\alpha)^{\beta} \right)^2 }

여기서 중간값과 평균을 유도하고 싶은데, 적분하기 쉬운 함수라서 중간값은 쉽다. 누적 분포함수F(x)= {(x/\alpha)^\beta \over 1+(x/\alpha)^\beta} 이므로 그냥 x=\alpha일 때 1/2이다.

근데 평균을 유도하기가 쉽지 않았다. 위키피디아에는 평균이 \beta>1일 때 \frac{\alpha \pi / \beta}{\sin (\pi / \beta)}라고 나와 있는데, 이게 어떻게 나온건지 도통 알 길이 없어서 이리저리 계산을 좀 해봤다. 처음에는 residue 적분인가 싶어서 다 까먹은-_- 복소해석학책 열라게 뒤지느라 요 며칠 삽질을 좀 했다… 젠장-_-

평균을 계산하기 위해서는 다음 적분을 해야 한다.

\displaystyle \mathrm{E}(X) = \int_{0}^{\infty} \frac{x \cdot (\beta/\alpha)(x/\alpha)^{\beta-1} } { \left( 1+(x/\alpha)^{\beta}\right)^2 }dx …. (식1)

여기서 t = \frac{1}{1+(x/\alpha)^\beta}로 치환하면 (이 치환을 생각해내느라 힘들었다-_-)

\displaystyle  \begin{aligned} \mathrm{E}(X) & = \alpha \int_{1}^{0} x(-dt) \\ &= \alpha \int_{0}^{1} \left( \frac{1}{t} -1\right)^{1/\beta}dt \\ &= \alpha \int_{0}^{1} t^{-1/\beta}(1-t)^{1/\beta}dt \\ &= \alpha\mathrm{B}\left(1-\frac{1}{\beta}, 1+\frac{1}{\beta}\right)\end{aligned}

가 된다. 여기서 B는 Beta function이다. 참고로, 로그-로지스틱 분포의 k-th moment

\displaystyle \mathrm{E}(X^k) = \alpha^k\mathrm{B}\left(1-\frac{k}{\beta}, 1+\frac{k}{\beta}\right)

이라고 한다. 나는 k-th moment를 계산 안 해봤지만 ‘can be easily computed'[4]라고 하니 잘 치환하면 될 듯. ㅋㅋㅋ 여하간 1st-moment가 평균이므로 k=1을 대입하면 똑같아진다.

이 대목에서 위키피디아 Beta function 항목의 지혜를 빌려-_- beta function의 성질들 중에 이런 게 있다고 한다.

\displaystyle \mathrm{B}(x, y+1)=\mathrm{B}(x, y) \cdot \frac{y}{x+y}, \quad \mathrm{B}(x, 1-x)=\frac{\pi}{\sin (\pi x)}

이 identity를 이용하면

\displaystyle \mathrm{E}(X) = \frac{\alpha \pi / \beta}{\sin (\pi / \beta)} …. (식2)

를 얻는다. 아~ 힘들었다-_-

.


자 그럼 확률분포로부터 지니 계수는 어떻게 계산하는가? 이건 어느 사이트[5] Chapter 4에 설명이 엄청 잘 돼 있다.

지니 계수를 구하기 위해 일단 로렌츠 곡선을 구해야 한다. 이건 [0,1]x[0,1]에 놓인 곡선인데, 가로축이 전체 인구대비 하위 소득자 비율이고, 세로축은 전체 소득대비 그 비율에 해당하는 사람의 총 소득을 의미한다. 가로축 변수를 구하기 위한 하위 소득자 비율을 구하기 위해 확률 밀도 함수를 적분해야 한다. 즉, 누적 분포함수의 역함수를 먼저 계산하면, 하위 소득자 비율 p에 대한 확률 분포 함수의 위치 z가 산출되고, 총 소득 대비 거기까지 소득의 비율 y를 구한다. 즉, \mu가 평균이라면,

\displaystyle p=F(z)=\int_{0}^{z} f(t) dt, \quad L(p)=\frac{1}{\mu} \int_{0}^{z} t f(t) d t

를 계산해야 한다. 사실 rescaling을 했으므로 \mu 자체가 총 소득과 동일한 값은 아닌데, 어차피 rescaling 상수는 분자에서도 존재해서 서로 약분되니까 L(p)의 값은 정확하게 나온다. 따라서 이 L(p)함수의 그래프가 로렌츠 곡선이 된다. 그러면 지니계수 G는 직각이등변삼각형의 넓이에서 로렌츠 곡선 아래쪽 적분값을 뺀 후 두 배해야 한다. 여기서 부분적분치환적분 p=F(z)을 대충 써먹으면-_-

\displaystyle \begin{aligned} G &=1-2 \int_{0}^{1} L(p) dp \\ &=1-2 \left[p L(p)\right]_{0}^{1}+2 \int_{0}^{1} p L^{\prime}(p) dp \\ &= -1+2 \int_{0}^{1} p L^{\prime}(p) dp \\ &= \frac{2}{\mu} \int_{X} z F(z) f(z) dz-1\end{aligned}

이렇게 계산돼야 할 것이다. 여기서 집합 X는 확률 밀도 함수의 정의역이다. 이 대목에서 로그-로지스틱 함수를 대입하면

\displaystyle \begin{aligned} G &= \frac{2}{\mu} \int_{0}^{\infty}z\cdot \frac{(z/\alpha)^\beta}{1+(z/\alpha)^\beta} \cdot \frac{(\beta / \alpha)(z / \alpha)^{\beta-1}}{\left(1+(z / \alpha)^{\beta}\right)^{2}} dz -1 \\ & = \frac{2}{\mu} \int_{0}^{\infty} \frac{\beta (z/\alpha)^{2\beta}}{(1+(z/\alpha)^\beta )^3} dz -1\end{aligned}

여기서 (식1)과 동일한 방법으로 치환하면

\displaystyle \begin{aligned} G &= \frac{2\alpha}{\mu} \int_{1}^{0} t\cdot \left(\frac{1-t}{t}\right)^{1+1/\beta} (-dt) -1 \\ & =  \frac{2\alpha}{\mu} \mathrm{B}\left(1-\frac{1}{\beta}, 2+\frac{1}{\beta}\right) -1\\ & = \frac{2\alpha}{\mu} \mathrm{B}\left(1-\frac{1}{\beta}, 1+\frac{1}{\beta}\right) \cdot \left( \frac{1+1/\beta}{2}\right) -1 \\ & = 2\cdot \left( \frac{1+1/\beta}{2}\right)-1 \\ & = \frac{1}{\beta} \end{aligned}

이 될 듯 하다. 세 번째 줄에서 네 번째 줄로 넘어갈 때 (식2)를 써먹었다. 계산 맞는지 모르겠구만-_- 사실 이 계산이 안 맞아서 삽질을 몇 번이나 했는지 모르겠다. ㅎㅎㅎ

결국 그래서 beta의 역수가 지니계수가 됨을 알 수 있다.

.


자 이제 뉴스1 기사[6]로부터 유튜브 수익 분포의 지니 계수를 추정해보자. 로그-로지스틱 분포의 중간값이 alpha이므로 alpha=150만원이다. 또한 크리에이터의 평균소득은 536만원이므로 (식2)의 inverse값을 계산해서 1/beta를 알아내야 한다. maple의 fsolve 함수를 이용하면, 방정식 150x/sin(x)=536의 근은 근사적으로 2.403751942정도가 되고 이 값을 원주율로 나누어, 유튜브 소득의 지니계수는 0.7651380069정도를 얻는다. 위키피디아의 Gini coefficient 항목에 따르면 세계에서 가장 불평등한 국가들의 수준이 0.6대 정도라고 한다. ㅎㅎㅎ

근데 내가 보기에는 지니 계수가 이거보다 더 나올 듯 하다. Stuttgart 응용과학 기술대학 소속의 Mathias Bärtl 선생의 연구[7,8]에 의하면, 상위 3% 채널이 전체 뷰의 90%-_-를 먹는다고 한다. 과일가게에서 과일 하나만 사먹어도 제일 좋은 걸로 골라 먹으려하듯이, 사실 완전 경쟁시장에서는 1등에 모두 몰릴 수 밖에 없으니, 지니 계수가 1에 근접할 수 밖에 없다. 미국에서는 요새 얼라들의 가장 핫한 장래희망이 유튜버라는데[9], 생각좀 다시 해봐라고 해야할 듯-_-

.


[1] 유튜브 수익성 (kornfrost.wordpress.com)
[2] Fisk, P.R. (1961), “The Graduation of Income Distributions”, Econometrica, 29 (2): 171–185, doi:10.2307/1909287
[3] Kleiber, C.; Kotz, S (2003), Statistical Size Distributions in Economics and Actuarial Sciences, Wiley, ISBN 978-0-471-15064-0
[4] Ahsanullah, M & Alzaatreh, A. (2018). Parameter estimation for the log-logistic distribution based on order statistics. Revstat Statistical Journal. 16. 429-443.
[5] The econometrics of inequality and poverty measurement (vcharite.univ-mrs.fr)
[6] 뉴스1 “유튜브 뛰어드니”…월급 295만→536만원 ‘껑충’ vs 소득 ‘극과 극’ 2019-08-09 06:30
[7] Bärtl, M. (2018). YouTube channels, uploads and views: A statistical analysis of the past 10 years. Convergence, 24(1), 16–32. https://doi.org/10.1177/1354856517736979
[8] 워싱턴포스트 Why almost no one is making a living on YouTube March 2, 2018
[9] 비지니스 인사이더 American kids want to be famous on YouTube, and kids in China want to go to space: survey Jul. 17, 2019, 12:18 PM

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중

This site uses Akismet to reduce spam. Learn how your comment data is processed.