본문 바로가기
공부/Human dynamics

[논문소개] The origin of bursts and heavy tails in human dynamics - Barabasi - 심층분석

by 죠옹 2017. 12. 24.

 지난번 가볍게 개요를 정리해 보았던 글에 이어 심층적으로 수식에 대해 생각해보기 위한 글을 써본다.

가벼운 개요는 이쪽에..  ( http://mons1220.tistory.com/64 )

 이 논문에서 사람행동의 Burst성을 설명하기 위해 사용한 개념은 Queuing Process이다. 프로그램을 짜다보면, 지속적으로 유입되는 데이터를 처리하기 위해 입력과 출력의 순환을 지니는 구조를 이용한다. 일이 유입되는 방식, 일이 처리되는 방식을 미리 결정해 놓은 이 구조에서는 사용자의 입맛에 맞게 일이 처리된다. 

 바라바시는 이러한 구조에서 일을 처리할 때, 일의 우선도에 따라 일을 처리하게 되면, 일이 유입되고나서 부터 처리될 때까지의 시간이 우선도가 낮은 일들은 길고, 우선도가 높은 일들은 짧아지면서, 그 빈도를 살펴봣을 때 1/T의 분포를 나타낸다고 주장하고 있다.

 이제부터 이것을 바라바시가 주장한 식으로부터 생각해 나가보겠다.



한 스탭에서 우선도 x의 일이 선택될 확률

 한 스탭이라 함은, 시간스탭 하나당 일을 한개씩 처리한다는 것을 뜻한다. 그리고, 이러한 1회의 시간스탭에서 우선도 x의 일이 선택될 확률을 다음과 같은 식으로 표현하고 있다.

 

 우선도 x의 일이 선택될 확률은 우선순위 x의 Υ승의 표현을 이용하고 있다. 그리고, Υ는 0 또는 ∞의 값만을 지니는 파라미터를 상정하고 있다. 

 Υ이 0에 가깝다면 선택될 확률 Π(x)는 1/L 의 값으로 모두 같은 값을 지닐 것이다. 여기서 L은 Que에 쌓여있는 일의 총량이다. 즉 일이 우선순위에 따르지 않고, 랜덤하게 선택된다는 것을 나타낸다.

 Υ이 ∞로 커진다면, 우선순위가 가장 높은 x가 선택될 확률 Π(x)는 1에 가깝게 될 것이며, 나머지 우선순위의 일들은 선택될 확률이 0에 가깝게 될 것이다. 이는 우선순위가 높은 일이 선택된다는 것을 나타낸다.



시간스탭 t에서 우선도 x의 일이 선택될 확률

 다음은 시간스탭 t에서 우선도 x의 일이 선택될 확률이다.

현시간 스탭 t 기준으로 t-1번쨰까지의 스탭동안은 선택되지 않았어야 한다. 그러므로, (1 - Π(x)) 의 t-1승, 그리고 현재 스탭에서 선택되었으므로 Π(x)을 곱해줘서 시간스탭 t에서 일이 선택될 확률을 나타낸다.



우선도 x의 일이 처리되는 소요시간 τ의 기대값

 이번에는 평균 대기시간을 나타내는 식이다. 일이 Que에 들어오고나서 처리될 때까지의 평균 대기시간은 시간스탭 t에서 일이 선택될 확률에 소요 시간 t를 곱한 기대값으로 표현할 수 있다.

 

f(x, t)의 식에 위에서 구한 식을 대입하여 가장 우측의 식을 얻을 수 있다. 그리고 가장 우측의 식은 등비급수의 곱을 구할 때 사용하는 기술을 통해 간단히 나타낼 수 있다.

 위의 전개식에 (1-Π(x))를 곱해서 위에서 아랫식을 빼보자. 

 등비수열의 곱이다! 또다시 (1-Π(x))를 곱해서 빼보자. 우선 (1-Π(x))를 곱하면 다음과 같고, 

 윗식에서 아랫식을 빼면, 

 다음과 같이 간단히 나타낼 수 있게 된다. 이걸 다시 원래 식에 대입하면, 

 식을 얻을 수 있다. 여기서 Π(x)에 우리가 위에서 구한 식을 대입하면 

 

 이렇게 된다고 하는데... 이는 분자의 값이 constant라고 가정하였을 때의 근사이다. 실제로 분자의 값은 요동치지만, 평균장정리에 의한 예측 결과는 이러한 요동이 이 모델의 스케일 특성에 영향을 주지 않는다고 한다(뒤의 비판 글에서 언급)... (이것은 수학적인 벽일까 나는 잘 이해가 되지는 않는다.)



소요시간 τ가 나타날 확률 P(τ)

 다음은 τ가 나타나는 분포 P(τ)를 구하는 과정이다. 각 시간 스탭별로 새롭게 Que에 추가되는 일의 우선순위 x는 ρ(x)라는 분포를 따른다고 생각한다. 그리고, ρ(x)에서 선택된 우선순위 x일의 일은 평균적으로 τ(x) 소요된다고 구하였다. 그림으로 보자면 다음과 같다.

수많은 우선순위의 일 중에 한개의 우선순위의 일이 차지하는 양은 ρ(x)dx 로 표현할 수 있다. 그리고, 이 우선순위 x의 일은 전체 확률 P(τ) 중에서 P(τ)dτ 의 비율을 차지하고 있다. 그리고, 위에서 구한 소요시간 τ(x)의 기대값은 x와 1대1 대응을 하고 있기 때문에, 모든 우선순위에 대한 ρ(x)의 적분값이 1일 경우, 다음식을 만족한다.

   (잘못된 식)

이 식을 변형하면, 소요시간 τ가 나타날 확률을 표현할 수 있다. 

  (잘못된 식)

(2017.12.25 Seldon님이 가르쳐 주신 내용으로 아래와 같이 수정)

 그리고, 위에서 구한 우선순위 x에서 나타나는 평균 소요시간 τ의 관계에 따라 x를 τ로 나타내면,

  이를 상기의 적분식에 대입하면, P(τ)를 τ로 나타내는 식을 구할 수 있다.

위의 식에서 첫번째 식에서 두번째 식으로 갈 때, x와 τ가 반비례의 관계이기 때문에 적분 구간이 뒤바뀌는 것을 조심!   확률에 -도 나오네.. 근데 논문에서는 "-"가 없다(수정)

논문에서는 분모의 Υ가 생략되어있다.  보충 논문에서는 Υ이 무한대의 극한으로 가면 생략될 수 있다고 한다(뒤의 비판 글에서 언급). 그래서 Υ이 무한대의 극한이라면 유명한 1/T 공식이 나온다.

 그리고, 이메일에서 이와 같은 -1의 스펙트럼을 갖는 멱급수의 분포가 나타난 것이 이로인해 설명된다고 한다.




비판

  우선, 식 전개에서 이해가 안가는 위에서 부분을 밑줄로 표시하였다. 중요해 보이는 생략이 많다. 평균소요시간 τ에서 분자를 생략한거는 일단은 이해해볼 수는 있다. Que에 입력되는 일의 우선순위가 특정 분포를 지닌다면, x의 합이 특정 값의 위아래로 요동을 칠테니.. 어느정도 평균장 정리라는 기술적인 면에서는 납득이 간다. 

 허나, 확률 P(τ)을 τ로 표현한 식에서는 음수가 나오는 것(수정 확률이 음수로 나온 것은 식 전개 실수)과,  분모에 나오는 Υ이 무한대의 극한값인데, 생략해버리는 것이 이해가 가지 않는다. Υ이 무한대로 간다면, P(τ)는 0이 되어야 한다. 가장 소요시간이 짧은 1스탭(τ=1)에서 조차 P(τ)는 0이다. 물론, Σ1/τ의 합은 무한대로 발산한다. 고로, P(τ)에서 Υ이 무한대의 극한값으로 간다하여도, τ가 무한대로 갈 수록, 총 합은 1에 가까워진다고 생각해 볼 수 도 있다. 그러나, 이 또한 Υ의 발산속도와 Σ1/τ의 발산속도는 고려되어 있지 않다.

 발산속도가 같아서 τ가 무한히 커지면 P(τ)의 합은 1로 수렴한다고 치자 그러려면, 일이 추가되고 처리되는 τ의 스케일이 엄청나게 작은 스케일이어야, P(τ)는 우리의 일상생활에 의미 있는 확률로써 존재할 것이다. 그렇지 않으면 P(τ)는 0으로 다가가는 극한값이므로 우리가 사는 일평생 사건이 발생하지 않아야 한다. 그런데, 이 논문에서 예로 들고 있는 것은 E-mail의 회신 시간이다. 일단 일이 추가되고 처리되는 Term이 길고, 일이 처리되는 스탭 τ를 결정짓기에도 미묘하다. 가장 짧은 τ는 가장 빨리 회신하였던 시간이 될 것이다.

 내 이해로는 미묘한 점이 있어 보인다... 허나, 수식으로 Burst성에 대해 접근해 가는 과정은 좋은 참고가 될 수 있는 논문인 것 같다. 위처럼 비판을 길게 쓴 이유는.. 완벽히 이해해보려고 오랜 시간 투자한 것에 비해 내가 얻은 확신이 별로 없기 때문일 것이다.

 혹시나.. 이 글을 누가 보고 잘못된 점이 보이면, 지적해 주셨으면 좋겠다! 일단은 이 논문은 이정도 이해해서 마치기로 생각하고 있다.



고찰

 어쨋든, Burst성은 사실이며, 우선도의 영향이 있다는 것은 직감적으로도 알 수 있다. 중요한거 하다보면 안중요한 일은 밀리게 되니까.. 일을 할 때도 마찬가지다. 데드라인이 다가오면 일을 몰아서 하고, 안그럴 땐 빈둥대기도 한다. 이럴 땐 평소에는 빈둥거리는 행동의 우선도가 높다가, 데드라인이 다가오면 일에 대한 우선도가 높아지므로 Burst성이 발생하는걸까?ㅎㅎ 평소에 꾸준히 열심히 하는게 좋아보이긴 하는데.. 언제나처럼 몰아서 하게 된다.. 연구실 친구는 평소에는 이것 저것 일의 가능성을 넓은 분야로 펼치다가, 데드라인이 다가올 수록 한가지 일로 간추려야 하기 때문이지 않을까 하는데.. 이거 연구해보면 이그노벨상 유력후보이지 않을까 생각해본다(모든 연구자가 공감하지 않을까..ㅎㅎ)

 전에 "의식의 구조 생각해보기(http://mons1220.tistory.com/66)" 라는 글에서 가정한 의식의 Output이 하나라는 관점을 통해 생각해보면, 뇟속의 여러 가능한 정보들 중에 Output으로써 하나의 정보를 간추려 내는 과정(정보의 통합과정)이 Burst성에 영향을 미치지 않을까 하는 생각도 든다.

 Burst성은 재미있다. 리듬도 메트로눔 처럼 일정 비트보다는 강약중간약으로 반박자 앞뒤로 뿌려대는 리듬에 관심이 가게 마련이다. 이런 버스트성을 지닌 노이즈를 들으면 안정효과가 있다는.. 그런 이야기들도 있다(진위에 대해선 확실하지는 않다.)

 Burst성을 효율과 연관시켜 생각해보는 것도 재미있겠다. Burst성을 지닌 행위가 효율을 위한 생산적 행위인지, 어쩔수 없이 발생하는 비생산적 행위인지에 대해 생각해보면, 일의 효율성에 대해 더 생각해볼 수 있지 않을까? E-mail도 바로바로 답장을 하는게 나을지.. 우선순위에 따라 답장하는게 나을지.. 음.. 기준을 마련하는게 어려울 것 같긴 하다.

반응형

댓글