본문 바로가기
공부/네트워크과학

[논문소개] 소셜 네트워크와 재산의 관계

by 죠옹 2017. 12. 20.

 복잡계 과학을 설명하는 말 중에 흑연과 다이아몬드 이야기를 좋아한다. 흑연과 다이아몬드는 탄소로 이루어진 물질이라는 점에서는 같지만 구성의 차이로 인해 전혀 다른 특성을 지닌다. 사실 우리가 사는 세상 또한 다르지 않다. 인류가 밝혀낸 자연의 4가지 힘과, 물질을 이루는 입자들을 생각해보자면, 단순하기 그지 없으나, 이들이 상호작용하여 만들어낸 세상은 어마어마한 다양성을 지니고 있다. 복잡계 과학에서는 이러한 상호작용을 통해 발생하는 성질을 "창발"이라 칭하고, 이러한 현상에 주목하고 있다.

 오늘 소개할 논문 제목은 "Inferring personal economic status from social network location"이다. "소셜네트워크 상의 위치에 따른 개인의 재정상황 추측하기" 정도로 해석되겠다. Shaojun Luo를 제 1저자로 한 5명의 연구자들이 작성한 논문이다. 이 논문의 연구결과를 간략이 이야기 하자면 "나이와 소셜네트워크만으로 개인의 재정상황을 추측하는 것이 가능하다"가 되겠다.

 이 논문에서는 핸드폰 전화 사용내역과 SNS 사용내역을 종합하여 1억명의 소셜네트워크를 확보하였다. 그리고, 은행으로부터 개인자산에 따른 신용등급 데이터를 확보하여, 위의 소셜 네트워크와 합쳤다. 어마어마한 데이터다. 그리고 개인의 자산으로부터 평가되는 신용등급이 소셜네트워크와 어떤 관계성을 갖고 있는지를 조사하였다.

 다음은 상위 1프로(a)와 하위 10프로(b)의 소셜네트워크망을 나타낸 그림이다.

 보면 알겠지만 이쁘다. 그림 진짜 이쁘게 넣었다. 이논문에 들어간 그림들은 다 이쁘다. 그림을 설명하자면, 상위 1프로는 도시 각각 곳곳에 넓게넓게 소셜네트워크가 연결되어있다. 그리고, 하위 10프로는 가까운 지역내에 소셜네트워크가 형성되어있다. 확연한 차이이다. 그래서 논문의 저자들은 이러한 소셜네트워크 특징을 수치화 할 수 있는 방법을 사용하여 비교분석을 진행하였다.

 다음 그림은 나이, 소셜네트워크구조에서 추출한 특징량을 각각 x축 y축으로 나타내고 부의 정도를 무지갯 빛깔로 표시한 그림이다. 

 a부터 차례대로 k, k-shell, PageRank, logCI 라는 특징량을 이용하여 분석을 해보았다. k는 단순하게 몇명과 관계를 지니고 있는지에 대한 특징량이다. PageRank는 구글의 웹 페이지 가중치 알고리즘으로 유명한데, 네트워크에서 어느정도 중심적인 위치를 차지하고 있는지를 나타내는 특징량이다. 다음, k-shell과 CI는 다음과 같은 그림으로 설명되어 있다.

k-shell은 그룹 내의 모든 노드가 적어도 k개의 연결을 지닐 때 이름 붙여진다. 그림 e가 이에 대한 설명에 해당한다. f는 이 논문에서 제시한 특징량으로써, 직접적인 친구의 숫자 k에 그림 f에서 Ball이라고 칭하는 친구의 친구의 친구의 숫자를 곱한 값이다. 

 이로써 그림을 다시 살펴보자면 모든 특징량은 나이가 많을수록, 특징량이 높을수록 빨간색, 즉 부자가 많은 것으로 보인다. 다만, a와 c는 노이즈가 잔뜩 끼어있는 것처럼 보인다.

 b와 d를 보면 우측 상향으로 가면 갈수록 부자가 많은 것이 부드럽게 잘 연결되있는 것을 알 수 있다, 다만, b에서 사용한 k-shell은 정수값만을 지니기 때문에, 분해능이 높지 않다.

 그래서 저자들은 "CI"값을 이용해서, 나이와 소셜네트워크 상의 위치 만으로 어느정도로 재정상황을 분류해낼 수 있는지 시험해본다.

 나이와 CI를 조금 조작하여, 순위로 바꾼 값을 조합하니, 재정상황과 상관도가 높은 그래프가 얻어진다. 깨끗하다. 데이터 정제의 달인이다. 훌륭한 정제결과다.

 안타까운 점은 대조군과 제어군이 없으니, 인과관계에 대해 논하기 어렵다는 점이다. 허나, 이러한 결과를 통해 부자들은 친구의 친구의 친구의 숫자가 많다는 것을 알 수 있다. 반대로, 친구의 친구의 친구의 숫자가 많을 수록 부자가 될 수 있다는 해석도 가능하다.

 이정도 깨끗한 정제가 가능하다는 것은 어딘가에 인과관계가 있음을 시사한다. 복잡계 연구의 묘미인 것 같다. 

반응형

댓글