본문 바로가기
공부/네트워크과학

[논문소개] 시계열 Network에서 multiple layer의 social network 추출

by 죠옹 2023. 5. 24.

 Wearable device로 상호작용을 측정해서 social network를 구성한다고 쳐보자. 그런데 이제 어떤 한 종류의 상호작용이 아니라 다양한 종류의 상호작용이 일어나고 있는 경우 (e.g. 친구, 상사, 동료, 가족), 그저 디바이스로 측정한 상호작용 (e.g. proximity, message) 만으로 뭉뚱그려 link를 구성하는 건 꽤나 큰 정보의 누락이 될 수 있다.

 

이번에 소개 할 논문은 non-negative matrix factorization (NMF) 를 이용해 시계열 social network에서 여러 개의 factor를 뽑아봤더니 꽤나 의미있는 추출이 가능했다는 내용을 담고 있다. 제목은 다음과 같다.

 

Extracting multiple layers of social networks through a 7-month survey using a wearable device: a case study from a farming community in Japan

 

이 연구의 주요 기여는 (1) Wearable device로 실제 농가 커뮤니티 멤버의 상호작용(근접)을 무려 7개월간 측정했다는 점, (2) 이 결과를 NMF를 사용해 분해했더니 농사그룹/가족/커뮤니티활동과 같이 장르를 특정할 수 있는 유의미한 분해가 가능했다는 점이다.

 

행렬 분해는 추천 시스템 같은 데서 많이 쓰이는 방법이다. 유저-아이템(i x j) 행렬 같은 경우 아이템(j)이 너무 많아서 행렬의 대부분이 빈다거나 해석이 어려워서 여러모로 비효율적이다. 이 때 이 행렬을 유저-요인(i x k), 요인-아이템(k x j) 식으로 분해해 버리면 훨씬 행렬공간이 절약되고, k가 예를 들면 장르적인 의미를 띄게 되어 아이템의 메타요인으로써 해석의 여지를 갖게 된다는 장점이 있다.

 

이 연구에서도 여기에 착안했다. 시계열의 소셜 네트워크를 우선 Y (i x j)라고 치자. 여기서 i는 관측일, j는 상호작용 pair다. pair란 모든 가능한 link의 조합으로 N명의 참가자가 있다면 j = N(N-1)/2 이다. 이제 NMF를 이용해 Y를 k개의 factor로 분해하면 끝이다. 여기서 'non-negative' matrix factorization을 사용하는 이유는 음수로 된 값이 나오면 해석이 복잡해 지기 때문이다. 음수의 관계? singed network라는 표현형이 있지만 굳이 적대감과 우호감 같이 singed되어 있는 관계의 factor를 뽑기보다 어떤 동질 집단의 interaction을 factor로 뽑길 원했기 때문에 'N'MF를 사용한 것으로 보인다.

 

여튼 이렇게 분해된 게 Y = HU.

H는 i x k 행렬, U는 k x j 행렬으로 i는 관측일, k는 요인의 개수, j는 interaction pair의 수이다. k는 적당한 군집 조건을 기준으로 5로 정했다고 한다.

그럼 이제 H는 시계열 별 요인의 강도를, U는 요인 별 pair가 되는 link의 강도라는 거친 해석을 내려볼 수 있게 되는데, 여기서 H와 U를 질적으로 분석해보니 농사그룹/가족/커뮤니티활동 같은 요인들로 가늠되었다고 한다. 구체적으로는 H는 농사 활동이나 커뮤니티 활동에 따라 추정되는 상호작용의 강도를, U는 network의 density나 같은 걸 고려해서 대략 이 요인은 XX활동에 가깝다는 식으로 접근한다.

 

뿐만아니라, 각 요인 별 social network의 중심성(eigenvector)을 여러 자기보고형 질문표 척도와도 비교해 봤는데, Social network layer 중 '농사그룹의 활동(Factor 1)', 그리고 '해석이 어려운 요인(Factor 4)'의 중심성(eigenvector)이 Pro-community attitude(커뮤니티에 대한 태도)와 양의 상관관계를 보였다고 한다.

뭐, 커뮤니티에 대한 태도라니 '농사그룹의 활동'과의 상관관계는 꽤 그럴싸한 결과인 것 같기도 하고, 따라서 역시 위에서 질적으로 네이밍한 '농사그룹의 활동'이 꽤 적절했구나 확인이 되기도 하고 그런 결론이다.

 

흥미로운 건 위에서 질적인 해석이 어려웠던 요인(factor 4)도 여기서 상관관계가 나타나더라는건데, 왜 해석이 어려웠냐면 시계열 상의 강도에 농사나 커뮤니티 이벤트 같은 어떤 특징이 있는 것도 아니었고, 그렇다고 항상 일정하게 나타나는 것도 아니었기에 이건 뭐지? 싶었던 요인이라고 한다. 그런데 이 layer의 상호작용이 농활동이 많은 4-5월엔 강도가 약해지고 중심성 분포도 크게 한쪽으로 쏠려있지도 않은걸로 보아 이게 informal한 그룹이나 우연한 만남 같은 layer를 추출한 게 아닐까 하는 추측을 한다. Informal한 상호작용이 관계의 유지/형성에 영향을 미친다는 관점에서 이 해석도 어느정도 납득이 간다.

 

종합해 보자면, 단순한 측정을 통해 multiple layer의 social network를 어느정도 해석 가능한 범위에서 추출해낼 수 있다는 걸 보인 연구다. 개인적으로는 방법론적으로도 살짝 살짝 가능성을 보인 결과들도 모두 흥미로운 연구였다.

반응형

댓글