본문 바로가기
공부/가짜 뉴스

[뉴스 가시화] 네이버 랭킹 뉴스 키워드 네트워크 가시화 - 2월

by 죠옹 2021. 3. 1.

 1월 네트워크 가시화로 연습해 봤던 내용으로 2월 뉴스를 가시화.

 

 이전 내용을 간략히 정리해보면)

1. 각 신문사에서 일별 랭킹 5의 뉴스 제목으로부터 키워드를 추출

2. 같은 제목에 있는 키워드 끼리 link 생성

3. link 정보로 부터 network 생성

4. network로부터 community 추출

5. gephi를 이용한 가시화

 

 gephi 가시화에 몇가지 팁)

1. Filter

 적은 수로 등장했던 Keyword 중에는 잘못 인식된 명사를 포함해서 의미 없는 내용이 많았다. 그래서 화면 오른쪽 Filters->Topology->Degree Range를 추가하고, Degree Range Settings의 threshold를 5로 두었다. link가 5개 이상인 node들만 가시화에 포함하겠다는 뜻이다.

2. Layout

 Overview 페이지에서, Label을 표시 하지 않은 상태에서 'ForceAtlas 2' (Tuning에서 Scaling 5)로 기본 구조를 잡고, 그림 밑의 검은 'T'자를 눌러 Label을 표시한 후, Layout 에서 'Label Adjust' 로 Run 해주면, 겹치는 라벨들이 최대한 안겹치도록 위치를 재조정 하는 것을 볼 수 있다. 여러 방법 중 이게 제일 좋았다.

3. 폰트 문제

 기본 폰트 설정이 arial? 아무튼 한글 지원이 안되는 폰트여서 글자 대신 '네모'가 뜬다. Gulim이나 Gungsuh 같은 한글체로 설정해줘야 한다.

 

 

 2021년 2월 키워드 네트워크는 다음과 같다.

 여전히 코로나와 정치 관련 뉴스가 많이 보인다. 초록과 연두색 커뮤니티에 집값과 주식 관련 키워드들이 배치된 걸 볼 수 있는데, 삼성전자는 여전히 뜨거웠고, 2월에 뜨겁던 애플-현대차 커넥션과, 비트코인 열풍이 반영되어 있다. 그 외에는 스포츠계 관련 뉴스들이 주를 이뤘다.

 1월과 비교해 보면, 정치, 코로나, 주식, 집값의 community는 그대로고, 사건 관련내용만 정인이 관련 뉴스에서 스포츠계 관련 뉴스로만 옮겨 간 형상이다. 아직 두 달 간의 관찰 결과지만, 사람들이 관심 갖는 주제의 구조가 비슷하다는 점이 흥미롭다. (코로나, 정치, 집값, 주식 + 사건)

개인적으로는 화성 탐사선의 착륙이 큰 관심사였는데, 포함되지 않아 아쉬운 감이 있다. 아무래도 랭킹 뉴스들만 긁어오다 보니 굵직한 주제들만 선정되는 경향이 있다. 

 

 개선방안)

 1. 대상: 랭킹뉴스 -> 모든 뉴스

 2. 키워드 강조 방식: link 수 -> community 별 가중치 부여

 3. 커뮤니티 표현 방식: community 별로 메인 키워드 또는 문장으로 표현할 필요가 있음. (같은 테마로 내용이 변화하기 때문)

  

반응형

댓글