기사 공유하기

[adsense]지난 2월 13일.

발렌타인데이를 하루 앞두고 쓸데없는 잉여병이 또 도졌다.

각 커뮤니티가 발렌타인데이를 맞이하는 모습을 알아보려고 개인 장난감 공개용으로 만들어 둔 페이스북 페이지 프로글래머이런 글을 투척하고는 국내 커뮤니티 게시판을 크롤링(문서 수집 색인)하기 시작했다.

프로글래머

발렌타인데이가 지나가고, 본격적으로 삽질을 시작.

2월 1일의 데이터부터 수집하려고 했는데, 이게 뭐라고 하다 보니 또 욕심이 도져서 작년 크리스마스가 끝난 2014년 12월 26일부터 수집하기로 하고 광속 크롤링. 이것도 작은 이야깃거리는 하나 나올 텐데, 별로 영양가는 없으므로 패스하기로 한다.

아래는 2월 15일까지 모은 데이터.

프로글래머

근데 뭘 좀 해보려고 하니 설 연휴가 코앞이네. 공식적으로는 백수니까 귀성길 정체를 피하기 위해 일찍 고향으로 내려갔다. 어차피 집에서 뭔가를 한다는 건 불가능하니 크롤링 사이트나 2개 더 추가하고 (…) 잊었다.

결국, 화이트데이가 다가오고 나서야 생각이 나는데, 어차피 이렇게 된 거 화이트데이까지 엮어서 세트로 해보기로 결ㅋ정ㅋ.

크롤링은 잘 돌고 있었나, 데이터 확인.

프로글래머

으음, 어쨌든 늘긴 늘었군. 좋아, 그럼 게임을 시작하지!

[divide style=”2″]

우선.

조사 대상 커뮤니티와 조사 방법 및 조사 도구 

[divide style=”2″]

우선, 오늘의 선수들 소개. 무작위 순서. 작성자가 회원인 커뮤니티도 있고, 아닌 커뮤니티도 있음을 미리 밝힌다. 커뮤니티 소개는 잘못했다간 어그로(분노)를 끌 수도 있으니 패스. 대부분은 이름은 들어본 적이 있는 커뮤니티일 거라 생각한다.

  1. 클리앙, clien
  2. 오늘의 유머, 오유, ou
  3. 웃긴대학, 웃대, humoruniv
  4. 베스티즈, bestiz
  5. 루리웹, ruliweb
  6. 아이러브사커, 알싸, 알럽사커
  7. 82쿡, 82cook
  8. 뽐뿌, ppomppu
  9. 듀나의 영화게시판, 듀게, 듀나, djuna
  10. 보배드림, 보배, bobaedream
  11. 여성시대, 여시
  12. pgr21
  13. 쭉빵
  14. 네이트판, pann
  15. 파코즈, parkoz

이상 15개 커뮤니티를 대상으로 진행한다. 여기 없는 커뮤니티는 내가 모르는 곳이거나 크롤링이 귀찮게 되어 있거나, 정신줄 놓고 막 긁어오다가 금지당했거나, 그것도 아니면 잉여력이 미처 닿지 못했기 때문이다.

모든 게시물을 긁지는 못하고, 일반적으로 말하는 ‘자유게시판’과 유사한 성격의 게시판을 1순위로, 그런 곳이 없거나 올라오는 글이 ‘안습’인 경우에는 커뮤니티 대표 게시판을 하루에 한 번씩 모았다. 글쓴이와 관련된 정보는 긁지 않았으며, 올라온 날짜(시간), 댓글 수, 조회 수도 함께 모았다.

데이터를 들여다보는 방법은 발렌타인데이, 화이트데이, 커플/솔로, 외로움 관련 내용의 출현 빈도를 기본으로 하고 가급적 커뮤니티별 비교는 피하려 했지만, 이렇게나 모아 놓으면 별수 없잖아?

(…) 그래도 막 그래프를 한 곳에 겹쳐놓고 ‘이거 봐라 얘네가 다른 곳이랑 비교해서 어쩌고저쩌고’ 하지는 않는다. 혹시나 이거 보고 커뮤니티끼리 싸우는 일은 없었으면 좋겠다. 보면 알겠지만 우린 어차피 다 마찬가지야. 하아.

일부만 관심이 있겠지만, 사용한 소프트웨어를 잠깐 언급만 하고 넘어가자.

  • Python 3.4
  • mongodb 3.0
  • pandas 0.15.2
  • IPython 3.0 (jupyter)
  • bokeh 0.8.1
  • lxml
  • konlpy (형태소 분석기는 twitter-korean-text)

자, 시작해볼까.

[divide style=”2″]

본론으로 가기 전에.

전체 개요 

[divide style=”2″]

http://scari.github.io/bokeh/community_total.html

커플 얘기는 언제나 흥한다. ‘초콜렛’과 ‘발렌타인데이’ 얘기는 2월 7일부터 급격하게 상승세를 타는데 비해 화이트데이는 3월 12일부터. 역시 화이트데이는 역사적으로 보나 트래픽으로 보나 ‘끕’이 좀 떨어진다.

커플 얘기는 발렌타인데이와 화이트데이가 다가옴에 따라 동반 상승하는 경향을 보인다. ‘커플’은 평소에도 흥하는 주제인데, 발렌타인데이가 끝난 2월 15일에는 평균 이하로 뚝 떨어지는 모습을 보인다.

어제까지 남친/여친/애인/여보/자기/선물/초콜렛/시發… 얘기로 도배하던 커플들이 자제하는 모습이다…는 훼이크. 어제 싸우고 헤어져서 얘기도 꺼내기 싫은 거로 해석하자. 3일이 채 되지 않아서 다시 올라가잖아? 이건 헤어진 남친/여친 욕을 하느라 다시 회복하는 것으로 보인다.

그럼 커뮤니티별로 위 주제에 대해서 어떻게 반응하고 있는지 알아보기 위해서, 전체 게시물 개수에서 해당 주제 게시물이 차지하는 비율이 얼마나 되는지 확인해보자. x축과 y축의 스케일을 일부러 모두 통일했다. (ㅋㅋㅋ) 비교잼!

[divide style=”2″]

Part 01. 

‘발렌타인데이’를 만났을 때 

LadyDragonflyCC - >;<, CC BY https://flic.kr/p/boLvxX
LadyDragonflyCC – >;<, CC BY

[divide style=”2″]

먼저 발렌타인데이다. 그래프를 클릭하면 좀 더 편하게 볼 수 있는 페이지가 열린다. 붉은색전체 평균이고, 검은색해당 커뮤니티 그래프다.

http://scari.github.io/bokeh/comm_valentine.html

일부 커뮤니티를 제외하고는 발렌타인데이가 다가올수록 관련 주제 게시물의 늘어나긴 하는데, 여초 커뮤니티의 경우에는 그 비율이 남초 커뮤니티에 비해 떨어진다. 여자들이 발렌타인데이에 관심이 없다기보다는 남자들의 관심이 폭발적이라고 해야겠다.

남초 커뮤니티의 대부분은 평균을 웃도는 관심을 보여준다. (ㅋㅋㅋ) 남초 커뮤니티 중에서 발렌타인데이에 초탈한 커뮤니티는 보배드림 정도? 여초 커뮤니티에서 평균을 웃도는 관심을 보이는 커뮤니티는 바로 네이트판! 되시겠다. 왠지 막장 스토리 냄새가 난다.

커뮤니티별 ‘커플’ 풍경 

그럼 조사대상 주제 중에서 가장 강력한 ‘커플‘은 커뮤니티별로 어떤 모습을 가지고 있을까? 보라색 전체 평균. 검은색해당 커뮤니티 그래프다.

http://scari.github.io/bokeh/comm_couple.html

데이터가 빠진 구간이 발렌타인데이 그래프에서는 바닥에 붙어 있어서 잘 확인이 되지 않았는데, 커플 그래프는 그래도 좀 떠 있으니까 데이터가 빠진 구간이 쉽게 확인된다. 그래도 그래프가 뭔가 이상하지만, 그냥 넘어가기로 한다. 안줏거리 하나 생겼네. (-.-)

커플 그래프에서 재밌는 점은 회원들 연령대가 비교적 높은 편인 클리앙82쿡은 커플 글이 별로 없다는 점이다. 그렇다고 커플 글이 많은 곳은 분홍분홍 핑크빛인가 하면 그것도 아니다.

오유, ‘솔로가 빛나는 밤에’ 

커플 그래프를 봤으니 솔로도 봐야지? 솔로는 전체 그래프에서 봤듯이 비중이 그리 높지 않다. 하지만 솔로 그래프에서 놓치지 말아야 할 커뮤니티가 하나 있다.

http://scari.github.io/bokeh/comm_solo.html

Aㅏ, 그렇구나! 전체 솔로 그래프는 위 오유 그래프를 클릭하면 확인할 수 있다.

‘프로작’이 필요해~ ㅠㅠ

여기까지 확인하고 나니 그래프 너머로 코스모가 외로움이 느껴진다. 기본적으로 커뮤니티라는 곳은 ‘씐나’는 곳이긴 하지만, 사람들이 외로움을 조금 덜어두고 가는 곳이기도 하니까. 외로움이 느껴지는 글은 얼마나 되는지 확인해 보자.

전체 그래프에서 유추할 수 있듯이, 외로운 글은 그렇게 많지 않다. 하지만 ‘프로작’이 필요한 커뮤니티가 보인다. (프로작: 우울증약. ‘프로작’이라는 상표명으로 유명한 ‘플루옥세틴’을 의미. – 편집자)

http://scari.github.io/bokeh/comm_lonely.html
http://scari.github.io/bokeh/comm_lonely.html
(ㅠㅠ) 루리야 힘내! 판녀들도 힘내! 오유와 82쿡도 의미 있는 외로움을 보인다. 전체 그래프는 위 그래프를 클릭하거나 여기.

커뮤니티 내부인 시각으로 살펴보기 

굳이 그래프를 보여가며 구구절절 설명하지 않아도 당연히 분위기에 따라 특정 주제의 글이 평소보다 더 자주 등장하기 마련이다. 그리고 비슷한 얘기가 계속 올라오면 사람에 따라서 짜증이 나기도 하고, 그래서 의도적으로 무시하기도 한다.

정말 흥하는 주제라면 너도나도 그 글을 클릭할 것이고, 댓글을 남김으로써 스스로 커뮤니티 구성원임을 확인하고 대세에 동참했다는 뿌듯함을 느끼기도 할 것이다.

발렌타인, 커플 관련 주제는 부러움, 혹은 시기의 대상이 될 수도 있다. 따라서 의도적으로 클릭하지 않는 사람도 유의미하게 있지 않을까 하는 추측을 해본다. 제3자의 입장이 아니라 그런 내부인의 시각으로 사람들의 반응을 살펴보자.

1. 커뮤니티별 발렌타인 관련 글 비중 

빨간색은 발렌타인데이 관련 글이 차지하는 조회 수 비중을 나타내고 파란색은 그렇지 않은 글의 조회 수 비중이다. 커뮤니티별로 확실한 차이가 있는 거 같다.

프로글래머 발렌타인데이

오유, 듀나, 여시, 웃대 회원은 발렌타인데이 관련 글을 더 클릭했다. 알싸는 그런 거 없이 일단 글 올라오면 공평하게 다 눌러보는 듯(-ㅅ-). 그리고 쭉빵부터 네이트판까지 다른 모든 커뮤니티 회원은 발렌타인데이 관련 글을 의도적으로 외면하고 있다. 네이트판은 발렌타인데이가 정말 싫은가 보다.

2. 커뮤니티별 ‘발렌타인’ 관련 글 조회 수와 댓글  

그럼 댓글도 발렌타이데이에 관한 호불호와 연동해 덩달아서 많고 적고 그런가?

프로글래머 발렌타인데이

댓글이 달리는 양상도 커뮤니티별로 확연히 차이가 난다!

  • 오유: 궁금해서 클릭했지만,  댓글은 남기고 싶지 않아!
  • 뽐뿌: 조회 수는 낮지만, 댓글은 폭발!
  • 알싸: 댓글에서도 차별 없이 공평.  
  • 네이트판: 발렌타인데이라면 질색인 건가?
  • 듀나: 조회 수, 댓글 수 모두 정직하게 높다.
  • 이 와중에 파코즈는 댓글 데이터가 사라졌네. (ㅠㅠ) 어떻게 된 건가 (…)

조회 수와 댓글 수의 상관관계를 확인해보자. 자세한 내용은 그래프를 클릭. 파코즈는 댓글이 날아갔으니까 눈으로 필터링. (ㅠㅠ)

http://scari.github.io/bokeh/valen_count_reply_relation.html

3. 커뮤니티별 ‘외로움’ 관련 글 조회 수와 댓글

발렌타인데이가 부러움이나 시기의 대상이라 이런 결과가 나온 거라면 외로움은 어떨까? 동병상련(-.-)을 느끼고 조회 수도 댓글도 평균 이상으로 달릴까? 아니면, 불편하기는 마찬가지니 의도적으로 외면할까?

프로글래머 외로움

발렌타인데이만큼 많이 외면하지는 않는다. 네이트판에서 인기 글은 어떤 것인지 조사 좀 해봐야겠다. (-_-;;)

프로글래머 외로움 댓글

가슴이 뭉클해지는 결과다. (ㅠㅠ) 외로운 글에 이렇게나 관심을 보여주다니. 앞으로 ‘징징글’ 쓸 때는 페북이 아니라 보배드림이나 루리웹으로 가자! 멀게만 느껴지던 커뮤니티였는데 급 호감! (-ㅅ-) 뽐뿌는 댓글 데이터 날아갔다! 강하게 키우는 곳이구나 뽐뿌는.

외로운 글의 댓글과 조회 수 상관관계도 확인해보자. 자세히 보려면 아래 그래프 클릭하면 된다.

http://scari.github.io/bokeh/lonely_count_reply_relation.html

4. 커뮤니티별 ‘솔로’ 관련 글 조회 수와 댓글

여기까지만 하고 접으려고 했는데 네이트판 회원들의 취향이 너무 궁금하다. 솔로 글을 좋아하는 것일까?

프로글래머 발렌타인

빙고!

프로글래머 발렌타인

자세한 내용은 그래프를 클릭하자.

앞서 확인했지만 루리웹은 솔로와 외로움의 커뮤니티인가? (ㅠㅠ) 루리웹과 네이트판은 같은 외로움의 아이콘이었는데 커뮤니티 내에서 대접이 다르다.

루리웹은 징징글이 많이 올라오지만, 내부에서 관심과 위로를 얻는 반면, 네이트판은 외로움을 토로해도 커뮤니티 내부에서 관심을 많이 얻지 못하는 것으로 해석하면 (…) 너무 비약이 심한가?

얘들아, 서로 좀 잘해줘라. (-ㅅ-)

[divide style=”2″]

Part 02.

‘화이트데이’를 만났을 때 

Kate Williams, CC BY https://flic.kr/p/5X9zt1
Kate Williams, CC BY

[divide style=”2″]

발렌타인데이에 대응하는 화이트데이 그래프는 기대만큼 볼만하지 않다. 데이터가 충분히 쌓이지 않은 탓인데 화이트데이 그래프에서 주목할 커뮤니티는 오늘의유머와 루리웹.

http://scari.github.io/bokeh/comm_white.html

http://scari.github.io/bokeh/comm_white.html

오유는 커뮤니티 평균(파란색)보다 열광적인 반응을 보이고 있고, 루리웹은 화이트데이가 오기 전에 반짝 흥했다가 막상 화이트데이가 닥치니까 잠잠(…) Aㅏ(…) ㅠㅠ

[divide style=”2″]

부록 01.

최고 인기 글과 댓글 많이 달린 글 목록

[divide style=”2″]

마무리가 좀 씁쓸하다. 그냥 글을 끝내자니 기분이 좀 이상하네.

여기까지 한 김에 커뮤니티별 최고 인기 글을 한번 뽑아봤다. 일부 커뮤니티는 회원이 아니면 열람할 수 없다. 간단하게 최다 댓글, 최다 조회 수 부분으로 나누어 뽑았다. 삭제된 게시물일 경우 차상위 게시물을 링크하려고 했으나 삭제된 사실도 나름으로 의미가 있다고 판단, 그냥 둔다.

인기 글은 그 커뮤니티 성향을 어느 정도 나타내는 듯한 느낌적 느낌.

인기 글 조회 수와 댓글을 보니 커뮤니티별 화력을 어느 정도 가늠할 수 있다. 사실 이거 하면서 모 커뮤니티의 후덜덜한 화력에 경외감이 들기도 했는데, 엄청난 글 생산 속도에도 불구하고 댓글도 조회 수도 빠지는 게 없었다. 게다가 치열한 경쟁때문인지 글 제목 하나하나가 도저히 클릭을 안 하곤 못 배길 정도로 매력이 터지는 바람에 코딩은 안 하고 게시판을 정주행 하기도 했다.

1. 인기 글 

아래는 가장 많은 조회 수를 자랑하는 게시글이다.

2. 댓글 많이 달린 글 

다음은 댓글이 가장 많이 달린 게시글이다.

[divide style=”2″]

부록 02.

국내 커뮤니티 시간대별 활동 지도

[divide style=”2″]

진짜 진짜 마지막. 글이 등록된 날짜뿐만 아니라 시간(시/분/초)까지 구할 수 있었던 커뮤니티에 대해서 시간대별 활동 그래프를 뽑아봤다. 평범한 그래프가 나올 거로 예상했는데 그나마 글 몇 줄 쓸 정도는 나온 거 같다. 자세히 보려면 그래프를 클릭.

http://scari.github.io/bokeh/comm_traffic.html

바른 생활의 클리앙과 뽐뿌.
베스티즈 회원들은 잠들기 전에 자신이 가장 사랑하는 커뮤니티에서 하루를 마감한다. 어딘가에서 ‘훼인’ 냄새가 나는 듯도??

클리앙은 월급 루팡의 패턴이라는 의견이 있다. 애플과 삼성의 새벽 발표가 그래프에 반영되어 있음을 지적해주신 눈썰미 좋으신 분도.

이상으로 2015년 발렌타인/화이트데이 기념 삽질기를 마친다. (끝!)

관련 글

4 댓글

  1. 루이웹에서 가장 활성화된 게시판은 자유게시판이 아니라 유머게시판입니당… 좀 아쉽네요

댓글이 닫혔습니다.