read

뭐 아마존 전체를 분석하는건 아니고;

출판사에서 의뢰한 커뮤니케이션 분야의 책 300권 가량을 seed로 삼아서 그 녀석들에서부터 뻗어져나간 책들간의 네트워크를 분석하는거였는데, 의외의 변수들이 많이 발생했었다. 책에서 뻗어져나온 노드에서 에러가 수두룩하게 발생해서 찾아보니 웬 DVD 등장?;

게다가 AWS(Amazon Web Service)에서 쿼리(query) 빈도 제한을 1초에 한 건으로 걸어놨기 때문에, 에러가 한 번 발생하면 처음부터 쿼리를 다시 날려야 했다. 쿼리 수는? 무려 2천+5천건; 그러면 한 번 돌리는데 7천초 = 116분 = 1시간 56분.

도저히 프로그램이 매끄럽게 돌아가기는 어렵겠다는 판단에 캐쉬(cache) 기능을 넣기 시작했다. 역시, 7천초가 120초로 줄어드는 경이로운 기록을 달성했는데, 캐쉬 용량이 무려 186MB;

여튼 몇 가지 변수들이 있기는 한데, 출판사에 발표할 자료는 분석이 끝났다고 하고, 나중에 시간이 나면 보완할 부분들을 좀 들여다보면 재밌을 것 같다.

만들어놓은 프로그램으로 seed값만 다르게 주면 이런 저런 분야의 책들을 분석해볼 수 있겠군.

Blog Logo

Jeongsoo, Park


Published

Image

오름직한 동산

Think globally, act locally

Back to Overview