"그래, 그래, 우리집 밥숫가락 숫자도 알고 계시지" 라고 웃고 넘어갈 분도 있겠지만, 농담이 아니라, 네이처 가장 최신호에 나온 논문이다. (아무래도 하악하악 네이처 하는 사람들이 많으니까 좀 더 영향력이 있게 들리는 것은 어쩔 수 없다. ㅠㅠ)

저자들의 소속도 구글. 특히 마지막 저자는 진짜로 Brilliant 한 사람인가보다. ㅎㅎㅎ
사실 기본적인 아이디어는 매우 상식적인 이야기이다. 만약 독감이 유행하는 시기에 가족 혹은 자신이 독감 기운이 있다면 어떻게 하겠는가?물론 병원에 찾아가는 것이 일반적이겠지만 일단 구글이든 뭐든 검색엔진에 관련된 검색을 해보는 것이 보통 아니겠는가? '독감' 내지는 '독감 증상', '인플루엔자' 등등등..
즉, 독감이 창궐하기 시작한다면 검색엔진에 이러한 검색어가 들어가는 빈도가 점점 늘어날 것은 분명한 일. 그렇다면 "독감이 창궐하면 여기에 비례해서 늘어나는 검색어들이 무엇인지를 안다면, 이러한 검색어가 검색엔진에 문의되는 수를 가지고 독감의 창궐정도를 예측할 수 있지 않을까?" 가 기본적인 가설이고 이를 증명한 논문이 바로 이것이다.
그렇다면 "독감 창궐과 연동되서 늘어나는 검색어" 가 무엇인지를 아는 것이 중요한데, 이들은 이런 식으로 검색어들을 뽑아 내었다고 한다.
- 최근 5년간 미국내에서 가장 많이 검색된 5천만개의 단어가 시간별로 어떻게 변동되었는지를 집계하고,
- 미국 질병관리본부 (CDC) 에서 집계되는 인플루엔자 유사 질병 (influenze-like illness, ILI) 의 통계수치를 집계해서
- 인플루엔자 유사 질병 발병빈도와 가장 높은 상관관계를 가지는 검색어를 뽑아냈다.
이렇게 해서 뽑아낸 검색어들을 분류하면 대충 이렇다는데

즉, 인플루엔자 증상, 치료법, 약 이름등등에 관련되는 검색어 (구체적으로 '그게 뭔지' 는 밝히지 않았다. 영업비밀인듯. ㅠㅠ) 가 주류를 이룬다.
- 이렇게 얻어진 검색어를 빈도별로 가중치를 두어서 적용하여 수식모델을 만든 후
- 검색어 빈도에 의해서 계산된 예측치와 미 동부지역의 실제 독감 발생통계를 비교해 보았다.

적색은 실제 독감 발생 통계, 검은색은 모델 예측치. 잘 맞아떨어진다.
실제 독감 발생 통계는 1-2주 후에나 알 수 있지만 검색어 빈도는 바로 알 수 있다는 것에 착안하여, 현재 들어오고 있는 검색어들에 따라서 과연 독감 발생 빈도를 예측할 수 있는지를 살펴보았다.

역시 검은색은 검색어가 들어오는 것에 따라서 예측한 독감 발생 빈도. 붉은색은 실제 보고된 독감 건수. 2008년 2월 4일 기준의 데이터로 예측된 독감 발생 빈도가 2008년 3월 3일에 들어온 해당일의 통계와 유사하며, 독감이 창궐했다가 사그라지는 시점을 통계보다 빨리 실시간으로 보여주고 있음을 알 수 있다.
이러한 것이 잘 이용한다면, 독감이 급속하게 번지는 경우 보건당국보다 한발 먼저 구글의 '독감 경보' 가 발령될 수도 있지 않을까. 물론 이러한 모델에도 한계가 있는데, 저자들이 말하는 것은 가령 특정한 감기약이 리콜이 되었다는 뉴스가 나와서 해당 약 이름의검색어가 늘어난다든지 하는 경우 독감 발생과 관계없이 잘못된 경보가 발령될 수도 있겠지만.
보다 관심이 있는 분이라면 요기를 참조해 보시길.

저자들의 소속도 구글. 특히 마지막 저자는 진짜로 Brilliant 한 사람인가보다. ㅎㅎㅎ
사실 기본적인 아이디어는 매우 상식적인 이야기이다. 만약 독감이 유행하는 시기에 가족 혹은 자신이 독감 기운이 있다면 어떻게 하겠는가?물론 병원에 찾아가는 것이 일반적이겠지만 일단 구글이든 뭐든 검색엔진에 관련된 검색을 해보는 것이 보통 아니겠는가? '독감' 내지는 '독감 증상', '인플루엔자' 등등등..
즉, 독감이 창궐하기 시작한다면 검색엔진에 이러한 검색어가 들어가는 빈도가 점점 늘어날 것은 분명한 일. 그렇다면 "독감이 창궐하면 여기에 비례해서 늘어나는 검색어들이 무엇인지를 안다면, 이러한 검색어가 검색엔진에 문의되는 수를 가지고 독감의 창궐정도를 예측할 수 있지 않을까?" 가 기본적인 가설이고 이를 증명한 논문이 바로 이것이다.
그렇다면 "독감 창궐과 연동되서 늘어나는 검색어" 가 무엇인지를 아는 것이 중요한데, 이들은 이런 식으로 검색어들을 뽑아 내었다고 한다.
- 최근 5년간 미국내에서 가장 많이 검색된 5천만개의 단어가 시간별로 어떻게 변동되었는지를 집계하고,
- 미국 질병관리본부 (CDC) 에서 집계되는 인플루엔자 유사 질병 (influenze-like illness, ILI) 의 통계수치를 집계해서
- 인플루엔자 유사 질병 발병빈도와 가장 높은 상관관계를 가지는 검색어를 뽑아냈다.
이렇게 해서 뽑아낸 검색어들을 분류하면 대충 이렇다는데

즉, 인플루엔자 증상, 치료법, 약 이름등등에 관련되는 검색어 (구체적으로 '그게 뭔지' 는 밝히지 않았다. 영업비밀인듯. ㅠㅠ) 가 주류를 이룬다.
- 이렇게 얻어진 검색어를 빈도별로 가중치를 두어서 적용하여 수식모델을 만든 후
- 검색어 빈도에 의해서 계산된 예측치와 미 동부지역의 실제 독감 발생통계를 비교해 보았다.

적색은 실제 독감 발생 통계, 검은색은 모델 예측치. 잘 맞아떨어진다.
실제 독감 발생 통계는 1-2주 후에나 알 수 있지만 검색어 빈도는 바로 알 수 있다는 것에 착안하여, 현재 들어오고 있는 검색어들에 따라서 과연 독감 발생 빈도를 예측할 수 있는지를 살펴보았다.

역시 검은색은 검색어가 들어오는 것에 따라서 예측한 독감 발생 빈도. 붉은색은 실제 보고된 독감 건수. 2008년 2월 4일 기준의 데이터로 예측된 독감 발생 빈도가 2008년 3월 3일에 들어온 해당일의 통계와 유사하며, 독감이 창궐했다가 사그라지는 시점을 통계보다 빨리 실시간으로 보여주고 있음을 알 수 있다.
이러한 것이 잘 이용한다면, 독감이 급속하게 번지는 경우 보건당국보다 한발 먼저 구글의 '독감 경보' 가 발령될 수도 있지 않을까. 물론 이러한 모델에도 한계가 있는데, 저자들이 말하는 것은 가령 특정한 감기약이 리콜이 되었다는 뉴스가 나와서 해당 약 이름의검색어가 늘어난다든지 하는 경우 독감 발생과 관계없이 잘못된 경보가 발령될 수도 있겠지만.
보다 관심이 있는 분이라면 요기를 참조해 보시길.



덧글
아일턴 2009/02/25 14:02 # 답글
일반화 시킬 수만 있다면 독감뿐만이 아니라 유사 전염성 질병에도 적용할 수 있겠는데요.적절히 이용한다면 급속도로 전파되기 전에 조기 대처를 할 수 있을지도 모르겠습니다.
그나저나... 구글은 역시 구글이네요 ㅡㅡ;;
hongiiv 2009/02/26 21:30 # 삭제 답글
재미있는 글 잘읽었습니다. 우리나라도 이런 데이터를 한번 수집 해볼만 하겠는걸요,,,