데이터 과학의 전망

일전에 블로그의 하찮은 신변잡기 글을 수집하여 데이터 마이닝을 한다는 이야기[1]를 한 적이 있는데, 이코노미스트지[2]의 기사에 의하면, 요즘은 대세가 트위터나 페이스북이다 보니 이 비슷한 작업을 이제 이쪽으로 바꿔서 사용하는 듯 하다.

하루에 쏟아지는 트윗이 2억3천만개라고 하는데 올해 초에 비해서 두 배나 증가한 양이다. 트위터이든 페이스북이든 저장되는 대부분의 말들은 천하에 쓸데가 없다. 그런데 이러한 사람들이 밷어내는 말을 대량으로 수집해 통계를 내서 사람들의 라이프 패턴을 연구한다고 한다. 이런걸 이용해서 소비자 선호나 마케팅에 적용하는 모양이다. 트위터의 특정 링크나 키워드를 정리해서 파는 회사, 또는 특정 제품에 대해 실시간으로 소비자가 어떻게 반응하는지 모니터링하는 회사도 있는 모양이다. 대단한걸. ㅋㅋ

요즘과 같이 어지러운 데이터의 홍수 속에서 유효적절한 정보를 뽑아내는 기법이 더 연구되는 것 같다. 일전에 소개한 구글 트렌드의 사용 예[3]를 보더라도 구글은 이런 측면에서 상당히 앞서나가는 것 같다. 일전에 구글에서 공개한 거대 코퍼스[4]도 그러한 측면 중 하나가 될 것이다. 데이터 과학에 관한 한빛 출판 네트워크 사이트 글[5]이 볼만하다.

‘data science’라는 단어가 아직 위키피디아에도 등록이 안 되어 있는 걸 보면 정말 신흥학문인 것 같다. 기사[2]를 대충 보면 데이터 과학은 기존의 통계학, 데이터 베이스 처리, 데이터 마이닝 그리고 인포그래픽스까지 합쳐진 넓은 분야인 것 같다. 말 그대로 거대한 데이터 속에서 의미있는 것을 뽑아내고 분석하여 눈으로 보여주는 것까지 딱 상업적인 요소들을 포함하고 있다.

요즘은 ‘데이터의 홍수’라는 말도 모자란 듯 하고, ‘데이터의 격류’인 것 같은데, 격류에 휩쓸리지 않고 큰 흐름을 보려면 또 다른 종류의 혜안을 갖출 필요가 있지 않은가 싶다.

 


[1] http://zariski.egloos.com/2558812
[2] 이코노미스트 Sipping from the fire hose Oct 1st 2011
[3] http://zariski.egloos.com/2327932
[4] 내 백과사전 거대한 코퍼스로 놀기 2010년 12월 22일
[5] 데이터 과학이란? – 미래는 데이터를 제품화하는 회사와 개인에게 달려있다.

Advertisements
이 글은 IT 카테고리에 분류되었습니다. 고유주소 북마크.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중