본문 바로가기
카테고리 없음

빅데이터(Big Data)란 무엇인가? : 정의 및 특성, 그리고 사례

by 불꽃유랑단 2023. 8. 11.

디지털경제가 계속 진화하면서 누적되는 데이터의 양은 엄청나게 증가하고 있다. 구글사이트에서만 하루에 발생하는 페이지뷰가 70억 건이 넘는다고 한다. 이제 빅데이터는 사람들이 말하지 않는 내심의 마음까지도 알게 될지도 모른다. 빅데이터와 상관없는 사람은 아무도 없다. 빅데이터에 대해서 가볍게나마 알아보자. 

 

 

빅데이터의 정의

빅데이터(Big Data)는 기존의 데이터베이스 관리도구로는 처리가 불가능할 정도로 방대한 양의 데이터를 말한다. 빅데이터는 다양한 소스에서 생성되며, 구조화된 데이터(숫자, 문자, 날짜 등)와 비구조화된 데이터(텍스트, 이미지, 비디오 등)를 모두 포함한다. 빅데이터는 보통 기업의 의사결정, 마케팅, 생산공정, 고객서비스 등 다양한 분야에서 활용될 수 있다.

 

빅데이터의 실체를 체감하려면 미국의 시장조사업체 IDC의 분석결과를 보는 것이 도움이 될 것이다. IDC에 따르면 인류의 문명이 시작된 이래 2020년까지 축적된 데이터 총합이 59ZB를 넘어섰고, 2025년까지 175ZB에 이를 것으로 전망된다. 최근 5년간의 데이터 생성량이 인류문명 전기간 생성량의 2배에 이르는 것이다. 참고로 1ZB는 1 조 GB다. 1 조 GB는 통상 아이패드 용량으로 환산했을 때, 700억 개를 초과하는 양이라고 한다. 상상하기 힘들 정도의 엄청난 데이터가 생성되고 쌓이는 것이다. 따라서 이 엄청난 데이터를 활용해서 가치를 창출하는 산업이 계속 커지리라는 예상은 어렵지 않게 할 수 있다.

 

그러나 빅데이터가 단순히 물리적으로 큰 용량의 데이터만을 의미하는 것은 아니다. 그보다 더 중요한 것은 방대한 양의 데이터에서 의미 있는 데이터를 추출하고, 그것을 통해 인사이트를 얻는 것이 핵심이라 할 수 있다.

 

빅데이터의 특성

빅데이터를 정의하는 데는 여러 가지 방법이 있다. 가장 일반적인 방법은 빅데이터의 특성을 5가지로 나누어 설명하는 것이다. 기본적인 특성 3가지와 부수적 특성 2가지로 나누어 설명할 수 있다. 기본적인 특성 3가지는 Volume, Velocity, Variety이고, 부수적 특성 2가지는 Veracity, Value이다. 

 

Volume(크기)

빅데이터는 기존의 데이터베이스 관리도구로는 처리가 불가능할 정도로 방대한 양의 데이터를 말한다. 예를 들어, 구글은 매일 수십억 건의 검색 요청을 처리한다.

 

Velocity(속도)

빅데이터는 빠른 속도로 생성되고 수집된다. 예를 들어, 소셜미디어는 실시간으로 데이터를 생성한다.

 

Variety(다양성)

빅데이터는 다양한 소스에서 생성되며, 구조화된 데이터와 비구조화된 데이터를 모두 포함한다. 예를 들어, 센서 데이터, 텍스트 데이터, 이미지 데이터 등은 모두 빅데이터의 한 종류이다.

 

Veracity(신뢰성)

빅데이터를 이용하려면 정확하고 신뢰할 수 있어야 한다. 의사결정에 중요한 영향을 미치는 정보를 생성하기 때문에 정확성과 신뢰성이 매우 중요하다.

 

Value(가치)

빅데이터는 기업의 경쟁력과 수익을 향상시키는 데 활용될 수 있다. 예를 들어, 빅데이터를 통해 고객의 행동을 분석하여 마케팅 전략을 수립하거나, 생산공정의 효율성을 개선하거나, 고객서비스를 향상시킬 수 있다.

 

빅데이터는 기업의 의사결정, 마케팅, 생산공정, 고객서비스 등 다양한 분야에서 활용될 수 있는 잠재력을 가지고 있다. 빅데이터를 효과적으로 활용하기 위해서는 데이터를 수집, 저장, 분석, 시각화할 수 있는 기술이 필요하다. 또한, 데이터의 정확성과 신뢰성을 확보하기 위한 조치들이 필요하다.

 

빅데이터를 좀 더 피부에 와닿게 이해하기 위해 몇 가지 사례를 살펴보도록 하겠다. 

 

빅데이터-묘사-사진
모바일로 생성되는 데이터 양이 엄청나다. 한국은 스마트폰 보급율 최상위 국가다

 

사례로 보는 빅데이터

구글의 독감 예보시스템

구글에서는 실시간 검색어 분석을 통해 지역별 독감 유행 정보를 제공하고 있다. 특정 지역 주민들의 독감 관련 검색어 빈도를 분석해 독감을 예보하는데, 미국 보건당국보다 빠르게 서비스하고 있다. 전문적인 의료 진단 없이 엄청난 양의 데이터 분석만으로 보건당국보다 더 빠른 예측을 내놓는 것이다. 그리고 시간이 지나 결과를 비교해 보면, 구글의 예상과 공식 데이터가 거의 일치하는 결과를 보여준다고 한다.

 

아마존의 상품추천 서비스

아마존은 이용자의 과거 구매패턴을 분석해 최적의 상품을 추천해 주는 서비스의 시초라 할 수 있다. 웹사이트에서 발생하는 고객활동들을 분석해 상품을 추천해 주는 서비스는 이제 일상화되어 있다. 쿠팡만 해도 상품을 검색하는 단계에서 추천을 제공할 뿐만 아니라 결제 직전 단계에서 다시 한번 관련상품의 구매를 유인하고 있다. 소비자의 마음을 본인보다 더 잘 아는 듯한 착각이 들 때도 있을 정도다.

 

서울시의 심야버스 노선 수립

서울시가 심야버스 노선을 새롭게 개선할 때, 빅데이터가 큰 역할을 한 것으로 알려져 있다. 심야시간대의 KT 통화량 데이터와 서울시가 보유한 교통 데이터를 결합해 유동인구 패턴 분석을 통해 최적 노선 설계에 활용한 것이다. 

 

범죄 예측시스템

정부는 기존의 범죄 데이터에 날씨, 공간, 지역별 인구통계, 유동인구 등의 정보를 결합해 장소, 시간대별 범죄 발생 가능성을 도출하는 시스템을 구축할 예정이다. 범죄 예방에 얼마나 기여할 수 있을지 예측하기는 힘드나, 효율적으로 경찰 행정력을 사용하는 데는 많은 도움이 될 것으로 예상된다.

 

빅데이터의 어두운 면

지금까지 빅데이터의 정의와 특징, 그리고 몇 가지 사례들을 살펴보았다. 디지털경제의 확산으로 데이터 양이 폭증하면서 빅데이터의 수요는 분명히 폭발적으로 증가할 것이다. 그리고 다양한 분야에서 보다 쉬운 의사결정이 가능해질 것이고, 효율성도 증대될 것이다. 그러나 빅데이터의 긍정적인 면만 부각해서는 안된다. 우리도 모르는 사이 개인정보가 수집되고 유출되는 사고 역시 크게 늘어나고 있다. 그리고 사고가 발생할 때마다 납득할 만한 책임을 지는 사례는 별로 없는 것 같다.

 

미국의 경우 미국 국가안보국이 개인들의 통화내역과 인터넷 사용내역을 수집해 왔다고 폭로된 적이 있다. 미국의 공공기관이 구글, 페이스북 등 다양한 서버에서 사용자들의 검색기록, 사진, 이메일 등을 수집해 왔다는 것이다. 이에 미국 정부는 일부 사실을 시인한 바 있다. 독재국가의 경우 빅데이터가 시민 감시 도구로 활용될 수 있음을 보여주는 사례라 하겠다. 정보의 양이 방대해지고 분석기법이 발전할수록 개인정보 보호와 합리적 이용방안에 대한 더 많은 논의와 고민이 필요해 보인다.

댓글