빅데이터

업데이트: April 18, 2020

본 내용은 인공지능의 이해의 내용을 참조하여 작성하였습니다.

빅데이터

인공지능 수업을 들으며 인공지능과 빅데이터 간의 어떠한 관계가 존재하는가에 대해 의문이 생길 것이다. 오늘은 그 관계성에 대해 알아보는 시간을 가져보겠다.

인공지능은 머신러닝 기법들을 이용해서 기계를 학습하는 방법이다.
이러한 인공지능이 발전하는 시기에 웹의 대중화가 일어나고 컴퓨터의 보급이 증가하게 됨으로써 데이터가 증가하게 됐다.
우리는 이 데이터를 머신러닝 기법에 적용해 학습을 시키고 문제를 풀어나가게 된다. 이와 같이 데이터와 인공지능은 뗄 수 없는 관계에 있다.

빅데이터의 개요

컴퓨터의 사용이 보편화 되면서 웹상에 수많은 데이터가 생성되기 시작됐다. 처음엔 이를 처리할 수 있는 툴이 존재했지만,
데이터의 폭발적인 증가로 일반적인 툴로 분석하기에 어려움이 생기게 된다. 이처럼 처리하고 저장하기 힘든 대용량의 데이터를 빅데이터라 한다.

우리는 이 빅데이터를 어떻게 활용하면 좋을까?

정확성에 초점을 맞추 활용하는 것이다. 우리는 현재까지의 데이터를 이용해 미래에 일어날 일을 여러번의 검증 과정을 거쳐 정확히 예측 하는 것이다.
즉시성에 맞춰 활용하는 것이다. 우리에게 현재 필요한 것이 무엇인지 우선순위를 정해 그에 맞춰 문제를 해결 하는 것이다.

여기까지 빅데이터의 의미와 활용법에 대해 알아보았다.

다음은 BI 분석 방법과 빅데이터 분석 간 차이를 알아보겠다.

BI와 빅데이터 분석의 차이

BI는 기업의 내 구조화 된 데이터를 바탕으로 기업의 현황과 동향을 파악해 문제점을 발견과 발전 방향을 제시한다.
하지만, 빅데이터는 기존에 분석하지 못했던 비구조화된 데이터와 기업 내외부의 다양한 데이터를 활용해 미래에 발생한 문제들에 대한 예측을 제시한다.

그렇다면 이를 어떤 방법으로 분석해 나가야 할까?

분석 목표 수립 단계

먼저, 현재 사용 가능한 데이터와 활용 가능한 분석 기술을 바탕으로 분석 목표를 세운다.
그 후, 일에 대한 우선 순위를 결정해 시급하게 처리해야할 문제를 선정한다.

분석 대상 범위의 선정과 선별

문제가 선정 됐다면, 분석 대상의 범위를 선정해야 한다.
빅데이터의 경우 광범위한 시게열 특성을 가진 데이터를 분석하는 경우가 많기 때문에 사용할 데이터의 범위를 선정하고,
사용할 데이터가 실제 데이터와 비슷한 특성을 지니는지에 대한 판단을 다양한 검색 기술과 의미 분석을 통해 이뤄져야 한다

분석 방법의 선택 및 수행

데이터와 범위의 선정이 이뤄지면,
데이터에 대해 일련의 실험을 반복하여 분석 목표에 맞는 최적의 분석 기법을 탐색한다.
머신러닝 기반의 기법을 사용할 때는 지속으로 최신의 데이터를 학습하여 진행해야 한다.

분석 결과의 해석

마지막으로 분석 기술을 통해 도출 된 결과를 해석해야한다.
여러 시각적인 방법을 이용해 데이터의 가치와 시사점을 파악해 분석의 결과를 제공해야한다.

위에서 우리가 다룬 것은 빅데이터가 무엇이고,
어떻게 분석해야 하는지에 대한 방법론적인 내용을 다루었다.

다음은 빅데이터를 분석하는 기술에 대해 알아보겠다.

빅데이터의 분석 기술

자연어 처리(NLP)

자연어 처리는 우리가 사용하는 언어로 부터 패턴과 관계를 추출하여 의미있는 정보를 찾아내는 기법이다.

대표적인 예로는
텍스트로 부터 정보를 추출하는 텍스트 마이닝
글의 긍부정을 구분하여 선호도를 판별하는 오피니언 마이닝
웹 상의 정보를 통해 의미있는 정보를 추출하는 웹 마이닝
소셜 미디어로 부터 의미있는 정보를 추출하는 소셜 마이닝
현실과 밀접한 휴대폰 등 모바일 기기를 통해 얻은 정보로 의미있는 정보를 추출하는 현실 마이닝이 있다.

다음은 빅데이터를 어떻게 분류해야 하는 지에 대해 알아보겠다.

빅데이터의 데이터 분류

비정형 데이터

고정 된 틀에 맞춰 저장되지 않은 데이터로,
텍스트, 이미지, 동영상, 음성 데이터가 이에 속한다.

정형 데이터

고정 된 틀에 맞춰 저장 된 데이터로,
RDMBS, 스프레드 시트 등 있다.

반전형 데이터

고정 된 형식에 맞춰 저장되 있진 않지만, 메타 데이터나 스키마 등을 포함하는 데이터로,
XML, HTML 등이 있다.

우리는 정형 데이터에 대해 분석을 실시해 왔다.
하지만, 빅데이터 시대에 들어오면서 다양한 형태와 구조화 되지 않은 데이터를 접하게 된다.
이러한 데이터를 처리하기 위해선 어떻게 해야할까?

비정형 데이터 분석

데이터 획득

정형데이터와 달리 다양한 형태로 관리되고 제공될 수 있기 때문에 데이터를 획득 하는 방법도 다양하다.
누군가에게 직접적으로 데이터를 제공 받을 수 있거나,
API를 이용해 데이터를 획득하거나,
크롤링을 이용해서 데이터를 추출한다.

정규화 및 변환

우리는 얻은 데이터를 우리가 분석하기 쉽게 변환 시켜줘야 하는데 이를 정규화라한다.
분석 목적과 범위에 따라 사용되는 비정형 데이터도 무수히 많이 존재하기에 사전에 어떻게 처리할 것인지에 대한 기준을 정확히 세우고 적절히 변환하여 처리해야 한다.

선별 및 분류

분석 목적에 따라 획득 된 데이터 중 실제로 필요하고 필요하지 않은 데이터를 선별 및 분류 해야한다.

마이닝 및 패턴 식별

비정형 데이터의 분포와 동향 등을 살펴봐 이상 현상을 식별하고 그 현상들 간의 관계 및 패턴을 파악해야 한다.

심층 분석 및 시각화

추출 된 특성과 패턴들을 바탕으로 다양한 기법을 적용하여 관계를 정확히 규명하고 최종적으로 이를 적합한 방식으로 시각화 하여 직관적으로 표현해야 한다.

Twitter Facebook LinkedIn

Hodurie

빅데이터

빅데이터

빅데이터의 개요

BI와 빅데이터 분석의 차이

분석 목표 수립 단계

분석 대상 범위의 선정과 선별

분석 방법의 선택 및 수행

분석 결과의 해석

빅데이터의 분석 기술

자연어 처리(NLP)

빅데이터의 데이터 분류

비정형 데이터

정형 데이터

반전형 데이터

비정형 데이터 분석

데이터 획득

정규화 및 변환

선별 및 분류

마이닝 및 패턴 식별

심층 분석 및 시각화

공유하기

댓글남기기

참고

선형대수학 - 01. Vector

Linked List 01

Softmax Regression(Multinomial Logistic Regression) 01

Logistic(Regression) Classification TensorFlow 구현