Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
NIA
BIG
DATA
SEM
INAR 2
012
빅 데이터 개요
2012.02.21
솔트룩스 이경일
NIA 빅 데이터 세미나
NIA
BIG
DATA
SEM
INAR 2
012
이 경 일 Tony LEE
주식회사 솔트룩스
대표이사 사장
• KM/ECM 협의회, 회장
• 인하대 정보통신공학부, 겸임부교수
• STI International, Board Member
• 컴퓨터지능소사이어티, 이사
• ISO TC37, 전문위원
• KICT, 초빙 연구위원
• 지경부 WBS 외, 기획/자문 위원
• 휴먼테크논문대상, 삼성전자(1995)
• 신SW상품대상, 지경부장관(95,03,10)
• 사회공헌대상, 벤처협회(1999)
• 대한민국SW대상, 대통령(2010)
• 대한민국 포장산업훈장, 대통령(2011)
2
Communicating Knowledge 3
빅 데이터 세상
NIA
BIG
DATA
SEM
INAR 2
012
더 웹 (The Web)
검 색
정 보
웹 2.0 (Social Web)
소셜네트워크
사 람
모바일 & 데이터의 웹
분 석
빅 데이터
사물 웹?
예 측?
지 능 화?
데이터 수집 세상의 이해 최 적 화
2000 2005 2010 2015 2020
웹 도대체 무슨 일이 있었지?
4
NIA
BIG
DATA
SEM
INAR 2
012
5
Smart Phone
Social Media
(matthew Komorwski, 2010)
1 1억
진정한 혁신 > 낭비 하도록 만들기
NIA
BIG
DATA
SEM
INAR 2
012
6
인류가 가진 데이터 1.8 ZETTA bytes
NIA
BIG
DATA
SEM
INAR 2
012
7
어떤 종류의 데이터가 있는가?
King of Data : Linking Open Data
+ 소셜 미디어 데이터
+ 민간/기업 보유 데이터
+ 비공개 정부 데이터
공개된 공공/학술 데이터
NIA
BIG
DATA
SEM
INAR 2
012
It’s
8
too Huge ,
Fast and
to understand and utilize them.
Heterogeneous
Big Data
Issues
(3V)
+ 1V : Value
NIA
BIG
DATA
SEM
INAR 2
012
9
그런데 크기가 문제인가?
YES, 하지만 크기 자체만의 문제는 아니다.
VS.
파편화가 더 큰 문제이다.
NIA
BIG
DATA
SEM
INAR 2
012
해 아래 새로운 것은 없다. 너무 많고 파편화된 데이터 세상을 이해하기가 점점 힘들어짐
검색
정보/서비스 버블
너무 많은 콘텐트/서비스 엄청난 생성/유통 속도 저품질의 콘텐트 난립
접근성의 확보
관련성에 따라 콘텐트의 노출 순서를 조정
새로운 가치 생태계
소비자가 곧 전문가(프로츄어), 사용자 중심의 서비스 혁명
사람과 기계(알고리즘)의 협력 상황기반 개인 맞춤형 서비스
취합,군집,필터링,부가정보 열정, 전문성 기반한 품질 확보
랭킹, 기계적 내용 분석 통제할 수 없는 콘텐트
소셜 버블
난립하는 소셜 서비스 소셜 과부하와 스트레스 정리되지 않는 파편들
필터 버블
알고리즘에 의한 획일화 개인화에 따른 단절 인간미 없는 서비스
3 Bubbles
관심과 가치부여 사람(전문가)에 의한 일관된 콘텐트 품질의 거버넌스
소셜 큐레이션
인간+기계
협력 분석
서비스의 진화
10
NIA
BIG
DATA
SEM
INAR 2
012
11
매킨지가 빅 데이터 가치에 대해 말하기를
300조 원 빅 데이터를 활용한 미국 헬스케어 1년 잠재 매출, 스페인 1년 총 헬스케어 매출의 두 배에 해당
380조 원 빅 데이터를 활용한 EU의 공공 부문 잠재 매출, 그리스 GDP보다 큰 규모로 발전 전망
600조 원 모바일 사용자의 개인 위치 정보를 활용한 소비자 잉여 발생과 기업의 이익 상승 효과
60 % 빅 데이터 활용을 통해 유통, 소매 부문의
영업 마진 및 운영 이익 증대 기대
150만 명 미국 내에서 필요한 빅 데이터에 익숙한 관리자와 분석 전문가가, 새로운 고용 증대 요소
Communicating Knowledge 12
비정형 빅 데이터
분석 기술
NIA
BIG
DATA
SEM
INAR 2
012
13
소셜 데이터
기업 데이터
금융 데이터
통신 데이터
안보 데이터
의료 데이터
사회, 시장 트랜드 분석
고객, 시민 목소리 분석
제품, 서비스 평판 분석
경쟁자 모니터링, 분석
사업 리스크 감지, 분석
부정 사용자, 비리 감지
빅 데이터 분석 플랫폼 심층 분석 서비스 기대 효과
클라우드 컴퓨팅 인프라
데이터 수집/통합/관리 인프라
분석 기술 인프라 자연어처리, 기계학습, 통계, 시맨틱/추론
분석 서비스 컴포넌트 트랜드, 분류, 군집, 사회망, 인물, 감성
분석 워크플로우 시스템
분석 서비스 응용 및 시각화
분산, 병렬처리 인프라 하둡, NoSQL(HBASE, mongoDB, …)
실시간 마케팅 최적화
경쟁 전략 최적화
동적 비용 최적화
신 사업, 정책 발굴
위험 조기 감지 사전 대응
비정형 빅 데이터 분석 플랫폼
NIA
BIG
DATA
SEM
INAR 2
012
14
비정형 빅 데이터 분석 기술
NLP
Machine Learning
Text Mining
Cloud, NoSQL
IR (Search)
Visual- ization Semantics
Crawling
Statistics (R)
NIA
BIG
DATA
SEM
INAR 2
012
15
소셜 미디어 분석?
“누가, 누구에게, 무엇을, 왜 말했는지, 그리고
어떻게 확대 되고, 어떤 영향을 주었는지?” [Laswell]
• 사람 : identifying user, understanding preference,
behavior, intention
• 네트워크 : understanding network structure, finding hub,
maven, sub-network, path, life-cycle
• 메시지 : understanding trends, hot issues, influences
Studying about
사람 + 네트워크 + 메시지(콘텐트)
NIA
BIG
DATA
SEM
INAR 2
012
소셜 미디어 분석 프로세스 이해하기
Content Collection
Content Archiving
Meta-data Extraction/ Annotation
Keyword & Topic
Extraction
Content Classification
Content & Meta-data Indexing
Searching & Querying (Selection)
Induction & Deduction
Network & Trend Analysis
User Profiling
(behav. prof.)
Sensing & Forecasting
Visualization & Interaction
Crawling
Open API
Data model
Cloud tech
Wrapping
Parsing
NLP, ML
Lang re-src
Taxonomy
ML(SVM..)
Idx model
Cloud tech
Federation
Ranking
Models
Rules
Algorithm
Statistics
It’s so complicate and sophisticate process
User Model
Algo/Stat.
S/F-Model
Algo./Stat.
UX Model
Algorithm
16
NIA
BIG
DATA
SEM
INAR 2
012
17
when
BigData met AI
NIA
BIG
DATA
SEM
INAR 2
012
18
Apple Siri (iPhone 4S) IBM Watson (Jeopardy)
Google Voice Translator
빅 데이터가 인공지능(AI)을 만났을 때
Communicating Knowledge 19
빅 데이터 기반
스마트 정부 구현
NIA
BIG
DATA
SEM
INAR 2
012
20
NIA
BIG
DATA
SEM
INAR 2
012
21
NIA
BIG
DATA
SEM
INAR 2
012
22
NIA
BIG
DATA
SEM
INAR 2
012
23
NIA
BIG
DATA
SEM
INAR 2
012
24
NIA
BIG
DATA
SEM
INAR 2
012
25
NIA
BIG
DATA
SEM
INAR 2
012
26
NIA
BIG
DATA
SEM
INAR 2
012
27
Communicating Knowledge 28
빅 데이터 분석 사례
NIA
BIG
DATA
SEM
INAR 2
012
빅 데이터 분석 응용 사례
29
실시간성
비정형성
소셜 미디어 분석 (트랜드, 감성, 이슈 분석 외)
금융, 통신 부정 사용 감지
도시 관제, 재난 대응
모바일 서비스 개인화
국방, 보안 관제 / eDiscovery
공공 정책 발굴, 관리
고객, 시민 목소리 (VOC) 분석
의료, 헬스케어 서비스
1s
1m
1h
1d
1w
기술, 학술 정보 분석
정형 반정형 비정형
NIA
BIG
DATA
SEM
INAR 2
012
빅 데이터 분석 응용 사례
30
공공 데이터
소셜 데이터 기업 데이터
기업 평판 분석
사회 이슈 분석
의료 정책 분석 복지 서비스
서비스 개인화
국가 정책 최적화
기업 위험 관리
e-Discovery
금융 사고 방지
마케팅 최적화
고객 목소리 분석
범죄 예방
질병 예방
국방, 안보
도시 관제
사업 전략 최적화
NIA
BIG
DATA
SEM
INAR 2
012
31
빅 데이터 5단계 사업 모델
1단계
2단계
3단계
4단계
5단계
NIA
BIG
DATA
SEM
INAR 2
012
통신 빅 데이터 : 개인화, 맞춤 추천
32
NIA
BIG
DATA
SEM
INAR 2
012
33
하이브리드 시맨틱 분석 기술 적용
NIA
BIG
DATA
SEM
INAR 2
012
Sensor Monitoring Discover Leakage Area
Infer Leakage Pipe Link Automatic Alert Recom. Detour Path
Leakage Detection
34
스마트 시티 빅 데이터 : 매설물 관리
NIA
BIG
DATA
SEM
INAR 2
012
35
Data: Traffic Flow and Speed Prediction (Milano)
Traffic data from Milano (Italy)
Data ranging from Mar. 07 to July 09
5 min. sampling rate for flow & speed
Traffic flow & speed from
209 sensors that are able to classify vehicles, and
757 non classifying sensors
Weather data provided from http://www.ilmeteo.it
1 hour sampling rate for weather data
Milano City Sensor Map
Sensors – Crossroads – Street Categories (multi-colored)
스마트 시티 빅 데이터 : 교통 최적화
NIA
BIG
DATA
SEM
INAR 2
012
36
국방/안보 빅 데이터 : 정보 분석
36
NIA
BIG
DATA
SEM
INAR 2
012
기업 빅 데이터 : e-Discovery
37
NIA
BIG
DATA
SEM
INAR 2
012
38
학술 빅 데이터 : 전문가 추천
NIA
BIG
DATA
SEM
INAR 2
012
39
기술 빅 데이터 : 트랜드 센싱
NIA
BIG
DATA
SEM
INAR 2
012
40
고객 빅 데이터 : 고객 목소리 분석(VOC)
NIA
BIG
DATA
SEM
INAR 2
012
41
소셜 빅 데이터 : 트랜드, 평판 분석
NIA
BIG
DATA
SEM
INAR 2
012
소셜 빅 데이터 : 트랜드, 평판 분석
42
TrueStory.co.kr
NIA
BIG
DATA
SEM
INAR 2
012
43
미국 헬스케어 시장에서만
연 300조원의 빅 데이터 산업 성장 예상
NIA
BIG
DATA
SEM
INAR 2
012
44
맺 음 말