[ADsP/ADP] 1과목. 데이터 이해
1장. 데이터의 이해
1. 데이터
1) 정성적 데이터 : 언어, 문자 (예 : sns에 올린 글 등)
2) 정량적 데이터 : 수치, 도형, 기호 (예 : 나이, 몸무게, 온도 등)
2. 지식경영
1) 암묵지
- 학습과 경험을 통해 개인에게 축적된 내면화된 지식
- 개인에게 습득되어 있지만 겉으로 드러나지 않는 지식
- 오랜 경험을 통해 개인에게 습득된 무형의 지식
- 조직의 지식으로 공통화
- 외부에 표출되어 다른 사람에게 공유되기 어려움
2) 형식지
- 문서나 메뉴얼처럼 형상화된 지식
- 언어, 기호, 숫자로 표출화된 지식
- 개인의 지식으로 연결화
- 전달과 공유가 용이하다.
3. DIKW
1) 데이터(Data)
- 가공하기 전의 순수한 데이터
- 객관적인 사실
2) 정보(Information)
- 데이터를 가공, 상관관계간 이해를 통해 패턴을 인식하고 의미를 부여한 데이터
- 데이터 간의 관계 및 현상의 분석
3) 지식(Knowledge)
- 상호 연결된 패턴을 이해하여 이를 토대로 예측한 결과물
- 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화한 것
- 적용
4) 지혜(wisdom)
- 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어
데이터베이스
- 데이터의 기지
- 대량의 데이터를 축적하는 기지
- 데이터를 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합
- 체계적으로 정렬된 데이터 집합
- 데이터량과 이용이 늘어나면서 데이터를 저장/관리/검색/이용할 수 있는 컴퓨터 기반의 데이터베이스로 진화
- 정보의 집합체
1. 데이터베이스의 특징
- 통합된 데이터 : 중복 x
- 저장된 데이터 : 저장매체에 저장
- 공용데이터 : 서로 다른 목적, 공동 데이터 이용
- 변화되는 데이터 : 계속 변화하면서도 항상 현재의 정확한 데이터 유지
2. 데이터베이스의 특성
- 정보의 축적 및 전달 : 기계가독성, 검색가능성, 원격조작성 = 원거리에서도 즉시 온라인으로 이용
- 정보 이용 : 이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득, 원하는 정보를 정확하고 경제적으로 찾아낼 수 있다.
- 정보 관리 : 정보를 체계적으로 축적하고 새로운 내용 추가나 갱신이 용이하다.
- 정보기술 발전 : 정보처리, 검색/관리 소프트웨어, 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전을 견인할 수 있다.
- 경제/산업 : 다양한 정보를 필요에 따라 신속하게 제공/이용할 수 있는 인프라로서 특성을 가지고 있어 경제, 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단으로서 의미를 갖는다.
3. 데이터베이스 활용
1) OLTP(Online Transaction Processing)
- 단순한 정보의 '수집'
- 단순 자동화
- 데이터베이스의 데이터를 수시로 갱신하는 프로세싱
- 데이터 갱신 위주
2) OLAP(Online Analytical Processing)
- 정보 위주의 분석 처리
- OLTP에서 처리된 트랜잭션 데이터를 분석해 제품의 판매 추이, 구매 성향 파악 등을 프로세싱
- 데이터 조회 위주
- 쉽고 빠르게 다차원적인 데이터에 접근하여 의사 결정에 활용할 수 있는 정보를 얻게 해준다.
3) CRM(Consumer Relationship Management)
- 고객관계관리
- 고객별 구매이력 데이터베이스를 분석하여 고객에 대한 이해를 돕고 이를 바탕으로 각종 마케팅 전략을 펼치는 것
4) SCM(Supply Chain Management)
- 공급망 관리
- 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것
5) ERP(Enterprise Resource Planning) : 전사적 자원관리, 경영자원을 하나의 통합 시스템으로 재구축
6) RTE(Real Time Enterprise)
- 회사의 주요 경영정보를 통합관리하는 실시간 기업의 새로운 기업경영시스템
- 회사 전 부문의 정보를 하나로 통합
7) BI(Business Intelligence)
- 기업이 보유하고 있는 수많은 데이터를 정리하고 분석해 기업의 의사결정에 활용하는 프로세스
- 질의(query), 보고(reporting), 온라인 분석처리(OLAP), 통계분석, 예측, 데이터마이닝 등의 결합
8) EAI(Enterprise Application Integration)
- 기업 내 상호 연관된 모든 애플리케이션을 유기적으로 연동하여 필요한 정보를 중앙 집중적으로 통합, 관리, 사용할 수 있는 환경을 구현하는 것
- 손쉬운 확장 : 새로운 애플리케이션 도입 시 어댑터(Adapter)만 필요
9) KMS(Knowledge Management System)
- 기업 경영을 지식이라는 관점에서 새롭게 조명하는 접근방식
- 객체지향 DBMS : 멀티미디어 등 복잡한 데이터 구조를 관리하는 DBMS
- 데이터웨어하우스 : 방대한 조직내 분산된 데이터베이스 관리시스템을 통합, 운영 시간성을 가지는 비휘발성 데이터의 집합
- SQL : 데이터베이스와 통신을 위해 고안된 언어
2장. 데이터의 가치와 미래
빅데이터
- Mckinsey(2011) : 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
- IDC(2011) : 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
- Mayer-Schonberger&Cukier(2013) : 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일이다. 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일이다.
- 기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 창출하는 새로운 방식
- 3V : Volume(양), Variety(다양성), Velocity(속도)
1. 출현 배경
- 산업계 : 양질 전환 법칙, 고객 데이터 축적
- 학계 : 거대 데이터 활용 과학 확산
- 관련 기술 발전 : 디지털화, 저장 기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅
2. 기능
- 산업혁명의 석탄과 철 : 생산성을 획기적으로 끌어올려 사회/경제/문화 생활 전반에 혁명적 변화를 가져올 것
- 21세기의 원유 : 산업 전반의 생산성을 한 단계 향상시키고 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망된다.
- 렌즈 : 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 전반에 영향을 미칠 것. Ngram Viewer
- 플랫폼 : 그 자체로 플랫폼 역할
3. 빅데이터가 만들어낸 변화
- 사전처리 → 사후처리
- 표본조사 → 전수조사
- 질 → 양
- 인과관계 → 상관관계
4. 위기요인과 통제 방안
- 사생활침해 → 동의에서 책임으로
- 책임 원칙 훼손 → 결과 기반 책임 원칙 고수
- 데이터 오용 → 알고리즘 접근 허용
5. 데이터 활용의 3요소
1) 데이터 : 모든것의 데이터화
- 센서로부터 수집되는 데이터는 기존 비즈니스 모델 자체를 바꾸기도 한다.
- 제조업에서 서비스업으로
2) 기술: 알고리즘, 인공지능
3) 인력 : 데이터사이언티스트, 알고리즈미스트
- 데이터사이언티스트 : 빅데이터의 가치를 실현하기 위해 필요
- 알고리즈미스트 : 데이터사이언티스트가 한 일로 인해 부당하게 피해가 발생하는 것을 막기 위해 필요
6. 빅데이터 활용 기본 테크닉
- 연관규칙 학습 : 상관관계
- 유형분석 : 분류
- 유전 알고리즘 : 최적화, 점진적으로 진화
- 기계학습 : 훈련 데이터로부터 학습한 알려진 특성을 활용해 '예측'
- 회귀분석 : 두 변인(독립변수~종속변수)의 관계 파악
- 감정분석
- 소셜네트워크(사회관계망) 분석 : 오피니언 리더(영향력 있는 사람)를 찾아낼 수 있다. 고객들 간 관계 파악
3장. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
1. 빅데이터 회의론의 원인
- 부정적 학습효과 : 과거의 고객관계관리(CRM) ~ 공포마케팅, 투자대비 효과 미흡
- 부적절한 성공사례 : 빅데이터가 필요없는 분석사례, 기존 CRM 분석 성과
2. 왜 싸이월드는 페이스북이 되지 못했나?
- 데이터 분석 기반 경영 문화의 부재
- 데이터 분석에 기초해 전략적 통찰을 얻고, 효과적인 의사결정을 내리고, 구체적인 성과를 만들어 내는 체계가 없었다.
- 싸이월드 : 직관에 근거해 의사결정. 중요한 의사결정이 데이터 분석에 기초하지 않음
- OLAP와 같은 분석 인프라를 갖추고 있었지만 직관을 토대로 내린 의사결정을 보조하는 수준에 그쳤다.
- 성공적인 인터넷 기업 : 데이터 분석과 함께 시작되고 분석이 내부 의사결정에 결정적 정보를 제공
3. 'Big'데이터
- 직관에 기초한 의사결정보다 데이터에 기초한 의사결정이 중요하다.
- 데이터의 양 대신 다양성에 초점. 새롭고 다양한 정보 원천의 활용
- 무작정 빅데이터를 찾는 것이 아닌, 비즈니스의 핵심에 대해 보다 객관적이고 종합적인 통찰을 줄 수 있는 데이터를 찾는 것이 중요하다.
- 전략과 비즈니스의 핵심 가치에 집중하고 이와 관련된 분석 평가지표를 개발하고 이를 통해 효과적으로 시장과 고객 변화에 대응할 수 있을 때 빅데이터 분석은 가치를 줄 수 있다.
데이터사이언스
1. 데이터사이언스
- 과학과 인문의 교차로
- 데이터로부터 의미있는 정보를 추출(분석)하고 효과적으로 구현하고 전달
- 정형/비정형의 다양한 데이터를 대상
- 총체적 접근법
- 전략적 통찰 ~ Soft Skill
2. 데이터 사이언티스트의 역량
- 강력한 호기심
- 인문학적 통찰에 근거한 합리적 추론
- Analytics(분석) & IT 전문성 & 비즈니스 컨설팅(커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화 등)
- Hard Skill + Soft Skill
1) Hard Skill
- 빅데이터에 대한 이론적 지시 : 관련 기법에 대한 이해와 방법론 습득
- 분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적
2) Soft Skill
- 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판
- 설득력 있는 전달 : 스토리텔링, 비주얼라이제이션
- 다분야간 협력 : 커뮤니케이션
3. 인문학 열풍의 이유
1) 컨버전스 → 디버전스
- 단순 세계화/표준화/이성화 → 복잡한 세계화/다양성/관계/연결성/창조성
2) 제품생산 → 서비스
- 효용경제 → 체험경제
3) 생산 → 시장창조
- 공급자 중심의 기술 경쟁 → 암묵적이고 함축적 지식인 무형 자산
- 산출물 → 창조과정
4. 가치 패러다임의 변화
1) 1단계 : 디지털화(Digitalization)
- 가치를 형상화, 표준화
- 아날로그 세상을 어떻게 효과적으로 디지털화하는가
2) 2단계 : 연결(Connection)
- 다양한 디지털 정보를 필요한 사람에게 연결해서 효과적이고 효율적으로 정보를 연결 및 제공
- 디지털 정보와 대상들의 연결을 얼마나 효과적이고 효율적으로 제공해 주는가
3) 3단계 : 에이전시(Agency)
- 개인과 기기, 사물에 이르는 방대한 정보를 하이퍼 연결을 통해 필요한 정보를 효과적으로 제공하고 관리할 수 있는 시대로 발전
- 복잡한 연결을 얼마나 효과적이고 믿을 수 있게 관리해주는가
5. 한계
- 인간의 해석이 개입 → 사람에 따라 전혀 다른 해석과 결론.
- 모든 분석은 가정에 근거
< Data 관련 기술 >
1. 개인정보 비식별 기술
1) 데이터 마스킹
- 데이터의 속성을 유치한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성. 데이터 변조
- 개인의 사생활 침해 방지, 응답자의 비밀사항 보호하면서 통계자료의 유용성을 최대한 확보.
2) 가명처리
3) 총계처리
4) 데이터 값 삭제
5) 데이터 범주화
2. 무결성과 레이크
1) 데이터 무결성
- 데이터베이스 내의 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경/수정 시 여러가지 제한을 두어 데이터의 정확성을 보증
- 개체 무결성, 참조 무결성, 범위 무결성
2) 데이터 레이크 : 수 많은 정보 속에서 의미 있는 내용을 찾기 위해 방식에 상관 없이 데이터를 저장
'정보수집 > 데이터분석' 카테고리의 다른 글
[ADP] 5과목. 데이터 시각화 (0) | 2020.06.06 |
---|---|
[ADsP/ADP] 4과목. 데이터 분석 (0) | 2020.05.27 |
[ADsP/ADP] 3과목. 데이터 분석 기획 (0) | 2019.11.05 |
[ADP] 2과목 2장. 데이터 처리 기술 이해 :: 데이터 처리 프로세스 (0) | 2019.11.04 |
[ADP] 2과목 1장. 데이터 처리 기술 이해 :: 데이터 처리 프로세스 (0) | 2019.11.04 |
Comments