본문 바로가기
정보관리기술사_개념/경영정보

Data Mining

by 두유_ 2024. 5. 23.

출제정보

토픽 이름() Data Mining
분류 IT 경영전략 > DW > Data Mining
키워드(암기) 연관성기법(지지도/신뢰도/리프트), 연속성, 분류, 군집화(Clustering), Machine Learning(기계학습 연계), 특성화, 의사결정트리
암기법(해당경우) AS 분데특신의

 

기출문제

번호 문제 회차
1 특정 개인의 프라이버시(privacy)를 보호하면서도 그 개인의 정보를 사용하기 위해 설계된 방법의 하나인 PPDM(Privacy Preserving Data Mining)을 정의하고, 그 기법에 대하여 설명하시오. 113.정보관리.3
2 CRISP-DM(Cross Industry Standard Process for Data Mining) 111.정보관리.1
3 8. 데이터 마이닝(Data mining)의 기법 5가지에 대하여 설명하시오. 99.정보관리.1.8
4 12. 일반적인 데이터마이닝(Data Mining)의 수행단계를 설명하시오. 98.정보관리.1.12
5 3. 데이터 마이닝(Data mining)의 과정, 기법 및 활용사례에 대하여 설명하시오. 96.정보관리.4.3
6 4.BI에서 Data mining Text Mining을 비교 설명하시오 95.응용.4.4

 

I. 합리적 의사결정을 위한 가치정보 추출, Data Mining의 개요

. Data Mining의 정의

- 대량의 데이터에 고급 통계 분석과 모델링 기법을 적용하여 데이터 간의 패턴과 관계를 도출, 의사결정에 활용할 수 있는 의미 있는 정보를 발견하는 과정

 

II. Data Mining 모델링 유형 및 Data Mining 적용 기술

. Data Mining 모델링 유형

Data Mining 적용 기술(AS 분데특신의)

기술(기법) 설명
연관성 규칙
(Association)
- 여러 개의 트랜잭션들 중에서 동시에 발생하는 트랜잭션의 연관 관계를 발견
[사례]
- 넥타이를 구매하는 고객이 셔츠를 50%이상 구매하고, 정장과 벨트를 구매하는 고객은 코트를 구매할 확률이 40% 이상
- 교차판매, 묶음판매, 상품의 진열, 쿠폰 배부 등의 분야에서 활용

연속성 규칙
(Sequence)
- 개인별 트랜잭션 이력 데이터를 시계열적으로 분석하여 트랜잭션의 향후 발생 가능성을 예측하는 것
[사례]
- A품목을 구입한 회원이 향후 H품목을 구입할 가능성은 75%이다.
- 5번 회원에게 H품목을 추천하여 마케팅의 정확성을 높임


(Classification)
- 이미 알려진 특정 그룹의 특징을 부여하고 정의된 분류에 맞게 구분
[사례]
- 신용카드 신규 가입자를 낮음/중간/높음 신용 위험 집단으로 구분
- 경쟁자에게 이탈한 고객
(이터)군집화 (Clustering) - 상호간에 유사한 특성을 갖는 데이터들을 집단화 하는 과정
- 미리 정의한 특성에 대한 정보를 가지지 않는다는 점에서 분류와 차이
- K-means 알고리즘
[사례]
- A~D의 데이터를 집단화하는 과정에서 고객 군집 별 특성을 파악함
- A 군집은 소득이 300만원 이상이고, 자녀가 2-3명이고 연령이 30대 군집
- B군집은 교육 수준이 높으며, 자녀는 모두 출가했고, 연평균 구매액이 200~300만원 정도

성화
(Characterization)
- 데이터 집합의 일반적인 특성을 분석하는 것으로 데이터의 요약 과정을 통하여 특성 규칙을 발견하는 것
경망 분석
(Neural Network)
뇌를 모방, 학습을 통한 예측(입력-은닉-출력)

사결정트리 과거에 수집된 데이터들을 분석하여 이들 사이에 존재하는 패턴을 분류, 해당 분류의 값을 예측하는데 사용

 

IV. 일반적인 Data Mining의 수행단계

. Data Mining의 수행단계 개념도

 

. Data Mining 상세 수행단계

 

IV. Data Mining OLAP 비교

. Data Mining OLAP의 개념도

- 분석 대상 데이터를 수집하여 가공 후 DW에 적제 시켜 분석 도구를 통해 사용자에게 제공

- OLAP(Online Analytical Processing)은 정보사용자가 직접 접근하여 다차원 질의를 통해 대화식으로 정보를 탐색하고 분석하는 프로세스

 

. Data Mining OLAP의 비교표

구분 Data Mining OLAP
개념 -컴퓨터 가설을 세우고 검증하는 기법
-발견형(Discovery-Driven)기법
-패턴 주론
-분석과정에서 사용자들의 사전지식 검증
-검증형(Verification-Driven)기법
- 특정 사실에 대한 가/부 판단
판정기준 가설 입증
주체 컴퓨터 사용자
요구사항 자동 추출 사용자의 방대한 지식
특징 진보적인 방법 고전적인 방식
단점 분석기법 이해 필요 사용자가 모든 질문 생각
차이점 그 뒤에 숨겨진 일반적인 경향 정보 특정 물음에 대한 정보 제공
공통점 -데이터 사이의 새로운 관계를 찾아내는 과정
-Data Warehouse의 활용을 높이는 방안

 

[참고] Apriori 알고리즘 풀이 예시

I. 연관 규칙의 3가지 척도 및 사례

- 연관 규칙을 찾아주는 알고리즘 중에서 가장 먼저 개발

 

. 연관 규칙의 3가지 척도 (A -> B)

구분 기술(기법) 설명
지지도
(Support)
- A, B를 동시에 구매하는 비율
- 지지도 = 교사건 = 교집합
Pr(AB) / Pr(*)
두 항목을 동시에 구매한 거래 수 / 전체 거래 수
신뢰도
(Confidence)
- 항목 A의 거래 중 항목 B가 포함된 거래의 비율(조건부 확률) Pr(AB) / Pr(A)
두 항목을 동시에 구매한 거래 수 / A항목의 거래 수
향상도
(Lift)
- 항목 B가 항목 A와 동시에 구매되는 경우(, 신뢰도) B 자체만 구매되는 경우의 비율 (적용)
- 독립관계 (향상도=1)
- 양의 상관관계 (향상도 > 1)
- 음의 상관관계 (향상도 < 1)
{ Pr(AB) / ( Pr(A) * Pr(B) ) } * Pr(*)
{두 항목을 동시에 구매한 거래 수 / (A항목의 거래 수 * B항목의 거래 수) } * 전체 거래 수

 

. 연관 규칙 사례 (모니터 -> 키보드)

 

[참고]

데이터 마이닝 활용 분야

분야 설명
의학 위해사건 위험사정시스템(Automated Adverse Event Risk Assessment Systems) 개발
        금융 고객의 금융거래를 분석해서 신용거래 대출한도를 결정
제조  불량품 정의 데이터를 모아서 불량품의 자동 발견
스포츠 이적 하려는 저관여팬의 이적 방지

'정보관리기술사_개념 > 경영정보' 카테고리의 다른 글

BCM (Business Continuity Management)  (0) 2024.05.24
신경망(Neural Network) 분석  (0) 2024.05.24
SoW (Statement of Work)  (0) 2024.05.22
IT Outsourcing  (0) 2024.05.21
SLA(Service Level Agreement)  (0) 2024.05.20