본문 바로가기
정보관리기술사_개념/경영정보

SEMMA 분석 방법론

by 두유_ 2024. 5. 27.

출제정보

토픽 이름 SEMMA분석 방법론
분류 IT경영전략 > (Data) Mining 총론 > SEMMA
키워드(암기) Sample, Explore, Modify, Model, Assess
암기법(해당경우)  

 
기출문제

번호 문제 회차
1 5. 최근 기업경쟁력을 강화하귀 위해 데이터 분석의 중요성이 강조되고 있다. 데이터 분석을 위한 SEMMA(SAS Enterprise Miner)분석 방법론과 CRISP-DM(Cross-0industry standard Process for Data Mining) 분석 방법론의 개념과 절차를 설명하고 비교하시오 모의2018.06.관리.2

 

I. 데이터 마이닝(Data Mining) 분석을 위한 [업계 표준 프로세스] SEMMA 개요

- SAS기업에서 개발한 [데이터 마이닝 표준 가이드]로써 Sample, Explore, Modify, Model, Assess의 단계로 구성되어
 있으며 5단계 프로세스를 순차적으로 실행하는 [데이터 분석 방법론]
- SEMMA는 SAS Enterprise Miner Tool의 작업을 수행하기 위한 기능적 논리 구성

-SEMMA 방법론은 데이터 마이닝 모델 개발 측면에 초점을 맞추고 있음.

- SEMMA는 데이터 마이닝을 위한 프로세스로, Sample, Explore, Modify, Model, Assess 다섯 가지 단계로 구성됩니다.
- 각 단계는 순차적으로 실행되며 데이터 분석을 위한 방법론으로 사용됩니다.
- 이 방법론은 SAS 기업에서 개발되었으며, SAS Enterprise Miner Tool의 작업을 수행하기 위한 기능적 논리 구성을 제공합니다.
"기능적 논리 구성"이란, 특정 목적을 달성하기 위해 필요한 작업을 논리적으로 조직화하는 것을 의미합니다.
SEMMA가 SAS Enterprise Miner Tool의 작업을 수행하기 위한 기능적 논리 구성을 제공한다는 것은, SEMMA 방법론이 데이터 마이닝과 관련된 각 단계를 수행하는 데 필요한 작업들을 논리적으로 조직화하여 SAS Enterprise Miner Tool에서 구현되고 있는 것을 의미합니다.

이는 SEMMA가 SAS Enterprise Miner Tool과 함께 사용될 때, 각 단계의 기능이 효과적으로 구현되고 작업이 편리하게 이루어지도록 설계되어 있다는 것을 의미합니다. 이러한 구성은 데이터 분석 과정을 효율적으로 진행하고 결과를 쉽게 이해하고 활용할 수 있도록 돕습니다.

- SEMMA는 데이터 마이닝 모델 개발에 초점을 맞추고 있으며, 각 단계는 다음과 같은 역할을 합니다:

  1. Sample: 분석에 사용될 데이터를 적절한 샘플로 추출합니다.
  2. Explore: 데이터를 탐색하고 시각화하여 패턴이나 특징을 발견합니다.
  3. Modify: 데이터를 정제하고 변환하여 분석에 적합한 형태로 만듭니다.
  4. Model: 데이터에 적합한 모델을 선택하고 학습시킵니다.
  5. Assess: 모델의 성능을 평가하고 결과를 해석하여 의사 결정에 활용합니다.
- SEMMA는 데이터 마이닝 프로세스를 단계적으로 진행함으로써 데이터에서 가치 있는 정보를 추출하고 의사 결정을 지원하는데 도움을 줍니다.

. SEMMA 개념도 및 단계별 프로세스

 . SEMMA의 개념도

. 단계별 프로세스

단계 설명 요소/ 산출물
추출 (Sample) 분석 데이터 표본 추출
데이터 준비
통계적 추출,
조건 추출
탐색 (Explore) 분석 데이터 탐색, 데이터 오류 검색,
비즈니스 이해, 이상현상 및 변화 탐색
그래프, 클러스터링,
기초통계, 상관분석
수정 (Modify) 분석 데이터 변환
데이터 정보 표현 극대화
표준화, 그룹화,
수량화, 변환
모델링 (Model) 분석 모델 구축,
패턴 발견, 모델링과 알고리즘 적용
Decision Tree,
Neural Network
평가 (Assess) 모델 평가 및 검증,
유용성, 정확성
Report, FeedBack,
모델검증 자료

 

  • Sample (샘플링):
    • 프로세스: 데이터 집합에서 대표적인 샘플을 추출합니다.
    • 예시: 고객 데이터베이스에서 1000명의 고객을 임의로 선택하여 샘플을 만듭니다.
  • Explore (탐색):
    • 프로세스: 데이터를 탐색하고 시각화하여 패턴이나 특징을 발견합니다.
    • 예시: 고객 데이터를 기반으로 고객의 나이 분포, 성별 비율, 구매 패턴 등을 탐색하여 시각화합니다.
  • Modify (변형):
    • 프로세스: 데이터를 정제하고 변환하여 분석에 적합한 형태로 만듭니다.
    • 예시: 결측치를 처리하거나 이상치를 제거하여 데이터의 품질을 향상시킵니다. 또는 범주형 변수를 이진 변수로 변환합니다.
  • Model (모델링):
    • 프로세스: 데이터에 적합한 모델을 선택하고 학습시키는 과정입니다.
    • 예시: 로지스틱 회귀 모델을 사용하여 고객 이탈 예측 모델을 학습시킵니다.
  • Assess (평가):
    • 프로세스: 모델의 성능을 평가하고 결과를 해석하여 의사 결정에 활용합니다.
    • 예시: 모델의 정확도, 정밀도, 재현율 등을 평가하여 모델의 성능을 평가하고, 이를 토대로 고객 이탈에 대한 전략을 수립합니다.

III. SEMMA CRISP-DM의 비교

구분 SEMMA CRISP-DM
개념 기술/통계 중심의 방법론 비즈니스 이해 기반 방법론
특징 쉬운 데이터 마이닝 도구 접목 단계 간 피드백 통한 높은 완성도

- 데이터 분석의 목적과 특성에 따라 알맞은 분석 방법론 선택 필요

  1. SEMMA:
    • 특징:
      • Sample, Explore, Modify, Model, Assess 다섯 가지 단계로 구성됩니다.
      • SAS 기업에서 개발되었으며, SAS Enterprise Miner Tool의 작업을 수행하기 위한 기능적 논리 구성을 제공합니다.
      • 데이터 마이닝 모델 개발 측면에 초점을 맞추고 있습니다.
    • 예시:
      • 예를 들어, 은행에서 고객 대출 채무 불이행을 예측하는 모델을 개발한다고 가정해보겠습니다.
        • Sample: 은행의 대출 데이터에서 적절한 샘플을 추출합니다.
        • Explore: 대출 데이터를 탐색하여 채무 불이행과 관련된 패턴을 발견합니다.
        • Modify: 누락된 값이나 이상치를 처리하고, 변수를 변환하여 모델링에 적합한 형태로 데이터를 가공합니다.
        • Model: 다양한 분류 모델을 적용하여 채무 불이행을 예측하는 모델을 학습시킵니다.
        • Assess: 모델의 성능을 평가하고, 예측 결과를 해석하여 대출 채무 불이행 가능성을 평가합니다.
  2. CRISP-DM (Cross-Industry Standard Process for Data Mining):
    • 특징:
      • Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation, Deployment 여섯 가지 단계로 구성됩니다.
      • 다양한 산업 분야에서 적용 가능한 범용적인 데이터 마이닝 프로세스로 널리 사용됩니다.
      • 비즈니스 이해와 함께 데이터 마이닝 프로젝트를 시작하고, 모델을 평가한 뒤 결과를 배포하는 과정을 포함합니다.
    • 예시:
      • 예를 들어, 온라인 리테일러가 구매 패턴을 분석하여 고객의 구매 성향을 예측하는 모델을 개발한다고 가정해보겠습니다.
        • Business Understanding: 고객의 구매 패턴을 분석하여 마케팅 전략을 개선하기 위한 목표를 설정합니다.
        • Data Understanding: 온라인 판매 데이터를 탐색하여 고객의 구매 패턴을 이해합니다.
        • Data Preparation: 구매 데이터를 정제하고 변환하여 모델링에 적합한 형태로 가공합니다.
        • Modeling: 고객의 구매 성향을 예측하는 모델을 선택하고 학습시킵니다.
        • Evaluation: 모델의 성능을 평가하고 예측 결과를 검증합니다.
        • Deployment: 모델을 실제 운영 환경에 배포하여 마케팅 전략에 활용합니다.
CRISP-DM은 SEMMA보다 더 넓은 범위의 데이터 마이닝 프로세스를 다루며, 산업 분야에 관계없이 적용할 수 있는 범용적인 프레임워크로 평가됩니다. SEMMA는 SAS Enterprise Miner와 밀접하게 관련되어 있으며, 모델 개발에 초점을 두고 있습니다.


 

. 데이터 마이닝 절차에서의 SEMMA