본문 바로가기

시장조사론

경영학, 경제학, 경영지도사 대비 시장조사론 핵심 요점 정리 55. 요인 분석 적용과정

반응형

55. 요인 분석 적용과정

 

1) 요인분석의 절차


(1) 1단계: 조사 문제 정의

고려사항 Ÿ 표본의 수는 변수 수의 3~4배 이상을 권장함. 따라서 변수 수가 늘수록 그만큼 더
많은 표본을 확보해야 하는 어려움이 따름
Ÿ 일반적으로 50개 이하이면 행하지 않는 것이 좋음. 최소한 100개 이상 되는 것이
바람직함
입력변수의
전제조건
Ÿ 등간척도나 비율척도로 측정된 양적변수(연속형 척도)가 활용됨. 이는 변수들 간의
상관관계 분석에 기초하여 이루어지기 때문임
Ÿ 독립변수는 독립적이고, 분산이 동일한 정규분포 형태가 되어야 함
Ÿ 변수들 간 상관관계가 있어야 함

 

(2) 2단계: 자료의 입력 및 표준화
입력: 연속적 측정항으로 조사된 변수의 측정단위는 무시하고 그대로 입력함
■  표준화: 측정단위를 고려하여 표준화시킨 자료로 바꿔, 측정단위의 차이로 인해 발생할 수
있는 영향을 제거함

 

(3) 3단계: 상관관계 계산(correlation matrix)

■  변수들 간 상관관계행렬을 구상함으로써 변수들 간 상호관련성 파악함
■  변수들 간의 척도가 상이한 경우: 공분산행렬(covariance matrix) 이용
■  요인분석은 궁극적으로 상관관계가 높은 변수들을 묶게 됨

 

(4) 4단계: 요인 추출모델의 선정
■  요인(factor): 서로 상관계수가 높은 변수들끼리 모아 작은 수의 변수 집단으로 나눈 것으로
변수 간 선형 결합을 의미함

■  대표적 요인추출모델의 유형

 

주성분분석(primary
component analysis)
Ÿ 데이터의 전체 분산(총분산)을 토대로 요인을 추출하는 방법
Ÿ 정보의 손실을 최대한으로 줄이면서 수많은 변수를 가능한 적은
수의 요인으로 줄이는 데 목적이 있음
공통요인분석(common
factor analysis)
Ÿ 요인분석 시, 공통영역*과 측정변수가 가지는 특유의 고유영역
, 측정변수의 공통영역을 추출하는 수학적 방법
*공통영역: 측정 변수들에 공통으로 잠재해 있는 이론적인 변수
주축요인분석(primary
axis factoring)
Ÿ 공통성(communality)의 초기 추정값으로서 대각선으로 배치된
제곱 다중 상관계수를 사용하여 원래의 상관행렬로부터 요인
추출 방법
Ÿ 대각선으로 위치하는 기존의 공통성 추정값을 대신하는 새로운
공통성을 추정하는 데 사용
Ÿ 공통성에 대한 변화량이 추출에 대한 수렴 기준을 만족할 때까지
반복은 계속됨
최대우도추정법
(maximum likelihood
estimation)
Ÿ 현상이 발생할 수 있는 우도*를 진단하고 이를 최대화할 수 있는
상태를 최적의 추정으로 가정하여 분석값을 찾는 방안
*우도: 어떤 사건이 이미 발생한 이후에, 발생한 사건이 가장
빈번하게 일어날 사건 혹은 평균적으로 일어날 사건과 일치할
확률

 

(5) 5단계: 아이겐 값을 기준으로 요인 도출
■  고유값(아이겐 값, eigenvalue)
- 총분산 중에 해당 요인(factor)이 설명하는 비율
- 각각의 요인으로 설명할 수 있는 변수들의 분산 총합으로 각 요인별로 모든 변수의 요인
적재값을 제곱하여 더한 값
- 변수 속에 담겨진 정보(분산)가 어떤 요인에 의하여 어느 정도 표현될 수 있는가를 말해
주는 비율로 먼저 추출된 요인의 고유값이 다음에 추출되는 값보다 큼

 

 

 요인이 설명해 줄 수 있는 분산의 정도를 의미함
 아이겐 값이 1이라는 것은 변수 하나 정도의 분산을 축약함
 일반적으로 아이겐 값이 1이상인 요인들을 설정함
 적어도 각 요인이 한 변수의 분산정도보다는 커야 한다고 보는 것

 

■  분산기준
- 연구주제 따라 다르지만, 일반적으로 총 분산의 60% 정도 설명하는 요인추출
- 변수의 축약과정에서 정보의 손실이 일정수준 이상으로 커서는 안 되는 경우가 있을 수
있기 때문에 분산을 기준으로 함

 

 공통분산: 하나의 변수가 다른 입력변수들과 관련되어 움직이는 공통적인 변량을
나타내는 분산임
 고유분산: 다른 입력변수들과 관계없이 해당되는 변수만이 독자적으로 가지고 있는
독특한 변량을 나타내는 분산임
 오차분산: 공통분산이나 고유분산이 아니라, 측정과정에서 무작위로 발생할 수 있는
측정오차에 따른 변동을 나타내는 분산임

 

(6) 6단계: 요인적재량(factor loading) 산출
■  요인적재량: 변수들과 요인 간의 상관계수로 요인적재값의 제곱은 해당 변수가 요인에 의하
여 설명되는 분산의 비율을 나타냄

 

요인적재량
산출 기준
■  요인적재량이 0.4 이상 되면 유의한 변수로 간주 / 0.5가 넘으면 아주
중요한 변수로 봄
■  상관관계 검정을 통해 변수의 유의성을 체크함
■  표본수, 변수의 수, 요인의 수가 변함에 따라 고려함
- 표본의 수가 증가할수록 요인적재량의 고려수준 낮춤
- 변수의 수가 증가할수록 요인적재량의 고려수준 낮춤
- 요인의 수가 많을수록 나중 요인에 대한요인적재량의 고려수준 높임

 

(7) 7단계: 요인의 회전*
■  요인의 회전: 요인행렬을 좌표계 위에서 새롭게 생각한다는 의미로 행렬의 각 성분들은 좌표
축에 최대한 근접할수록 내용적 해석이 간편함
■  직각회전(orthogonal rotation): 요인들 간의 상관관계가 없다고 가정(상관계수 = 0)하고 요
인을 회전시키는 방법으로 각 요인 간의 각도를 90도로 유지하면서 회전시킴. 즉 요인 간
독립성을 유지한 상태에서 개선하는 방법

 

배리맥스회전(VARIMAX) ■  요인행렬의 열을 단순화시키는 방법으로 보편적으로 이 방법을
사용함
■  요인행렬의 각 열에 1 또는 0에 가까운 요인적재량을 보임
■  변수와 요인 간 관계가 명확해지고 해석하기가 용이하여 단순한
요인구조를 산출 시 사용함
쿼티맥스회전
(QUARTIMAX)
요인행렬의 행을 단순화시키는 방식
한 변수가 어떤 요인에 대해 높은 요인적재량을 가지면 다른
요인에 대해서는 낮은 요인적재량을 가지게 함
■  많은 변수에 대해 문항 간 높은 적재량을 갖는 변수들의 일반적
요인을 만들어내는 데 적합함
이쿼맥스회전(EQUMAX) ■  배리맥스와 쿼티맥스를 절충한 방법

 

[직각회전 개념]

■  비직각회전(oblique rotation): 요인 간 상관관계가 있다고 가정되는 경우에 사용하는 것으로
요인 간 각도를 90도 외의 사각(사선)을 유지하면서 변수를 회전시키는 방법
[비직각회전 개념]

(8) 8단계: 요인분석 결과의 평가 – 요인적재량행렬
■  요인적재량 행렬의 각 행에서 적어도 하나의 0이 있어야 함
■ 요인적재량 행렬에서 각 열에는 최소한 common factor 수만큼의 0이 있어야 함
■  두 개씩의 열을 비교할 때 많은 변수의 적재량이 가능한 한 열에 집중되어져야 한함
■  요인의 수가 4개나 5개를 넘는 경우에는 양쪽이 모두 0이 되는 경우도 많아야 함
■  0이 아닌 변수가 가능한 한 적어야 함

 

(9) 9단계: 요인의 해석
■  요인이 추출되면 요인에 각기 명칭을 부여해야 함
■  공통된 특성을 조사하여 연구자가 주관적으로 붙이거나 요인점수를 이용하여 추가적인 연결
분석을 통하여 규명할 수 있음
■  연구자마다 상이하며 과연 요인이 의미 있게 추출되었는지에 대한 해석도 매우 주관적인 판
단에 의존함
■  해석에 있어서 연구자의 주관이 많이 개입된다 하더라도 일반적인 상식과 어느 정도 일치해
야 한다는 점을 유의해야 함


(10) 10단계: 요인의 산출 및 분석 - 요인점수를 구하는 방법
■  하나의 요인에 속하는 변수값들의 Z값을 구한 후 이를 합하여 요인점수로 정하는 방법
■  하나의 요인에 속하는 변수값들의 Z값을 구한 후 이의 평균을 요인점수로 정하는 방법
■  요인점수 계수를 이용하는 방법


2) 요인 분석 사례


(1) 분석 환경 설정

 

■  L의 치약제품 마케팅 관리자는 소비자가 치약사용으로 인한 편익을 파악하여, 치약 구매에
얼마나 중요한지를 파악하고자 함
■  다음은 치약의 중요성 평가에 사용된 편익이며, 7점 척도를 통해 각 제품 편익이 치약
구매에 있어 중요하다는 것에 동의 시
, 7, 동의하지 않으면 1점을 부여하는 형태로 자료를
수집하였음
X1: 충치예방력, X2: 치약의 미백효과, X3: 잇몸강화정도, X4: 악취제거력, X5: 풍치예방력,
X
6: 매력적인 치아, X7: 튼튼한 치아

 

(2) 상관관계 계산과 주성분분석의 실시
■  요인분석의 기본은 상관관계가 높은 변수를 함께 묶어 주는 것
■  이를 위해 상관계수를 계산하고 주성분분석을 적용하여 초기 분석 결과를 도출하게 됨

 

(3) 요인의 수 결정
■  요인의 수는 최대 변수들의 수만큼 추출이 가능함
■  본 사례의 경우 변수의 수가 7개이므로 최대 7개의 요인이 추출 가능함
■  하지만 요인분석의 목적이 수를 줄이는 데 있어, 가능한 적은 수의 요인을 추출하는 것이 바
람직함
■  이를 위해 아이겐값을 활용하게 됨(보편적으로 1이상인 요인을 선택하게 됨)


(4) 공통요인분석의 실시
■  주성분분석을 통해 도출된 2개의 요인을 대상으로 요인행렬을 산출하게 됨
■  요인행렬표에서 제시된 수치는 각 요인과 변수 간의 상관관계로 요인적재량이라 함

 

■  Communality 산출은 다음과 같이 Factor의 산출값의 제곱합을 통해 수행

 

(5) 요인행렬표와 요인회전
■  공통요인분석 시, 나타날 수 있는 문제점은 각 변수가 여러 요인과 동시에 높은 상관 관계를
보이는 것으로 X1의 경우 요인1(0.63572), 요인2(-0.54825)와 높은 상관관계를 가지고 있

■  이는 각 요인 간 명확한 구분이 이루어지지 않음을 의미하는 것이며, 이를 조정하기 위해 회
전(rotation) 과정을 거치게 됨
- 요인1은 X1, X3, X5, X7과 높은 상관관계를 가지고, 요인2는 X2, X4, X6과 높은 상관관
계를 가지는 것으로 나타남
- 요인1과 요인2는 상호독립적임

(6) 요인명의 결정
■  요인1을 구성하는 항목에 대한 검토 결과 ‘치아의 건강’, 요인2는 ‘치아의 미’ 등과 같이 네 이밍을 하게 됨


(7) 요인점수 산출
■  원래의 자료(X1~X7)에 대한 요인분석이 완료되면 각 응답자들이 대답한 값을 새로운 변수로
의 산출이 필요한데, 이를 요인점수라 함

 

Ÿ 요인점수는 요인점수계수(factor score coefficient)*를 이용하여 계산됨
- 요인점수계수: 응답자별로 각 요인점수를 구하는 데 이용된 원래 변수의 중요도(가중치)

 

3) SPSS 수행 절차


(1) 1단계: [통계분석] → [데이터 축소] → [요인분석]
(2) 2단계: [요인분석] 창에서 요인 분석할 변수를 모두 [변수] 박스에 옮김

 

(3) 3단계: [기술 통계]를 누르면 새로운 창에서 ‘초기 통계’로 지정되어 있음
■  초기 통계는 초기 communality, eigenvalue(고유치), 결정계수를 제공함

 각 변수의 특성을 보다 자세히 파악하고 싶으면 ‘일변량 통계 기술’에 표시함


(4) 4단계: [요인추출]을 누르면 [요인분석: 요인추출] 창이 나타남
■  요인추출방법으로는 ‘주성분 분석’이 가장 일반적으로 사용됨


(5) 5단계: [추출]에서 추출하고자 하는 요인 수를 지정함
■  가장 일반적인 방법은 고유값(eigenvalue)이 1이 넘는 요인만 추출하는 것임
■  다른 방법 : 미리 추출하고자 하는 요인의 수를 지정할 수도 있음

(6) 6단계: [요인회전] 창에 들어가 배리맥스(Varimax)에 표시함
(7) 7단계: 추출된 요인점수를 저장하여 다른 분석에 추가적으로 사용하고 싶으면
[요인점수]를 누르고, ‘변수로 저장’에 표시함
(8) 8단계: [옵션]을 누르고 ‘크기순 정렬’에 표시함

(9) 9단계: [확인]을 누르면 [SPSS 출력 결과] 창에서 공통성, 설명된 총분산, 성분
행렬, 성분변환행렬 등의 표가 산출됨

4) SPSS의 요인분석결과 및 해석방법


(1) 1단계: 공통성은 각 변수의 초기 값과 추출된 주요인에 의해 설명된 비율을 나타
냄(공통성은 0.4이하 일 때 낮게 평가됨)


(2) 2단계: 설명된 총분산에서 추출된 성분별 고유값이 나옴(일반적으로 사회과학에서
요구되는 설명된 총 분산은 60%이상임)


(3) 3단계: 성분행렬은 추출된 성분과 각 변수간의 관계를 나타냄
■  회전된 성분 분열 표를 통해 각각의 변수가 어느 요인과 관련이 있는가를 판단할 수 있음
■  두 요인 이상에 모두에 모두 높은 상관관계를 갖거나 어느 한 요인에도 높은 관계를 보이지
못하는 변수들이 있으면, 제거하고 다시 요인분석을 실시하는 것이 바람직함


(4) 4단계: 요인분석 결과를 토대로 다양한 기업 관련 변수들을 개별적으로 제시하지
않고, 요인별로 묶어서 제시할 수 있고, 요인점수를 이용하여 하나의 수치로 제시도 가능함


5) 요인분석 이용상의 고려사항


(1) 자료의 적합성 검정
■  요인분석의 경우변수들의 상관관계를 기초로 상관관계가 높은 변수들끼리 묶는 것임
■  의미 있는 요인분석이 위해서는 변수들 간의 상관관계가 일정수준 이상 되어야 함
■  분석 시행 전에 상관관계행렬을 검토하여 자료의 적합성 여부에 대한 평가를 내려야 함


(2) 요인 수의 결정
■  아이겐값을 기준으로 결정하거나 요인이 설명하는 분산의 정도에 따라 결정
■  요인의 수, 많은 경우: 의미 있게 나올 수 있는 하나의 요인이 의미 없는 여러 요인으로 분
리되어 버릴 위험
■  요인의 수, 너무 적은 경우: 요인구조에 문제가 생길 수 있음


(3) 상관관계의 문제
■  요인분석은 기본적으로 변수들 간의 상관계수로부터 시작됨
■  상관계수의 문제인 정규성, 범위, 분포 등의 문제를 원천적으로 포함함.
■  정규성의 문제: 표본의 수가 증가함에 따라 해결될 수 있음
■  설문지의 작성 단계와 자료수집 단계에서부터 많은 주의를 기울여야 함


(4) 회전의 문제
■  일반적으로, 직각회전(orthogonal rotation) 중 VARIMAX가 많이 이용됨
■  요인 간에 완전히 독립적이라고 보기 힘든 경우: 비직각회전 분석해야 함


(5) 원자료의 정보유지
■  원자료의 정보손실을 최소(원자료의 정보는 가능한 한 유지)
■  Communality가 높아야 함(낮은 경우: 요인분석의 의미가 희박)


(6) 요인분석의 효율성
■  4~5개 정도의 변수를 두 개의 요인으로 묶는 정도의 분석은 의미 없음

 

 

반응형