가정관리학연구법

가정교육과, 생활과학, 가정학 등 가정관리학연구법 요점 요약 정리 7. 데이터 분석의 준비

공갱! 2022. 11. 19. 10:26
반응형

7장 데이터 분석의 준비  

 

7.1 부호화 및 데이터 입력

(1) 자료정리 및 컴퓨터 입력단계

질문지 편집과 검토

질문지 검토과정에서 실제 분석에 사용할 수 없다고 판단되는 질문지는 제외한 후 편집

문항의 완결성, 정확성 검토

자유응답형 문항의 응답처리

부호화

수집된 자료의 통계적 분석을 위해 일정원칙에 따라 응답에 숫자 부여

폐쇄형 질문 : 이미 응답번호가 부여되어 있는 부호화 과정 생략 가능

개방형 질문 : 여러 응답자의 응답내용을 면밀히 검토한 후 적절히 분류하여 숫자 부여

컴퓨터 입력

컴퓨터를 이용한 자료의 분석을 이해 자료를 컴퓨터에 입력

입력한 자료는 잘 저장하여 필요할 때마다 편리하게 쓸 수 있도록 보관

자료정선

모든 자료가 정확하고 일관성을 지니고 있는지 확인하면서 오류를 찾아내어 수정하는 작업

오류는 조사과정은 물론, 입력과정에서도 발생

 

(2) 부호화 지침서의 작성

포괄성, 상호배타성을 충족하도록 부호화

어떤 응답이든 하나의 값으로만 부호화함

무응답 내용유형별 처리 결정

각 질문지의 ID, 변수명, 면접원 및 부호화 작업자 ID포함

개방형 질문의 응답범주를 지나치게 세분화하지 않도록 유의

각 응답범주에 최소 10% 정도의 사례가 포함되도록 분류

미리 충분한 응답사례를 검토하여 부호화 지침서 작성

 

(3) 자료입력

자료파일의 작성 및 저장

편집 및 부호화 작업이 끝나면 컴퓨터로 분석할 수 있도록 자료를 컴퓨터에 입력하여 자료파일로 작성

보조기억장치를 활용하여 저장

통계패키지 프로그램 활용(엑셀, 미니텝, SPSS)

컴퓨터에 대한 전문지식 업이 통계적 분석에 대한 이해만으로도 기본사용법만 익혀 쉽게 입력 및 분석 수행 가능

코딩설계

자료를 입력하기 전에 간편하고 효과적인 방안 구상

문항 번호, 변수명, 자료입력열, 자료입력 코드값 등 명시

회수된 질문지 일련번호(ID) 활용 자료 입력과정의 오류수정을 위한 귀중한 정보로 활용(통계분석을 위한 코딩비용은 전체 20~30% 정도를 차지

 

(4) 자료정선

자료정선 : 입력된 모든 자료의 정확성, 일관성 확인 오류를 찾아내어 수정

 

자료정선의 방법

1차적 방법 : 자료파일의 각 열에 나타난 값을 전반적으로 검토, 적절치 못한 이상치를 찾아 수정

디버깅 과정 : 입력과정상의 오류 점검

- 입력과정상의 오류 점검

- 각 변수의 입력범위, 변수 간의 논리적 일관성 등 확인

- 잘못된 입력, 조사상의 실수로 인하 오류 수정 미리 기초적인 통계자료 분석 실시

오류의 수정 절차

1. 원래 질문지를 찾아 입력된 값과 대조 부호화, 입력과정 등에서 발생한 오류 확인

2. 응답자, 부호화 작업자 등과 다시 접촉 응답의 확인, 누락된 부분 보충

3. 이상치가 발생하는 원인을 여러 방법으로 추정

4. 어떤 방법으로도 확인이 안 될 경우의 처리 : 특정 문항의 응답을 모두 버리거나 결손자료로 처리

5. 특별히 오류가 많은 사례 - 분석에서 제외할 것인지 검토(신중히 결정하여야 함)

 

7.2 데이터의 분석 준비

(1) 데이터 관련 기본용어

케이스 : 한 조사단위에 대한 정보의 집합체()

변 수 : 조사단위로부터 측정된 개별적인 속성()

변수명 : 각 변수에 부여한 명칭

측정의 수준

척도 내용
명목척도 - 각 조사단위의 속성, 범주를 분류하여 수치를 부여한 측정값
- 구분에 대해 서로 다른 임의의 숫자를 일대일로 대응하여 표현
- 각 범주를 구분하는 역할 이외에 다른 의미는 없음
- 측정된 숫자는 단지 구분을 목적으로 부여한 기호에 불과
수치간 대소 비교, 연산은 무의미
인종
성별
종교
순서척도 - 어떤 특성을 많고 적음에 따라 수치를 부여함 맛의 정도
전공 만족도
구간척도 - 연속형 값
- 두 값의 차이만 의미가 있고, ()는 의미 없음
- 절대 0을 정의할 수 없음
섭씨와 화씨
IQ점수
적성검사점수
비율척도 - 두 값 사이의 차이뿐 아니라 비도 의미 있음
- 측정값의 의미는 구간척도와 거의 비슷하나, 절대0은 정의할 수 있음
- 비율척도는 한 단위가 다른 단위에 비해 특성을 몇 배 더 가짐을 의미
소득액
몸무게
노동시간

 

같은 특성을 다른 측정수준으로 조사하는 경우, 각 변수의 정보량 비교

명목척도 < 순서척도 < 구간척도 < 비율척도

구간척도로 구한 수를 순서척도로, 명목척도로 사용 가능

ex. 연령 - 구간척도 : 생후의 년수(00)

- 순서척도 : 유아기 소년기 청년기 중년기 노년기

20세미만, 20~29, 30~39, 40~49, 50~59, 60세 이상

- 명목척도 : 피부양인구(0~14/65세 이상), 부양인구(15~64)

독립변수와 종속변수

독립변수 종속변수
- 다른 변수(종속변수)에 영향을 미치는 변수
- 종속변수를 설명하거나 예측함
- 변수의 값이 다른 변수(독립변수)의 영향을 받는 변수

11강 자료의 도표와 수치에 의한 정리(11,12)

 

기술통계학 : 그래프로 자료 요약, 정리, 수치로 자료요약 정리

(1) 그래프에 의한 기술통계

질적자료 : 원그래프, 막대그래프

양적자료 : 히스토그램, 줄기-입 그림, 상자그림, 점도표, 꺽은선 그래프

(2) 수치에 의한 기술통계

중심위치 : 평균, 중앙값, 최빈값

변동 : 사분위수, 범위, 분산, 다섯수치요약, 표준편차

* 변동측정 : 개별 자료의 관측값들이 평균으로부터 얼마나 떨어져 있는지 측정

원그래프 : 하나의 원이 전체자료 크기를 나타내고, 자료의 범주별 구성비에 따라 부채골로 제시

막대그래프 : 변수값으로 가로축, 관측도수를 세로축으로 하여 각 범주에 속한 비율을 막대로 표시

히스토그램 : 도수분포표에서 계급을 밑변으로 하고, 그 계급에 포함되는 자료의 도수에 비례하는 면적을 가진 직사학형 막대를 띄우지 않고 나열하여 제시

줄기-잎 그림 : 실제 자료값을 사용하여 제시하므로 자료의 최소값, 최대값, 각 구간 내부에 있어서의 자료의 분포에 대한 정확한 정보를 제공함

상자그림 : 다섯수치요약을 그림으로 나타냄, 상자의 길이에 따라 퍼짐 정도의 상대적 비교가 가능

점도표 : 자료의 분포를 실직선 위에 점이나 X로 나타내는 그래프

꺽은선그래프 : 시간 변화에 따라 증가하고 감소하는 변화양상을 나타낼 때 유용

- 장기간 조사된 기상자료, 20년간의 소비자물가지수 변동, 10년간 분기별 사교육비 지출 변동

 

 

추축통계학 : 표본 자료를 분석하여 연구대상 전체에 관해 추측하고 일반화시키는 통계학의 분야

모집단 : 연구에서 궁극적으로 관심이 되는 대상

- 모집단의 정의에 따라 표본자료 분석 결과를 일반화 할 수 있는 범위가 달라짐

표본 : 모집단에서 추출되어 조사되는 일부 집단

모수 : 우리가 관심을 가지고 조사변수에 대한 모집단 전체의 특성값을 의미

- 표본으로부터 얻은 통계값을 이용하여 모수를 추정함

 

 

변수의 종류

(1) 질적변수

- 범주형 자료의 관찰값을 의미, 덧셈, 뺄셈 등의 연산의 의미가 없음

- . 학력수준(1.중졸이하, 2=고졸, 3=대졸이상) 순서척도, 명목척도

(2) 양적변수

- 길이, 무게와 같이 양적 수치로 측정하거나, 몇 개인지 세어 추정

이산형 변수 : 측정결과가 유한하고 개수를 셀 수 있는 경우

- 소수점이하 측정 불가

- 명목척도,서열척도와 관련(종교를 가진 사람과 종교가 없는 사람, 자녀수, 중간시험 5문제중 맞힌 개수)

연속형 변수 : 실수 구간 안의 모든 값을 가질 수 있는 경우

- 무한대로 미분 가능 거의 무한개의 값을 가짐

- 구간척도, 비율척도와 관련(소득, 출산율, 가사노동시간)

 

 

중심의 측정

평균 : 조사된 모든 자료의 총합을 표본크기로 나눈 통계치

중앙값 : 자료를 크기 순으로 나열할 때 가장 가운데 오는 값

최빈값 : 가장 빈도가 높은 관찰값

 

변동의 측정

범위 : 조사된 자료에서 최대값에서 최소값을 뺀 것으로 가장 단단하게 퍼짐 정도를 구하는 방법

- 이상치가 있는 경우 그 영향을 크게 받음

- 범위 = 최대값 - 최소값

사분위간 범위 : 전체자료에서 가운데 50%에 해당하는 자료의 변동 정도를 측정

- 사분위간 범위 = 3사분위(Q)- 1사분위(Q)

다섯수치요약 : 자료의 특징을 잘 요약해주는 사분위수(Q,Q,Q), 최소값, 최대값

분산 / 표준편차

- 자료가 평균으로부터 얼마나 퍼져 있는가? - 평균으로부터 관찰값 사이의 거리를 의미

- 평균이 중심위치를 측정하는 통계량으로 쓰일 때 자료의 퍼짐 정도를 나타내는 변동 측정치

- 분산을 구한 후 제곱근을 씌움

- 표준편차의 해석

표준편차가 크면 평균을 중심으로 광범위(멀리)하게 분포,

표준편차가 작으면 평균을 중심으로 조밀하게 분포

반응형