제7장 데이터 분석의 준비
7.1 부호화 및 데이터 입력
(1) 자료정리 및 컴퓨터 입력단계
① 질문지 편집과 검토
⦁ 질문지 검토과정에서 실제 분석에 사용할 수 없다고 판단되는 질문지는 제외한 후 편집
⦁ 문항의 완결성, 정확성 검토
⦁ 자유응답형 문항의 응답처리
② 부호화
⦁ 수집된 자료의 통계적 분석을 위해 일정원칙에 따라 응답에 숫자 부여
⦁ 폐쇄형 질문 : 이미 응답번호가 부여되어 있는 부호화 과정 생략 가능
⦁ 개방형 질문 : 여러 응답자의 응답내용을 면밀히 검토한 후 적절히 분류하여 숫자 부여
➂ 컴퓨터 입력
⦁ 컴퓨터를 이용한 자료의 분석을 이해 자료를 컴퓨터에 입력
⦁ 입력한 자료는 잘 저장하여 필요할 때마다 편리하게 쓸 수 있도록 보관
④ 자료정선
⦁ 모든 자료가 정확하고 일관성을 지니고 있는지 확인하면서 오류를 찾아내어 수정하는 작업
⦁ 오류는 조사과정은 물론, 입력과정에서도 발생
(2) 부호화 지침서의 작성
① 포괄성, 상호배타성을 충족하도록 부호화
→ 어떤 응답이든 하나의 값으로만 부호화함
② 무응답 내용유형별 처리 결정
➂ 각 질문지의 ID, 변수명, 면접원 및 부호화 작업자 ID포함
④ 개방형 질문의 응답범주를 지나치게 세분화하지 않도록 유의
⦁ 각 응답범주에 최소 10% 정도의 사례가 포함되도록 분류
⑤ 미리 충분한 응답사례를 검토하여 부호화 지침서 작성
(3) 자료입력
자료파일의 작성 및 저장
⦁ 편집 및 부호화 작업이 끝나면 컴퓨터로 분석할 수 있도록 자료를 컴퓨터에 입력하여 자료파일로 작성
⦁ 보조기억장치를 활용하여 저장
통계패키지 프로그램 활용(엑셀, 미니텝, SPSS)
⦁ 컴퓨터에 대한 전문지식 업이 통계적 분석에 대한 이해만으로도 기본사용법만 익혀 쉽게 입력 및 분석 수행 가능
코딩설계
⦁ 자료를 입력하기 전에 간편하고 효과적인 방안 구상
⦁ 문항 번호, 변수명, 자료입력열, 자료입력 코드값 등 명시
⦁ 회수된 질문지 일련번호(ID) 활용 → 자료 입력과정의 오류수정을 위한 귀중한 정보로 활용(통계분석을 위한 코딩비용은 전체 20~30% 정도를 차지
(4) 자료정선
자료정선 : 입력된 모든 자료의 정확성, 일관성 확인 → 오류를 찾아내어 수정
자료정선의 방법
⦁ 1차적 방법 : 자료파일의 각 열에 나타난 값을 전반적으로 검토, 적절치 못한 이상치를 찾아 수정
⦁ 디버깅 과정 : 입력과정상의 오류 점검
- 입력과정상의 오류 점검
- 각 변수의 입력범위, 변수 간의 논리적 일관성 등 확인
- 잘못된 입력, 조사상의 실수로 인하 오류 수정 →미리 기초적인 통계자료 분석 실시
오류의 수정 절차
1. 원래 질문지를 찾아 입력된 값과 대조 → 부호화, 입력과정 등에서 발생한 오류 확인
2. 응답자, 부호화 작업자 등과 다시 접촉 → 응답의 확인, 누락된 부분 보충
3. 이상치가 발생하는 원인을 여러 방법으로 추정
4. 어떤 방법으로도 확인이 안 될 경우의 처리 : 특정 문항의 응답을 모두 버리거나 결손자료로 처리
5. 특별히 오류가 많은 사례 - 분석에서 제외할 것인지 검토(신중히 결정하여야 함)
7.2 데이터의 분석 준비
(1) 데이터 관련 기본용어
⦁ 케이스 : 한 조사단위에 대한 정보의 집합체(행)
⦁ 변 수 : 조사단위로부터 측정된 개별적인 속성(열)
⦁ 변수명 : 각 변수에 부여한 명칭
측정의 수준
척도 | 내용 | 예 |
명목척도 | - 각 조사단위의 속성, 범주를 분류하여 수치를 부여한 측정값 - 구분에 대해 서로 다른 임의의 숫자를 일대일로 대응하여 표현 - 각 범주를 구분하는 역할 이외에 다른 의미는 없음 - 측정된 숫자는 단지 구분을 목적으로 부여한 기호에 불과 → 수치간 대소 비교, 연산은 무의미 |
인종 성별 종교 |
순서척도 | - 어떤 특성을 많고 적음에 따라 수치를 부여함 | 맛의 정도 전공 만족도 |
구간척도 | - 연속형 값 - 두 값의 차이만 의미가 있고, 비(比)는 의미 없음 - 절대 0을 정의할 수 없음 |
섭씨와 화씨 IQ점수 적성검사점수 |
비율척도 | - 두 값 사이의 차이뿐 아니라 비도 의미 있음 - 측정값의 의미는 구간척도와 거의 비슷하나, 절대0은 정의할 수 있음 - 비율척도는 한 단위가 다른 단위에 비해 특성을 몇 배 더 가짐을 의미 |
소득액 몸무게 노동시간 |
⦁ 같은 특성을 다른 측정수준으로 조사하는 경우, 각 변수의 정보량 비교
명목척도 < 순서척도 < 구간척도 < 비율척도
⦁ 구간척도로 구한 수를 순서척도로, 명목척도로 사용 가능
ex. 연령 - 구간척도 : 생후의 년수(00세)
- 순서척도 : 유아기 소년기 청년기 중년기 노년기
20세미만, 20~29세, 30~39세, 40~49세, 50~59세, 60세 이상
- 명목척도 : 피부양인구(0~14세/65세 이상), 부양인구(15~64세)
독립변수와 종속변수
독립변수 | 종속변수 |
- 다른 변수(종속변수)에 영향을 미치는 변수 - 종속변수를 설명하거나 예측함 |
- 변수의 값이 다른 변수(독립변수)의 영향을 받는 변수 |
11강 자료의 도표와 수치에 의한 정리(11강,12강)
∎ 기술통계학 : 그래프로 자료 요약, 정리, 수치로 자료요약 정리
(1) 그래프에 의한 기술통계
➀ 질적자료 : 원그래프, 막대그래프
➁ 양적자료 : 히스토그램, 줄기-입 그림, 상자그림, 점도표, 꺽은선 그래프
(2) 수치에 의한 기술통계
➀ 중심위치 : 평균, 중앙값, 최빈값
➁ 변동 : 사분위수, 범위, 분산, 다섯수치요약, 표준편차
* 변동측정 : 개별 자료의 관측값들이 평균으로부터 얼마나 떨어져 있는지 측정
∎ 원그래프 : 하나의 원이 전체자료 크기를 나타내고, 자료의 범주별 구성비에 따라 부채골로 제시
∎ 막대그래프 : 변수값으로 가로축, 관측도수를 세로축으로 하여 각 범주에 속한 비율을 막대로 표시
∎ 히스토그램 : 도수분포표에서 계급을 밑변으로 하고, 그 계급에 포함되는 자료의 도수에 비례하는 면적을 가진 직사학형 막대를 띄우지 않고 나열하여 제시
∎ 줄기-잎 그림 : 실제 자료값을 사용하여 제시하므로 자료의 최소값, 최대값, 각 구간 내부에 있어서의 자료의 분포에 대한 정확한 정보를 제공함
∎ 상자그림 : 다섯수치요약을 그림으로 나타냄, 상자의 길이에 따라 퍼짐 정도의 상대적 비교가 가능
∎ 점도표 : 자료의 분포를 실직선 위에 점이나 X로 나타내는 그래프
∎ 꺽은선그래프 : 시간 변화에 따라 증가하고 감소하는 변화양상을 나타낼 때 유용
- 장기간 조사된 기상자료, 20년간의 소비자물가지수 변동, 10년간 분기별 사교육비 지출 변동
∎ 추축통계학 : 표본 자료를 분석하여 연구대상 전체에 관해 추측하고 일반화시키는 통계학의 분야
∎ 모집단 : 연구에서 궁극적으로 관심이 되는 대상
- 모집단의 정의에 따라 표본자료 분석 결과를 일반화 할 수 있는 범위가 달라짐
∎ 표본 : 모집단에서 추출되어 조사되는 일부 집단
∎ 모수 : 우리가 관심을 가지고 조사변수에 대한 모집단 전체의 특성값을 의미
- 표본으로부터 얻은 통계값을 이용하여 모수를 추정함
∎ 변수의 종류
(1) 질적변수
- 범주형 자료의 관찰값을 의미, 덧셈, 뺄셈 등의 연산의 의미가 없음
- 예. 학력수준(1.중졸이하, 2=고졸, 3=대졸이상) 순서척도, 명목척도
(2) 양적변수
- 길이, 무게와 같이 양적 수치로 측정하거나, 몇 개인지 세어 추정
➀ 이산형 변수 : 측정결과가 유한하고 개수를 셀 수 있는 경우
- 소수점이하 측정 불가
- 명목척도,서열척도와 관련(종교를 가진 사람과 종교가 없는 사람, 자녀수, 중간시험 5문제중 맞힌 개수)
➁ 연속형 변수 : 실수 구간 안의 모든 값을 가질 수 있는 경우
- 무한대로 미분 가능 ➜ 거의 무한개의 값을 가짐
- 구간척도, 비율척도와 관련(소득, 출산율, 가사노동시간)
∎ 중심의 측정
∎ 평균 : 조사된 모든 자료의 총합을 표본크기로 나눈 통계치
∎ 중앙값 : 자료를 크기 순으로 나열할 때 가장 가운데 오는 값
∎ 최빈값 : 가장 빈도가 높은 관찰값
∎ 변동의 측정
∎ 범위 : 조사된 자료에서 최대값에서 최소값을 뺀 것으로 가장 단단하게 퍼짐 정도를 구하는 방법
- 이상치가 있는 경우 그 영향을 크게 받음
- 범위 = 최대값 - 최소값
∎ 사분위간 범위 : 전체자료에서 가운데 50%에 해당하는 자료의 변동 정도를 측정
- 사분위간 범위 = 3사분위(Q₃)- 1사분위(Q₁)
∎ 다섯수치요약 : 자료의 특징을 잘 요약해주는 사분위수(Q₁,Q₂,Q₃), 최소값, 최대값
∎ 분산 / 표준편차
- 자료가 평균으로부터 얼마나 퍼져 있는가? - 평균으로부터 관찰값 사이의 거리를 의미
- 평균이 중심위치를 측정하는 통계량으로 쓰일 때 자료의 퍼짐 정도를 나타내는 변동 측정치
- 분산을 구한 후 제곱근을 씌움
- 표준편차의 해석
표준편차가 크면 평균을 중심으로 광범위(멀리)하게 분포,
표준편차가 작으면 평균을 중심으로 조밀하게 분포
'가정관리학연구법' 카테고리의 다른 글
가정교육과, 생활과학, 가정학 등 가정관리학연구법 요점 요약 정리 9. 논문의 작성 (0) | 2022.11.21 |
---|---|
가정교육과, 생활과학, 가정학 등 가정관리학연구법 요점 요약 정리 8. 평균의 유의성 검정 (0) | 2022.11.20 |
가정교육과, 생활과학, 가정학 등 가정관리학연구법 요점 요약 정리 6. 표집 2 (0) | 2022.11.18 |
가정교육과, 생활과학, 가정학 등 가정관리학연구법 요점 요약 정리 5. 표집 1 (0) | 2022.11.18 |
가정교육과, 생활과학, 가정학 등 가정관리학연구법 요점 요약 정리 4. 측정과 척도구성 (0) | 2022.11.17 |