본문 바로가기

수학/중고등학교 수학

심프슨의 역설(simpson’s paradox)

728x90
반응형

심프슨의 역설은 각 소집단에서 보이는 경향이 전체 집단에서도 같다고 생각할 수 없다는 것이다. 따라서, 여론조사 등에서 지역별 통계를 구해 어떤 특성을 파악하게 되었다고 해도 전체 통계에서도 그러한 특성이 있다고 볼 수 없다. 이러한 현상은 많이 발생되는 오류로 대부분의 사람은 이를 의심 없이 받아들이는 경향이 있다.

[표 1]은 A 대학교의 전기전자과와 약학과에 지원한 학생 수와 합격한 학생 수를 나타낸 표이다.

[표 1 ]  A 대학교 지원자 수(합격자 수)
A대학교 남자 여자
전기전자과(정원 108명) 100(80) 80(48) 180(108)
약학과(정원 50명) 40(20) 60(30) 100(50)
140(80) 140(78) 280(158)

[표 2]는 전기전자과의 합격률을 나타낸 것이다.

[표 2]  전기전자과 합격률
전기전자과 응시자 수 합격자 수 합격률
남자 100 60 60%
여자 80 48 60%

[표 3]은 약학과 합격률을 나타낸 것이다.

[표 3] 약학과 합격률
약학과 응시자 수 합격자 수 합격률
남자 40 20 50%
여자 60 30 50%

[표 2]에서 전기전자과를 지원한 학생의 합격률은 남학생과 여학생 모두 60%의 합격률을 나타내었고, [표 3]에서 약학과를 지원한 학생의 합격률은 남학생과 여학생 모두 50%로 두 과에서 남녀 모두 같은 합격률을 나타내었다.

그러면, A대학교에서 전기전자과와 약학과에 지원한 전체 학생의 남녀 합격률은 같다고 말할 수 있는가?

반응형

[표 4]는 전기전자과와 바이오약학과에 지원한 전체 학생의 합격률을 표로 나타낸 것이다.

[표 4]  A대학교 성별 합격률
전체 응시자 수 합격자 수 합격률
남자 140 80 57.1%
여자 140 78 55.7%

[표 4]에서 알 수 있듯  A대학교에 지원한 남학생과 여학생 수는 같지만 합격자 수는 다르다는 걸 알 수 있다. 따라서, 학과별로 남녀의 합격률은 모두 같았지만 이를 근거로 하여 전체 남녀학생의 합격률이 같다고 말할 수 없다.
이렇게 부분적인 결과와 전체적인 결과가 다른 이유는 각 학과의 정원이 다르고 그 정원에 따른 남녀의 비율이 다르기 때문이다.

이러한 오류는 실제 여론 조사에서도 많이 범해지고 있다. 이러한 오류를 알고 통계, 수치를 그대로 받아들여서는 안된다.

반응형