여론조사, 제대로 알고 이해하기 > 교육칼럼

본문 바로가기

사이트 내 전체검색


교육칼럼

여론조사, 제대로 알고 이해하기

페이지 정보

작성자 석준영 쪽지보내기 메일보내기 홈페이지 자기소개 아이디로 검색 전체게시물 작성일16-08-25 11:40 조회2,875회 댓글0건

본문

[비센의 재미있는 과학 이야기]

 

신뢰도와 정확도를 높이기 위해 다양한 기법 개발되고 있어

 

미국 대통령 선거가 약 두 달 앞으로 다가오고 있습니다. 이렇게 선거가 다가오면 대부분 신문 지면을 장식하는 것은 누가 대통령이 될 것인가를 예상하기 위한 여론조사들입니다.

 

보통 여론조사에 대한 기사를 보면, “이번 조사는 지난 이틀 동안 전국의 19세 이상의 성인 1,000명을 대상으로 핸드폰 문자를 통한 방식으로 실시되었고 오차는 3.1%이고 표본조사는 95%의 신뢰도를 갖고 있습니다.” 식의 설명이 항상 붙어있습니다.

 

많은 여론조사로부터 자주 듣게 되는 표현이고, 앞부분의 내용은 대충 무슨 이야기인지 이해가 되지만, 사실 뒷부분의 오차, 표본조사의 신뢰도와 같은 표현은 잘 이해가 안되는게 사실입니다.

 

어떤 분들은 신뢰도가 99%라고 하면, 그 숫자만을 보고서 99%의 신뢰도를 갖는 것을 보니 매우 정확한 조사라고 생각하시는 분들이 많습니다. 

 

사실 여기서 이야기하는 신뢰도는 정확성과 관계가 있기는 하지만, 곧바로 조사 결과의 정확성 자체를 의미하는 것은 아닙니다. 통계학적으로 신뢰도(confidence)란 명제가 맞을 확률을 뜻하는 것이고, 정확도란 그 명제가 얼마나 세부적으로 사실과 부합하는가를 말하는 것입니다.

 

예를 들어, 지난 주말에 아쿠아리움에 놀러 갔다온 조카에게 “너가 보고 온 것은 물고기이다.”라고 말한다면 100% 맞는 말이 될 수는 있지만, 딱히 정확하다고 표현할 수는 없을 것입니다.

 

마찬가지로, “이번 11월에 있을 미국의 대선에서 당선되는 사람은 40세 이상 사람이다” 라고 말한다면 이는 당연히 맞는 100%의 신뢰도를 갖는 명제가 되지만, 이를 정확하게 맞췄다고 대단하다고 할 사람은 없을 것입니다.

 

실제로 신뢰도와 정확도는 서로 반대의 개념으로서, 신뢰도를 높이기 위해 명제를 두리뭉실하게 만들면 그만큼 정확도가 떨어지게 되는 것이고, 반대로 정확도를 높이기 위해 명제를 구체적으로 표현하면 할 수록 신뢰도는 낮아질 수 밖에 없게 됩니다. 당연히 그만큼 틀릴 가능성이 높아지기 때문입니다.

 

앞서 말씀드린 예에 나오는 수치들을 갖고서 신뢰도와 정확도를 조금 더 설명드려 보도록 하겠습니다. 예를 들어, 한 후보자의 지지도가 48.7%로 조사되었는데, 이때 오차는 3.1%이고 신뢰도는 95%라면, 이는 그 후보자의 지지도가 45.6%(48.7-3.1)에서 51.8%(48.7+3.1)사이가 될 확률이 95%라는 것을 뜻합니다. 만약에 신뢰도를 99%로 올린다면, 그만큼 예상값은 덜 정확하게 될 것이고, 오차는 3.8%보다 커지게 될 것입니다. 즉 신뢰도가 증가한다는 것은 그 명제가 옳을 확률이 올라간다는 것일 뿐, 실제적으로는 예측 결과가 그만큼 더 부정확할 수 있다는 것이기에 많은 분들이 생각하는 것과 사실은 반대가 된다고 볼 수 있습니다.

 

이러한 신뢰도와 정확도의 계산은 여론조사에서 뿐 만 아니라, 모든 과학적 실험에서 가장 중요시되는 값으로서, 이는 실험의 결과를 얼마나 신뢰할 수 있는지에 대한 가장 기본적인 척도가 됩니다.

 

모든 실험의 기본은 측정에서부터 시작되며, 모든 측정은 오차값을 갖을 수 밖에 없기 때문에 실험자는 언제나 동일한 실험을 반복적으로 실시하여 많은 양의 데이터를 수집하며, 그 데이터들로부터 얻어지는 평균값으로부터의 오차를 계산하여 보여주어야만 합니다.

 

대부분 95%의 신뢰도를 이용하는 여론조사와는 달리 더욱 정확한 값을 얻기 위해서 신뢰도를 50%로 낮춰 측정하는 실험도 있으며, 신뢰도가 낮아진 만큼 높은 정확도를 갖게 되기에, 평균값에 가깝게 측정된 데이터들 만을 이용해서 결과 분석에 이용하게 되고, 더 정확한 결과를 도출해 낼 수 있게 되는 것입니다.

 

여론조사 또는 과학적 실험은 궁극적으로 높은 신뢰도로 정확한 값을 예측하기 위함이니, 신뢰도와 정확도를 동시에 좋게 만들고 싶어 하는데, 그렇기 위한 유일한 방법은 많은 데이터를 수집하는 것입니다. 하지만, 데이터를 많이 수집한다는 것은 그만큼 많은 시간과 비용을 들여야 한다는 것을 의미하며, 많은 경우에 많은 데이터를 수집하는 것 자체가 불가능한 경우도 있기에, 적절한 양의 데이터로 합리적 수준의 신뢰도와 정확도를 갖게 만드는 것이 여론조사 또는 실험의 가장 중요한 부분이 되는 것입니다. 또한 무턱대고 많은 데이터를 수집하는 것이 신뢰도와 정확도를 무조건 높일 수 있는 것도 아닙니다.

 

왜냐하면 데이터가 얼마나 무작위적으로 수집되었는가에 대한 문제 때문입니다. “전국의 19세 이상의 남녀에게 핸드폰 문자를 통한 방식으로”라는 부분이 바로 어떻게 편향되지 않은 데이터(unbiased data)를 수집하였는가에 대한 설명에 해당합니다.

 

핸드폰 문자를 사용하는 방식 때문에 전국의 19세 이상이라고는 했지만, 문자를 잘 사용하지 못하시는 시골의 연세가 많으신 노인분들의 의견은 제대로 반영되지 못했을 가능성이 있고, 또 낮 시간에 유선전화를 이용해서 데이터를 수집하였다면, 그 시간에 집에 주로 계신 주부 및 노인 분들의 의견이 젊은 직장인들에 비해 더 많이 반영되는 등의 문제를 가져올 수도 있는 것입니다.

 

이렇게 편향된 데이터를 수집하게 되면 아무리 많은 데이터를 수집한다고 하더라도 높은 정확도를 기대할 수 없게 됩니다.

 

이렇듯 여론 조사 및 데이터 분석은 얼마나 많은 데이터를 편향성없이 합리적으로 수집, 분석하였는가에 따라서 그 결과가 달라질 수 있기 때문에 그만큼 그 결과를 받아들일 때에도 신중해야만 합니다.

 

“통계학없이 진실을 이야기하기 힘든 만큼, 통계학을 이용해 거짓을 말하기 역시 쉬운 일이다. (It is easy to lie with statistics. It is hard to tell the truth without it.)”

 

20세기의 유명한 통계학자인 안드레스 던켈스(Andrejs Dunkels, 1939-1998)가 말한 통계학에 대한 이 말은 우리가 통계적으로 얻어진 결과를 분석할 때 얼마나 신중해야하는 지를 말해주고 있습니다.

 

석준영.gif

석준영 비센학원장


  • 페이스북으로 보내기
  • 트위터로 보내기
  • 구글플러스로 보내기

댓글목록

등록된 댓글이 없습니다.

교육칼럼 목록

게시물 검색


Copyright © 밴쿠버 중앙일보. All rights reserved.
상단으로
PC 버전으로 보기