부트스트랩에 관하여
작성자
tkleen
작성일
2020-12-21 17:32
조회
434
1979뇬에 브래들리 에프론(Bradley Efron)은 부트스트랩 기법: 잭 나이프를 바라보는 다른 시각(Bootstrap methods: another look at th jackknife)이라는 논문에서 더 많은 데이터를 수집하지 않고 분석을 진행하는 방법을 제안했다. 부트스트랩이라는 용어는 '혼자 힘으로 곤경을 벗어나라(pull yourself up by your bootstrap)'라는 표현에서 유래했고 잭나이프는 이전에 행해진 유사한 시도들을 의미했다. 부트스트랩 기법은 동일한 데이터에 대한 '표본 재추출'에 기초한다. 즉 기존의 데이터에서 일련의 무작위 표본을 선택하여 평균(또는 무엇이든 관심의 대상인 통계 자료)'을 계산하고 그에 따른 평균치들의 분포를 찾아낸다. 이렇데 다시 선택된 표본들의 분산이 작다면 원래의 평균이 모집단의 참평균에 가까울 가능성이 크다.
예를 들어 20명으로 이루어진 표본 집단의 신장 데이터로 지구 전체인구의 평균 신장을 추정한다고 가정하자. 표본의 크기가 매우 작으므로 표본 평균의 신뢰도가 의심스러운 상황이다. 부트스트랩 기법의 가장 간단한 버전은 20명의 표본 집단을 무작위로 선택하고 표본의 평균을 계하는 방법이다.(표본을 다시 선택하는 과정에서 동일인이 한번 이상 선택되기도 한다. 통계학핮들은 이를 '대치가 수반된 표본 재추출(resqmplin gwith replacement)'이라 부른다. 이 바법으로 얻은 평은 매번 달라질 수 있다). 데이터의 표본 재추출을 여러 번, 예컨데 만 번 정도 반복한다. 리고 재추출된 데이터 점들의 분산 같은 통계 자료를 계산하거나 막대그래프로 그린다. 이는 컴퓨터를 이용하면 어렵지 않지만 근대 이전에는 비현실적이었으므로 아무도 제안하지 않았던 방법이다. 이상하게 생각할 수 있으나 부트스트랩 기법은 전통적인 정규 분포의 가정이나 원래 표본의 분산을 계산하는 것보다 더 나은 결과를 제공한다.
예를 들어 20명으로 이루어진 표본 집단의 신장 데이터로 지구 전체인구의 평균 신장을 추정한다고 가정하자. 표본의 크기가 매우 작으므로 표본 평균의 신뢰도가 의심스러운 상황이다. 부트스트랩 기법의 가장 간단한 버전은 20명의 표본 집단을 무작위로 선택하고 표본의 평균을 계하는 방법이다.(표본을 다시 선택하는 과정에서 동일인이 한번 이상 선택되기도 한다. 통계학핮들은 이를 '대치가 수반된 표본 재추출(resqmplin gwith replacement)'이라 부른다. 이 바법으로 얻은 평은 매번 달라질 수 있다). 데이터의 표본 재추출을 여러 번, 예컨데 만 번 정도 반복한다. 리고 재추출된 데이터 점들의 분산 같은 통계 자료를 계산하거나 막대그래프로 그린다. 이는 컴퓨터를 이용하면 어렵지 않지만 근대 이전에는 비현실적이었으므로 아무도 제안하지 않았던 방법이다. 이상하게 생각할 수 있으나 부트스트랩 기법은 전통적인 정규 분포의 가정이나 원래 표본의 분산을 계산하는 것보다 더 나은 결과를 제공한다.
전체 0