한국문화관광연구원 로고

□ 연구배경
ㅇ 국민 문화향유 확대를 위한 정책수립 및 집행에 필요한 정책정보의 필요성이 확대되 면서 기초자치단체(시·군·구) 단위 지역문화통계 생산이 요구되고 있다. 사회적 현안으 로 떠오른 지역소멸에 대응하고 문화향유 소외지역을 발굴하여 지역 간 문화격차 해소 를 위한 정책수립을 위해서는 지역의 문화향유 현황을 파악할 수 있는 시군구 단위의 세부적인 통계 작성이 필요하기 때문이다. 시군구 단위별로 통계를 생산할 경우, 해당 시군구에서만 필요로 하는 통계일 경우도 있지만, 대체적으로 다른 지역과 비교 또는 공통의 정책적 관심 등으로 이뤄지는 경우가 많다. 따라서 해당 지역만의 통계를 산출하기 보다는 전체적인 관점에서 통계를 생산하 는 것이 더 효율적이다. 또한 해당지역에 대한 통계이지만 전국적으로 파악하여야만 알 수 있는 경우도 있는데, 관광과 같은 경우 해당 지역의 사람들이 여행을 가는 경우는 해당지역의 사람들만 파악하면 되겠지만, 해당 지역으로 관광을 오는 사람들을 파악하여 만족도 또는 개선사항을 도출하고 싶은 경우, 전국에 있는 모든 사람들이 대상이 된다. 이러한 것을 파악하기 위해 설문조사(survey)를 수행하게 된다. 지역통계를 파악할 수 있는 설문조사 기반 주요 승인통계는 전국 기준 또는 광역 시·도별 통계산출을 목적 으로 표본이 설계되어 조사를 수행하고 이를 국가전체 또는 시·도 단위로 통계를 생산하 여 공표하고 있다. 이러한 경우, 시군구통계를 생산하고자 해당 자료를 이용하여 시군구 단위 통계를 직접 산출하면 표본이 너무 적은 ‘과소표본’1)의 문제나 특정 시군구 단위 지역에 표본 배분이 되지 않아 통계를 산출하지 못하는 문제가 발생하여 신뢰성 있는 통계 산출이 어렵다. 실제 시군구 단위 지역통계를 조사(survey)를 통해 생산할 경우, 시군구 거주민의 인 구분포를 고려하여 표본을 배분할 수 있도록 표본설계를 수행하고 데이터를 마련할 필 요가 있다. 그러나 현재 생산되고 있는 전국단위의 통계들을 시군구단위로 조사할 경우 비용과 시간 소요가 크게 되는 문제가 발생한다. 그리고 조사 표본수가 증대됨에 따라 응답자의 피로도가 높아져 조사에 대한 품질이 저하될 우려도 있다. 위와 같은 문제로 인하여 조사통계가 시군구단위로 제시되지 못하고 있기 때문에 빅 데이터로 일컫는 소비자 행동(신용카드 등), 디지털 추적(이동통신의 이동량 등) 데이터 등을 이용한 유사통계를 활용하는 경우가 많아졌다. 하지만, 빅데이터는 표본설계 (design)를 기반으로 생산되는 자료가 아니고 생산자들의 목적이나 이용자 행태 등에 맞추어 시스템적으로 생산되는 데이터이기 때문에 선택편의(selection bias)2)가 발생될 가능성이 높다. 따라서 동일한 기준으로 값을 비교하기에는 다소 어려움이 있어, 대표성 있는 통계로 활용하기에는 제한이 있다. 또한 빅데이터를 생산 제공하고 있는 민간기업 이나 기관별로 분류체계나 집계방식에 차이가 있기 때문에 절대적인 비교 또한 어려운 실정이다. 하지만 시군구 단위의 측정값을 가지고 있고 데이터의 속보성과 시의성이 높 기 때문에 중요한 정보를 신속하게 도출하는데 용이한 점이 있다. 빅데이터는 대용량의 데이터로 변화가 발생할 때 분명한 신호(signal)를 제시하고 분산(variance)이 매우 작 기 때문에 대표성을 갖는 통계보다는 정책수립이나 마케팅과 같은 경영활동 및 의사결 정 등에 활용하기에 적절한 보조적인 데이터라 할 수 있다. 본 연구의 주된 관심대상 통계는 설계(design)기반으로 생산되는 조사통계이며, 이들 통계를 시군구단위 지역통계로 산출하기 위해서는 다양한 정보를 수집하여 활용하여야 한다. 하지만 지역의 특성을 반영한 전국 단위 통계는 많지 않고 더욱이 시군구 단위 정보를 가진 자료는 더욱 부족하기 때문에 지역 특성을 반영하기 위해서는 빅데이터를 연계하여 활용할 필요가 있다. 최근에는 설계데이터(design data)를 기준으로 삼고 빅 데이터의 역동성(active)을 연계하여 활용하는 보조정보를 활용하는 방법이 많이 제시되 고 있으며, 이 방법은 표본이 적은 지역의 통계 생산을 목적으로 하는 소지역추정방법 연구에서도 많이 활용되고 있다. 소지역 추정 방법 연구들은 주로 해외에서 많이 진행되고 있으며, 실제로 대국민 대상 으로 서비스 되고 있다. 일례로 미국 센서스국은 SAIPE(Small Area Income and Poverty Estimates)를 통해 소득과 빈곤에 대한 학군, 카운티 수준의 통계를 제공하는 프로그램을 제공하고 있으며, 캐나다 통계청(Statistics Canada)은 방문자 여행 조사 (VTS: Visitor Travel Survey)를 이용하여 캐나다를 방문하는 국제 여행객 수와 여행 세부 특성에 대한 통계를 제공하고 있다. 또한, 영국 통계청(Office for National Statistics)은 연료, 소득 등과 관련된 빈곤율 추정에 소지역 추정방법을 활용한 통계를 산출하여 홈페이지를 통해 제공하고 있다. 국내에서는 ‘여객기 종점 통행량 조사 보완’, ‘교통수요 예측’ 등 타 분야에서 이 같은 방법을 활용하고 있는데, 위의 사례처럼 시군구 단위 통계를 추정하고자 하는 시도는 있었지만, 대부분 연구로만 제시되어 실제 정부기관에서 활용하고 있는 사례는 없는 실 정이다. 앞서 설명한 지역문화통계를 생산하기 위한 소지역통계 방법은 작은 표본을 이용하여 추정하는 방법이기 때문에, 표본이 없는 지역에는 해당방법을 적용하여 추정하기에 한계 가 있다. 이러한 이유로 인접한 지역과의 관계를 고려한 추정방법을 연구하여 분석에 적용하고 있으나, 복잡한 모형을 사용할 경우 활용에 어려움이 있는 부분이 있다. 지리 적 정보와 보조자료와의 다중공선성(multicollinearity) 등으로 매년 동일한 모형을 사 용하지 못하거나 추정결과의 해석에 어려움 등이 발생할 수 있다. 따라서 다양한 분석방 법을 적용해보고 이를 비교할 필요가 있다. 본 연구에서는 표본이 존재하지 않는 소지역 추정에 기존의 소지역 추정방법과 인접한 지역과의 관계 등을 고려한 공간(spatial)정보 를 결합하여 추정하는 방안을 같이 살펴보고 활용성 높은 방안을 제시하도록 한다.
□ 연구목적
ㅇ 본 연구는 문화 분야에서 생산되고 있는 대국민 대상 조사통계(survey statistics)를 시군구 단위 통계로 추정하는 방안을 마련하고 제시하고자 한다. 현재 국민을 대상으로 조사되고 있는 문화통계인 「국민문화예술활동조사」, 「국민여행조사」, 「국민여가활동조 사」에 시군구단위의 지역통계를 생산하는 방법인 소지역 추정방법을 적용하여 전국 229개 시군구 문화통계를 추정하도록 한다. 이때 추정하는 과정에서 고려할 사항 등을 제시 하고 이를 해결한 후, 추정한 값을 제시하도록 한다. 사용하는 데이터는 조사통계의 일 부 변수를 선정하여 추정대상인 관심변수로 하고, 행정자료와 빅데이터와 같은 보조정보 를 활용하여 소지역추정(SAE, Small Area Estimation) 방법을 적용하고 추정값을 도 출하도록 한다. 본 연구의 목적은 구체적으로 두 가지로 나눌 수 있다. 먼저, 표본이 적은 지역에 추정 량의 효율성을 높인 모형기반의 추정방법을 적용하고, 보조정보를 추가적으로 활용하여 좋은 추정량을 도출할 수 있도록 한다. 보조정보로는 신용카드 소비지출, 이동통신 이동 량, 지역별 종합소득세 현황 데이터 등을 검토하여 이용한다. 특히 추정방법은 효율성이 좋은 모형을 선정하여 적용하도록 하되, 인접지역간의 거리 등과 같은 공간정보(spatial information)가 모형에 포함되는 추정방법을 고려함으로써 추정치의 효율성을 높일 수 있는 방안을 마련하도록 한다. 두 번째는 표본이 없는 지역에 추정값을 제시하는 방안을 마련한다. 소지역 추정방법 은 기본적으로 적은 표본이라고 하더라도 표본이 존재하는 지역에 적용할 수 있는 방법 이다. 그렇기 때문에 이웃정보(neighbor information)와 공간클러스터링 방법을 활용 하여 각 17개 광역시도내 시군구를 중간권역으로 군집화하여 이를 활용해 소지역 추정 방법을 적용하고, 추정값을 가중치를 활용한 통계적 배분 방법을 이용하여 표본이 없는 시군구의 추정량을 산출한다. 표본이 없는 시군구 추정을 위해 계층적(hierarchical)인 추정체계를 적용할 수 있는 방안을 제시함으로써 보다 실효성 높은 추정방안을 마련 한다. 최종적으로 통계별로 효율성이 높은 최적의 추정량을 도출하고 제시하며, 시군구 단 위를 포괄하는 신뢰도 높은 지역문화통계 생산체계 및 활용성 확대를 위한 시사점과 더 불어 지역문화 통계를 지속적으로 제공할 수 있는 방안을 제언한다.