Population Synthesis: Comparing the Major...

Population Synthesis: Comparing the Major Techniques Using a Small, Complete Population of Firms

Abstract

Recently, disaggregate modeling efforts that rely on microdata have received wide attention by scholars and practitioners. Synthetic population techniques have been devised and are used as a viable alternative to the collection of microdata that normally are inaccessible because of confidentiality concerns or incomplete because of high acquisition costs. The two most widely discussed synthetic techniques are the synthetic reconstruction method (IPFSR), which makes use of iterative proportional fitting (IPF) techniques, and the combinatorial optimization (CO) method. Both methods are described in this article and then evaluated in terms of their ability to recreate a known population of firms, using limited data extracted from the parent population of the firms. Testing a synthetic population against a known population is seldom done, because obtaining an entire population usually is too difficult. The case presented here uses a small, complete population of firms for the City of Hamilton, Ontario, for the year 1990; firm attributes compiled are number of employees, 3‐digit standard industrial classification, and geographic location. Results are summarized for experiments based upon various combinations of sample size and tabulation detail designed to maximize the accuracy of resulting synthetic populations while holding input data costs to a minimum. The output from both methods indicates that increases in sample size and tabulation detail result in higher quality synthetic populations, although the quality of the generated population is more sensitive to increases in tabular detail. Finally, most tests conducted with the created synthetic populations suggest that the CO method is superior to the IPFSR method. Los modelos desagregados basados en micro data han recibido la atención relativamente reciente de los círculos académicos y de aplicación. La colección de dicha data es una tarea difícil por cuestiones de accesibilidad, confidencialidad, datos incompletos o altos costos de adquisición. Por esta razón se han creado indicadores sintéticos como a alternativa a la recolección directa de datos. Los dos indicadores sintéticos mas discutidos/conocidos son el método de Reconstrucción Sintética (Sytnthetic Reconstruction method) (IPFSR) que hace uso de técnicas de Ajuste Proporcional Iterativo (IPF); y el método Optimización Combinatoria (CO). Ambos métodos son descritos en este artículo y luego evaluados en base a su habilidad de recrear una población de empresas ya conocidas o preestablecidas. Contrastar una población sintética versus una población conocida es una operación poco frecuente porque la obtención de una población entera es por lo general bastante difícil. El caso presentado en este estudio utiliza una población pequeña y completa de empresas en la ciudad de Hamilton, Ontario (Canadá) para el año 1990. Las variables recopiladas son el número de empleados, SIC (código estandarizado de clasificación industrial), y ubicación geográfica. Los resultados que se reportan en el presente estudio son producto de varios experimentos basados en varias combinaciones del tamaño de la muestra, y del detalle en la tabulación diseñados, los mismos que fueron diseñados para maximizar la exactitud de las poblaciones sintéticas calculadas y al mismo tiempo minimizar los costos de datos necesarios. Los resultados obtenidos por ambos métodos indica que los incrementos en el tamaño de la muestra y en el detalle de la tabulación resultan en un estimado de poblaciones mejor, aunque este estimado es particularmente sensible a incrementos en el detalle de las tabulaciones. Finalmente, la mayoría de pruebas realizadas con las poblaciones sintéticas generadas para este estudio sugieren que el método CO es superior al método IPFSR. 近来,基于微观数据的非集计建模成果引起了广大学者和从业人员的广泛关注。对于因涉密难以获取,或因获取成本太高而无法获得完整数据的微观数据而言,综合总体技术被设计并成为一种可行的数据采集的替代方法。基于迭代比例拟合方法(IPF)的综合重建方法(IPFSR)和组合优化方法(CO)是探讨最广泛的两种综合技术方法。本文对这两种方法进行了描述,并采用从母体企业样本中提取的有限样本数据评估了它们在重建已知企业样本方面的性能。由于总体样本的获取通常很难,因而针对已知总体样本做综合样本测试的研究很少。本文提供的案例使用了样本量虽小但完整的安大略省汉密尔顿市1990年的企业样本数据,所收集的企业属性包括雇员人数、三位数的标准工业分类(SIC)和地理区位。所总结的实验结果源于多种样本规模和列表细目的组合设计方案,方案的设计旨在使综合抽样结果的准确性最大化,同时使输入数据的采集成本最小化。两种方法的输出结果表明,样本量和列表细目的增加可以获得更高质量的综合样本,尽管生成样本的质量对列表细目的增加更为敏感。针对由所生成的综合样本所做的大多数检验表明,组合优化技术(CO)优于综合重建方法(IPFSR)。