MIT OpenCourseWare


11.208 Introducción a la informática en la gestión pública II

Página principal
¿Qué es OCW?
Ayuda
Feedback
Preguntas frecuentes
Glosario
 
 
Página principal del curso
Programa
Calendario
Material de clase
Trabajos
Exámenes
  Otras fuentes
  Prácticas
  Material de estudio

   MIT

   
 
Entender el censo, 2ª parte: cómo trabajar con los datos del censo

Thomas H. Grayson
24 de enero de 2002

Objetivo

Extraer datos del censo de población y vivienda de EEUU (1990) y hacer un mapa en el que se muestren esos datos.

Recursos y herramientas

Repaso: cómo están organizados los datos del censo de 1990

  • Nota: El contenido de la clase introductoria del censo puede ser de gran utilidad.

  •  
  • El STF 3A (Summary Tape File 3A) contiene los cuestionarios largos, una muestra de los datos del censo organizada en función de las fronteras geográficas definidas para el censo. Por ejemplo:
      Estado (State)   (nivel de sumario 040)
        Condado (County)   (nivel de sumario 050)
          Distrito (Tract)   (nivel de sumario 140)
            Grupo de bloques (Block Group)   (nivel de sumario 150)
  • Puedes acceder a los datos de población y vivienda.
  • El censo proporciona CD-ROMs con los datos en formato de dBASE (DBF). Estos se encuentran disponibles en la biblioteca Rotch.
  • Los datos se encuentran en muchos niveles de agrupación o niveles de sumario. Los mencionados anteriormente son algunos de ellos.

Esquema general

  • Si es necesario normalizar los datos, identificar el universo y planificar también su extracción.
  • Buscar las "tablas" del censo en las que están almacenados los datos y el universo.
  • Buscar los elementos necesarios dentro de esas "tablas".
  • Identificar y buscar los archivos de dBase que contienen las "tablas" en cuestión.
  • Extraer los datos de los archivos de dBase mediante el uso de las herramientas de consulta de Microsoft Access.
  • Crear un identificador de registro del censo único para los datos extraídos, de modo que los registros se puedan reunir en una tabla de atributos de los temas geográficos.
  • Guardar los resultados en un archivo de dBase para que se puedan leer con facilidad desde ArcView
  • .
     
  • Generar un mapa temático en ArcView a partir de los resultados.

Ejemplo de ejercicio

Hacer un mapa temático del:

Condado de Middlesex, Massachusetts

     que muestre

la renta media familiar

     para cada

grupo de bloques

     del censo de EEUU.

Proceso

Nota: estas instrucciones están pensadas para un ordenador con Windows 2000, cuyo disco duro local se encuentra en la unidad C:, y que utiliza Microsoft Networking con la configuración del CRL. En Windows 95, 98, ME y NT 4.0 deberían funcionar de modo similar, pero en estas plataformas no se han probado.

Analizar la estructura del problema:

  • Nuestro ejercicio tiene un ámbito geográfico definido.

  • Nos interesan los datos del Condado de Middlesex, MA. No nos importan los otros estados, ni otros condados de Massachusetts.
  • El ejercicio tiene un nivel de análisis definido.

  • Nos interesan los datos a nivel de grupo de bloques. Otros niveles, como condados o distritos censales, nos traen sin cuidado.
  • Buscamos un dato en concreto.

  • El censo contiene un compendio de datos muy rico pero, para este ejercicio, buscamos sólo la renta media familiar.

Identificar la tabla de la renta media familiar

Ir al buscador temático del STF 3A. Buscar "Median Household Income" (renta media familiar) en el margen izquierdo de esta página. Ignorar las entradas que contienen la palabra "imputation" y en las que el texto no se ajusta al margen izquierdo. Debería poner "Households" justo debajo. En la columna de la derecha, a la altura de "Households", podemos ver que la información que buscamos se encuentra en la tabla P80A.

Identificar los datos de la tabla que necesitamos

Mirar las definiciones de las tablas del STF 3A. Localizar la tabla P80A, buscando la cadena "P80A" en el navegador. Esta tabla sólo tiene un elemento, el P080A001, correspondiente a la "Median Household Income in 1989" (renta media familiar de 1989). Observar que otras tablas tienen más de un elemento (p.ej., la tabla P80, "Household Income in 1989").

Identificar los arhivos en los que están almacenados las tablas

Ir a la sección "Using the File" de la documentación del STF 3A. Aquí, bajo el título "Data Tables In Each Segment", encontraremos una lista de las tablas que hay en cada uno de los 35 archivos DBF del STF 3A. Ojeando la lista, podemos ver que la tabla P80A se encuentra en el segmento STF314. En el nombre del archivo que contiene los datos, la abreviatura del estado va unida al nombre del segmento. Así, este segmento corresponde al archivo stf314ma.dbf del CD-ROM (en la copia en red del CD-ROM se accede a él con mayor rapidez).

Localizar los archivos DBF en red o en el CD-ROM

Se puede acceder directamente a los archivos STF 3A de Massachusetts y New Hampshire de 1990 a través de la red, en el directorio J:\stf3a1990\ma_nh. Los contenidos de esta carpeta son los mismos que encontraríamos en el CD-ROM del censo si buscaramos esos estados.

A esta copia en red de los archivos STF 3A de Massachusetts y New Hampshire de 1990 sólo se puede acceder desde aquí (desde el MIT). Si se pretende acceder a los archivos desde cualquier otro sitio o buscar datos de otros estados, se deberá encontrar otra fuente. En la biblioteca Rotch y en otras bibliotecas depositarias de documentos del gobierno de EEUU es posible encontrar más CDs con datos del censo de EEUU. Además, los archivos STF 3A de 1990 se pueden obtener en línea de la página del Negociado del Censo de EEUU por HTTP y FTP.

Opcional: Debido a que los archivos DBF del censo son bastante grandes (normalmente de 10-20 Mb), el acceso a ellos desde un CD-ROM puede ser bastante lento y a través de la red, además de lento, inestable. Por otra parte, puede que se desee almacenarlos en la unidad local, de modo que sea posible acceder a ellos en cualquier momento. Utilizar el explorador de Windows para copiar los archivos del disco del censo en la correspondiente carpeta personal del espacio público del PC (p.ej., C:\PUBLIC\nombreusuario).

Abrir el archivo de dBase del censo con Microsoft Access

Cada segmento (p.ej., un archivo DBF) contiene muchas "tablas" del censo. Lo que queremos es extraer sólo los elementos necesarios para nuestro análisis: las columnas clave y los datos que hemos identificado previamente. Para llevar esto a cabo, podemos utilizar las herramientas de consulta de Access. En primer lugar, debemos abrir el archivo de dBase para tener acceso a su contenido. Añadir el archivo de dBase del siguiente modo:

    • Ejecutar Access. Cuando aparezca el cuadro de diálogo inicial, elegir la opción "Crear una nueva base de datos usando una base de datos de Access en blanco". Ponerle el nombre census.mdb y guárdarla en nuestra carpeta privada dentro del espacio CRL, H:\private (en caso de no tener una carpeta en ese espacio, utilizar una unidad de disco Zip o el disco duro local en su lugar).

    • En la ventana 'Base de datos', asegúrarse de que la pestaña "Tablas" esté activa; es como suele estar tras crear una base de datos en blanco. Esta ventana se llama 'census : Base de datos'.
    • Pulsar el botón "Nuevo" para abrir el cuadro de diálogo "Nueva Tabla". Seleccionar "Vincular Tabla" y pulsar ACEPTAR. Tener cuidado de no seleccionar la opción "Importar Tabla" por error. Los archivos STF3A de Massachusetts son bastante grandes e importándolos, aumentaríamos considerablemente el tamaño de la base de datos de Access; algo innecesario, especialmente si tenemos en cuenta que sólo nos interesa una parte de esos datos.
       
    • En el cuadro de diálogo "Vincular", elegir dBASE IV (*.dbf) en el desplegable del apartado "Tipo de archivo:". Navegar hasta el directorio en el que están almacenados los archivos; el de Massachusetts y New Hampshire es J:\stf3a1990\ma_nh. A continuación seleccionar stf314ma.dbf y pulsar el botón "Vincular".

    •  
    • Entonces, aparecerá el cuadro de diálogo "Seleccionar los archivos índice". Pulsar "Cancelar" para cerrarlo.

    •  
    • Si todo va bien, debería aparecer el siguiente mensaje: " 'stf314ma' se ha vinculado correctamente". Pulsar "Aceptar".

    •  
    • Entonces, volvemos al cuadro de diálogo "Vincular". Si quisieramos, ahora podríamos vincular más tablas a la base de datos. Puesto que para este ejercicio no necesitamos más, pulsaremos "Cerrar" para cerrar el cuadro de diálogo.
       
    • Ahora se debería poder ver la tabla vinculada en la ventana de la base de datos con el icono "->dB" a la izquierda del nombre.

Buscar el código de condado

Debemos recordar que sólo nos interesa extraer los datos del condado de Middlesex, lo que significa que debemos averiguar su código FIPS (Federal Information Processing Standard). El disco del censo contiene un archivo llamado cnamesma.dbf  en el que hay una lista de todos los códigos de condado de Massachusetts. No obstante, es mucho más fácil buscarlo en alguna de las listas que hay en internet:

Recurriendo a alguna de estas fuentes, podemos determinar rápidamente que el código del condado de Middlesex es 017.

Encontrar el nivel de sumario adecuado

Los datos del censo se encuentran tabulados en distintos niveles de agrupamiento: estados (states), condados (counties), distritos censales (census tracts), etc. Estos niveles están anidados unos dentro de otros formando una jerarquía. En las tablas del STF 3A se incluyen todos los niveles de la jerarquía geográfica --lo que en el censo se llaman "niveles de sumario"--. Por ello, si realizamos una consulta sin restringirla a un nivel de sumario, veremos todos los niveles en los resultados. Para este ejercicio, sólo nos interesa el nivel de grupo de bloques. Para encontrar el código numérico de este nivel, examinaremos los Gráficos de secuencia de nivel de sumario (Summary Level Sequence Charts). En la fila que pone "State--County--Census Tract/Block Numbering Area--Block Group" la tabla indica que el código correcto es 150. Es importante no confundirlo con el nivel de sumario 090, que hace referencia a "place" (lugar), situado sobre el nivel "grupo de bloques" (block group) en la jerarquía. En muchos estados (aunque no en Massachusetts), el uso del nivel de sumario que equivale a la unidad geográfica "place" (lugar) eliminará todos los grupos de bloques que no se encuentren entre las comunidades incorporadas o bien, entre los "lugares designados del censo" no incorporados pero densamente poblados. Además, los grupos de bloques y, por tanto, los distritos, pueden atravesar las fronteras de los lugares, dificultando el análisis.

Seleccionar las filas que se quieren

Crear una nueva consulta en Microsoft Access. Añadir la tabla stf314ma a la consulta. Como observamos antes, queremos restringir el nivel de sumario (SUMLEV) a "150" y el condado (CNTY) a "025". Añadir las siguientes columnas a la vista de diseño de la consulta y establecer los criterios que se muestran a continuación:

Columna Descripción Criterios
SUMLEV Nivel de sumario "150"
STATEFP Código FIPS de estado  
CNTY Código FIPS de condado "025"
TRACTBNA Distrito censal/Block Numbering Area ID   
BLCKGR ID del grupo de bloque del censo  
LOGRECNU Número de registro lógico  
P080A001 Renta media familiar de 1989  

 

Una vez hecho esto, ejecutaremos la consulta. Si estamos accediendo a los archivos a través de la red, el proceso puede durar varios segundos. En cualquier caso, siempre será inferior a un minuto.

Examinar la capa geográfica de los grupos de bloques en ArcView

Ejecutar ArcView. En una nueva ventana de Vista (View), añadir al proyecto el tema de los grupos de bloques de Massachusetts que se encuentra en el shapefile K:\11.208\arcviewfiles\stateplane\mablkgrp.shp. Visualizar la tabla de atributos del tema Mablkgrp mediante la opción del menú Theme > Table. Examinar el formato del identificador del grupo de bloques, Bkg_key. La columna Bkg_key contiene números como "250173001001", "250173182009" ó "250173872026". Comparar estos números con los datos obtenidos en la consulta de Access. La tabla stf314ma no tiene ninguna columna que coincida con con Bkg_key. Sin embargo, tenemos todas las partes que la componen repartidas en STATEFP, CNTY, TRACTBNA y BLCKGR. Debemos reunir estos componentes para formar un identificador de grupo de bloques que sea compatible con Bkg_key. Obsérvese que Bkg_key contiene los números de la siguiente forma:

      SSCCCTTTTXXG

    donde

      SS es el código FIPS de estado (p.ej., 25),
      CCC es el código FIPS de condado (p.ej., 017),
      TTTTXX es el número de distrito censal (p.ej., 300100) y
      G es el número de grupo de bloque del censo (p.ej., 1).

    Veámoslo con más detenimiento:


      SSCCCTTTTXXG
      250173001001
      25
      0173182009
      25
      0173872026

    Obsérvese que todos estos códigos empiezan por cero; el Bkg_key siempre tiene 12 caracteres. Hemos de construir el Bkg_key equivalente en la tabla medhhinc.dbf. Lo que dificulta este proceso es la representación del número de distrito. En las tablas STF, el campo Tractbna utiliza el formato TTTTXX,pero la parte XX se omite cuando es cero (p.ej., "3001", "3182", "387202", etc.). Es decir, a veces el campo tiene sólo 4 caracteres (cuando se omiten los dos ceros del final) y a veces tiene 6.

La solución a esto

Llegados a este punto, disponemos de la geografía de grupo de bloques y de algunos datos interesantes para unirlos a ella, pero carecemos de un método sencillo para unir los datos que hemos extraído de las tablas del censo con el tema de los grupos de bloques. Para solucionar esto, hemos de crear un nuevo campo en la consulta de Access que contenga la clave que necesitamos.

Añadir una columna a la consulta de Access

El número de distrito plantea algunas dificultades. El campo TRACTBNA de las tablas del STF utiliza el formato TTTTXX y la parte XX se omite cuando es cero (p.ej., "3001", pero "314398"). Es decir, a veces el campo tiene sólo 4 caracteres (cuando se omiten los dos ceros del final) y a veces tiene 6.

Para solucionar esto, podemos utilizar dos de las funciones de Access:
 
Función Objetivo Ejemplos
Len(string) Devuelve la longitud de la cadena Len("ABCD") devuelve 4
Len("ABCDEF") devuelve 6
If(test_expr, verd_expr, falsa_expr) Evalúa test_expr. Si text_expr es verdadera, devuelve verd_expr, si no, devuelve falsa_expr. If(numval > 1000, "Alto", "Bajo")
Si numval=2000, devuelve "Alto"
Si numval=10, devuelve "Bajo"

Podemos usar estas funciones para saber si un identificador de distrito en concreto (TRACTBNA) tiene más de 4 caracteres. Si es así, no es necesario hacer nada; de lo contrario, debemos "rellenar" el campo RACTBNA con otros dos ceros para completar el largo. Para ello, utilizaremos la siguiente expresión:

[STATEFP] + [CNTY] + [TRACTBNA] + If(Len([TRACTBNA]) > 4, "", "00") + [BLCKGR]

Puesto que queremos dar a esta nueva columna un nombre más significativo que el de "Expr1" que Access le asigna por defecto, podemos añadirle el nombre BKG_KEY como se muestra a continuación:

BKG_KEY: [STATEFP] + [CNTY] + [TRACTBNA] + If(Len([TRACTBNA]) > 4, "", "00") + [BLCKGR]

Además, queremos que esta columna sea la primera en la tabla de resultados. Para ello, haremos un clic en cualquier parte de la primera columna de la vista de diseño de la consulta; luego, seleccionaremos Insertar > Columnas. Aparecerá una nueva columna en blanco. En esta columna, copiamos y pegamos (o escribimos) en la celda "Campo:" la expresión anterior.

Volver a ejecutar la consulta. Obsérvese que la columna BKG_KEY tiene 12 caracteres, independientemente de que la columna TRACTBNA tenga 4 ó 6.

Obsérvese que en el caso de que hubiera algún número de distrito de 5 dígitos (además de los de 4 y 6), tendríamos que modificar este procedimiento (¿qué podríamos hacer entonces?).

Deshacerse de las columnas innecesarias

Para nuestro objetivo, en realidad sólo necesitamos llevar a ArcView las columnas BKG_KEY, LOGRECNU y P080A001. Por ello, desmarcaremos la casilla de la celda "Mostrar:" de las columnas SUMLEV, STATEFP, CNTY, TRACTBNA y BLCKGR.

Guardar la consulta

Cerrar la consulta. Aparecerá un cuadro pidiendo el nombre con el que guardarla; pondremos medhhinc.

Guardar los resultados como archivo de dBASE (DBF)

El formato de base de datos preferido por ArcView es el de dBASE (DBF). Por ello, guardaremos una copia de los resultados de nuestra consulta en un archivo de formato DBF. En la ventana 'Base de datos', nos aseguraremos de que la pestaña 'Consultas' esté activa y de que la consulta medhhinc esté seleccionada. Entonces, iremos a Archivo> Exportar... Segiremos los cuadros de diálogo que vayan apareciendo para guardar un archivo externo llamado medhhinc.dbf en nuestra carpeta H:\private. Debemos asegurarnos de especificar "dBASE IV (*.dbf)" en el apartado "Guardar como tipo:" de el último cuadro.

Hemos terminado con Access. El resto del ejercicio lo haremos con ArcView.

Abrir la tabla 'medhhinc.dbf' en ArcView

Añadir la tabla medhhinc.dbf al proyecto de Arcview. Obsérvese que la tabla contiene sólo las filas y columnas que seleccionamos previamente.

Unir la tabla 'medhhinc.dbf' con los atributos del tema de los grupos de bloques

Utilizar el campo común de ambas tablas para unirlas. Seleccionar el encabezado de la columna Bkg_key en medhhinc.dbf y luego, en la tabla de atributos del tema ("Attributes of Mablkgrp.shp"). Tras comprobar que "Attributes of Mablkgrp.shp" es la ventana activa, ir a Table > Join para unir las tablas. La tabla medhhinc.dbf debería desaparecer (siempre y cuando hayamos seleccionado la tabla correcta al realizar la unión). Debe estar activa la tabla correcta cuando seleccionemos Table > Join o de lo contrario, no podremos mapear los nuevos atributos.

Crear un mapa temático

Por fin, estamos preparados para crear un mapa temático.

Utilizar la columna P080a001 para crear un mapa de color graduado (graduated color). Poner el valor null a cero y visualizar la fila "No Data". Deberíamos ver sombreados sólo los grupos de bloques del condado de Middlesex. Comprobemos que sólo éstos están sombreados; el motivo es que sólo extrajimos los datos del censo de ese condado. Si, entonces, hubiésemos obtenido los datos de otros condados (p.ej., Essex, Norfolk, Plymouth y Suffolk), ahora también aparecerían sombreados.

Un ejemplo diferente

Supón que hubiéramos querido visualizar algo ligeramente distinto a la renta media familiar: el porcentaje de rentas inferior a 15000 dólares de cada grupo. Para calcular esto, tendríamos que añadir varias columnas de la tabla "Household Income in 1989" (P80). Además, deberíamos normalizar los datos dividiéndolos por el universo adecuado; en este caso, "Households". Podemos calcular el universo (número total de familias), añadiendo las 25 columnas de la tabla P80. También podemos obtener el número total de familias a partir del elemento P0050001 de la tabla "Households" (P5). El valor que se obtiene de la suma de las 25 columnas de la tabla P80 debería ser el mismo que el de la columna P0050001; se puede comprobar en el Negociado del Censo, comparando estos valores. La suma de las familias contabilizadas en varias categorías de la renta se debería dividir por este valor. Ojeando una vez más el apartado  "Using the File", podemos ver que las tablas P5 y P80 están almacenadas en distintos archivos DBF. Podemos utilizar el campo "Logrecnu", el del número de registro lógico, para unir los extractos de ambos archivos.

¿Por qué debemos normalizar los datos? Comparar las cifras sin normalizar de las unidades de vivienda por grupo de bloques puede resultar engañoso, ya que el número total de viviendas varía de un grupo de bloques a otro. Al dividir el número de viviendas con una renta inferior a 15000 dólares entre el número total de viviendas, obtenemos una fracción del total de viviendas con una renta inferior a 15000 dólares. Esta fracción se puede comparar equitativamente entre los distintos grupos de bloques.

¡FIN!

Según afirma Qing Shen, la fuente de la que proceden estos apuntes es una clase impartida por Laura Lebow el 24 de enero de 1995. Estos apuntes han sido adaptados para archivos de datos en línea y MapInfo por Thomas H. Grayson en otoño de 1996. Thomas H. Grayson los modificó para MapInfo 5.0®,  Microsoft Excel 97® y Microsoft Query® en enero de 1999.

Thomas H. Grayson preparó una versión de estos apuntes para el curso 11.521 en otoño de 1998, que a su vez fue modificada por Anne Kinsella Thompson, con algunos comentarios de Thomas H. Grayson, para el curso 11.520 en otoño de 1999. Este documento es una mezcla de los apuntes del curso 11.208 del IAP de 1999 (Excel®/MSQuery® y MapInfo®) con los del curso 11.520 del otoño de 1999 (sólo ArcView®) y presenta procedimientos en Excel®/MSQuery® y ArcView®.

Massachusetts Institute of Technology © 2003 MIT | Información Jurídica | Privacidad
Todo uso del sitio de MIT OpenCourseWare y sus materiales de curso queda sujeto a las condiciones y términos de uso detallados
en la sección sobre Información Jurídica
Copyright © 2003 Portal Universia S.A. Todos los derechos reservados
(Avda. de Cantabria s/n - Edif. Arrecife, planta 00.28660 Boadilla del Monte) - Madrid. España.
Contacta con nosotros: Usuarios | Empresas-Instituciones-Medios comunicación
Código Ético | Aviso Legal | Política de confidencialidad | Quiénes somos: Sala de Prensa