| |
Entender
el censo, 2ª parte: cómo trabajar con los
datos del censo
Thomas H. Grayson
24 de enero de 2002
Objetivo
Extraer datos del censo de población
y vivienda de EEUU (1990) y hacer un mapa en el que
se muestren esos datos.
Recursos y herramientas
Repaso: cómo están
organizados los datos del censo de 1990
- Nota: El contenido
de la clase introductoria del censo puede ser
de gran utilidad.
- El STF 3A (Summary Tape
File 3A) contiene los cuestionarios largos, una
muestra de los datos del censo organizada en función
de las fronteras geográficas definidas para
el censo. Por ejemplo:
Estado (State)
(nivel de sumario 040)
Condado (County)
(nivel de sumario 050)
Distrito (Tract)
(nivel de sumario 140)
Grupo de bloques
(Block Group) (nivel
de sumario 150)
- Puedes acceder a los datos
de población y vivienda.
- El censo proporciona CD-ROMs
con los datos en formato de dBASE (DBF). Estos
se encuentran disponibles en la biblioteca
Rotch.
- Los datos se encuentran en
muchos niveles de agrupación o niveles
de sumario. Los mencionados anteriormente son
algunos de ellos.
Esquema general
- Si es necesario normalizar
los datos, identificar el universo y planificar también
su extracción.
- Buscar las "tablas" del censo
en las que están almacenados los datos y el
universo.
- Buscar los elementos necesarios
dentro de esas "tablas".
- Identificar y buscar los archivos
de dBase que contienen las "tablas" en cuestión.
- Extraer los datos de los archivos
de dBase mediante el uso de las herramientas de consulta
de Microsoft Access.
- Crear un identificador de registro
del censo único para los datos extraídos,
de modo que los registros se puedan reunir en una
tabla de atributos de los temas geográficos.
- Guardar los resultados en un
archivo de dBase para que se puedan leer con facilidad
desde ArcView
.
- Generar un mapa temático
en ArcView a partir de los resultados.
Ejemplo de ejercicio
Hacer un mapa temático
del:
Condado de Middlesex, Massachusetts
que
muestre
la renta media familiar
para
cada
grupo de bloques
del censo
de EEUU.
Proceso
Nota: estas instrucciones están
pensadas para un ordenador con Windows 2000, cuyo disco
duro local se encuentra en la unidad C:, y que utiliza
Microsoft Networking con la configuración del
CRL. En Windows 95,
98, ME y NT 4.0 deberían funcionar de modo similar,
pero en estas plataformas no se han probado.
Analizar
la estructura del problema:
- Nuestro ejercicio
tiene un ámbito geográfico definido.
Nos interesan los datos del Condado de Middlesex,
MA. No nos importan los otros estados, ni otros
condados de Massachusetts.
- El ejercicio tiene
un nivel de análisis definido.
Nos interesan los datos a nivel de grupo de bloques.
Otros niveles, como condados o distritos censales, nos
traen sin cuidado.
- Buscamos un dato en
concreto.
El censo contiene un compendio de datos muy rico pero,
para este ejercicio, buscamos sólo la renta
media familiar.
Identificar la tabla de la renta
media familiar
Ir al buscador
temático del STF 3A. Buscar "Median Household
Income" (renta media familiar) en el margen izquierdo
de esta página. Ignorar las entradas que contienen
la palabra "imputation" y en las que el texto no se
ajusta al margen izquierdo. Debería poner "Households"
justo debajo. En la columna de la derecha, a la altura
de "Households", podemos ver que la información
que buscamos se encuentra en la tabla P80A.
Identificar los datos de la tabla
que necesitamos
Mirar las
definiciones de las tablas del STF 3A. Localizar
la tabla P80A, buscando la cadena "P80A" en el
navegador. Esta tabla sólo tiene un elemento,
el P080A001, correspondiente a la "Median Household
Income in 1989" (renta media familiar de 1989). Observar
que otras tablas tienen más de un elemento (p.ej.,
la tabla P80, "Household Income in 1989").
Identificar los arhivos en los
que están almacenados las tablas
Ir a la sección "Using
the File" de la documentación del STF 3A.
Aquí, bajo el título "Data Tables In Each
Segment", encontraremos una lista de las tablas que
hay en cada uno de los 35 archivos DBF del STF 3A. Ojeando
la lista, podemos ver que la tabla P80A se encuentra
en el segmento STF314. En el nombre del archivo
que contiene los datos, la abreviatura del estado va
unida al nombre del segmento. Así, este segmento
corresponde al archivo stf314ma.dbf del CD-ROM
(en la copia en red del CD-ROM se accede a él
con mayor rapidez).
Localizar los archivos DBF en
red o en el CD-ROM
Se puede acceder directamente a
los archivos STF 3A de Massachusetts y New Hampshire
de 1990 a través de la red, en el directorio
J:\stf3a1990\ma_nh. Los contenidos de esta carpeta
son los mismos que encontraríamos en el CD-ROM
del censo si buscaramos esos estados.
A esta copia en red de los archivos
STF 3A de Massachusetts y New Hampshire de 1990 sólo
se puede acceder desde aquí (desde el MIT). Si
se pretende acceder a los archivos desde cualquier otro
sitio o buscar datos de otros estados, se deberá
encontrar otra fuente. En la biblioteca
Rotch y en otras bibliotecas
depositarias de documentos del gobierno de EEUU
es posible encontrar más CDs con datos del censo
de EEUU. Además, los archivos STF 3A de 1990
se pueden obtener en línea de la página
del Negociado
del Censo de EEUU por HTTP
y FTP.
Opcional: Debido
a que los archivos DBF del censo son bastante grandes
(normalmente de 10-20 Mb), el acceso a ellos desde un
CD-ROM puede ser bastante lento y a través de
la red, además de lento, inestable. Por otra
parte, puede que se desee almacenarlos en la unidad
local, de modo que sea posible acceder a ellos en cualquier
momento. Utilizar el explorador de Windows para copiar
los archivos del disco del censo en la correspondiente
carpeta personal del espacio público del PC (p.ej.,
C:\PUBLIC\nombreusuario).
Abrir el archivo de dBase del
censo con Microsoft Access
Cada segmento (p.ej., un archivo
DBF) contiene muchas "tablas" del censo. Lo que queremos
es extraer sólo los elementos necesarios para
nuestro análisis: las columnas clave y los datos
que hemos identificado previamente. Para llevar esto
a cabo, podemos utilizar las herramientas de consulta
de Access. En primer lugar, debemos abrir el archivo
de dBase para tener acceso a su contenido. Añadir
el archivo de dBase del siguiente modo:
- Ejecutar Access. Cuando aparezca
el cuadro de diálogo inicial, elegir la opción
"Crear una nueva base de datos usando una base de
datos de Access en blanco". Ponerle el nombre census.mdb
y guárdarla en nuestra carpeta privada dentro
del espacio CRL, H:\private (en caso de no
tener una carpeta en ese espacio, utilizar una unidad
de disco Zip o el disco duro local en su lugar).
- En la ventana 'Base de datos',
asegúrarse de que la pestaña "Tablas"
esté activa; es como suele estar tras crear
una base de datos en blanco. Esta ventana se llama
'census : Base de datos'.
- Pulsar el botón "Nuevo"
para abrir el cuadro de diálogo "Nueva Tabla".
Seleccionar "Vincular Tabla" y pulsar ACEPTAR. Tener
cuidado de no seleccionar la opción "Importar
Tabla" por error. Los archivos STF3A de
Massachusetts son bastante grandes e importándolos,
aumentaríamos considerablemente el tamaño
de la base de datos de Access; algo innecesario,
especialmente si tenemos en cuenta que sólo
nos interesa una parte de esos datos.
- En el cuadro de diálogo
"Vincular", elegir dBASE IV (*.dbf) en el
desplegable del apartado "Tipo de archivo:". Navegar
hasta el directorio en el que están almacenados
los archivos; el de Massachusetts y New Hampshire
es J:\stf3a1990\ma_nh. A continuación
seleccionar stf314ma.dbf y pulsar el botón
"Vincular".
- Entonces, aparecerá
el cuadro de diálogo "Seleccionar los archivos
índice". Pulsar "Cancelar" para cerrarlo.
- Si todo va bien, debería
aparecer el siguiente mensaje: " 'stf314ma' se ha
vinculado correctamente". Pulsar "Aceptar".
- Entonces, volvemos al cuadro
de diálogo "Vincular". Si quisieramos, ahora
podríamos vincular más tablas a la
base de datos. Puesto que para este ejercicio no
necesitamos más, pulsaremos "Cerrar"
para cerrar el cuadro de diálogo.
- Ahora se debería poder
ver la tabla vinculada en la ventana de la base
de datos con el icono "->dB" a la izquierda del
nombre.
Buscar el código de condado
Debemos recordar que sólo
nos interesa extraer los datos del condado de Middlesex,
lo que significa que debemos averiguar su código
FIPS (Federal Information Processing Standard).
El disco del censo contiene un archivo llamado cnamesma.dbf
en el que hay una lista de todos los códigos
de condado de Massachusetts. No obstante, es mucho más
fácil buscarlo en alguna de las listas que hay
en internet:
Recurriendo a alguna de estas
fuentes, podemos determinar rápidamente que el
código del condado de Middlesex es 017.
Encontrar el nivel de sumario
adecuado
Los datos del censo se encuentran
tabulados en distintos niveles de agrupamiento: estados
(states), condados (counties), distritos
censales (census tracts), etc. Estos niveles
están anidados unos dentro de otros formando
una jerarquía. En las tablas del STF 3A se incluyen
todos los niveles de la jerarquía geográfica
--lo que en el censo se llaman "niveles de sumario"--.
Por ello, si realizamos una consulta sin restringirla
a un nivel de sumario, veremos todos los niveles
en los resultados. Para este ejercicio, sólo
nos interesa el nivel de grupo de bloques. Para encontrar
el código numérico de este nivel, examinaremos
los Gráficos
de secuencia de nivel de sumario (Summary Level Sequence
Charts). En la fila que pone "State--County--Census
Tract/Block Numbering Area--Block Group" la tabla indica
que el código correcto es 150. Es importante
no confundirlo con el nivel de sumario 090, que hace
referencia a "place" (lugar), situado sobre el nivel
"grupo de bloques" (block group) en
la jerarquía. En muchos estados (aunque no en
Massachusetts), el uso del nivel de sumario que equivale
a la unidad
geográfica "place" (lugar) eliminará
todos los grupos de bloques que no se encuentren entre
las comunidades incorporadas o bien, entre los
"lugares
designados del censo" no incorporados
pero densamente poblados. Además, los grupos
de bloques y, por tanto, los distritos, pueden atravesar
las fronteras de los lugares, dificultando el análisis.
Seleccionar las filas que se quieren
Crear una nueva consulta en Microsoft
Access. Añadir la tabla stf314ma a la
consulta. Como observamos antes, queremos restringir
el nivel de sumario (SUMLEV) a "150" y el condado
(CNTY) a "025". Añadir las siguientes
columnas a la vista de diseño de la consulta
y establecer los criterios que se muestran a continuación:
| Columna |
Descripción |
Criterios |
| SUMLEV |
Nivel de sumario |
"150" |
| STATEFP |
Código FIPS de
estado |
|
| CNTY |
Código FIPS de
condado |
"025" |
| TRACTBNA |
Distrito censal/Block
Numbering Area ID |
|
| BLCKGR |
ID del grupo de bloque
del censo |
|
| LOGRECNU |
Número de registro
lógico |
|
| P080A001 |
Renta media familiar
de 1989 |
|
Una vez hecho esto, ejecutaremos
la consulta. Si estamos accediendo a los archivos a
través de la red, el proceso puede durar varios
segundos. En cualquier caso, siempre será inferior
a un minuto.
Examinar la capa geográfica
de los grupos de bloques en ArcView
Ejecutar ArcView. En una
nueva ventana de Vista (View), añadir
al proyecto el tema de los grupos de bloques de Massachusetts
que se encuentra en el shapefile K:\11.208\arcviewfiles\stateplane\mablkgrp.shp.
Visualizar la tabla de atributos del tema Mablkgrp
mediante la opción del menú Theme >
Table. Examinar el formato del identificador del
grupo de bloques, Bkg_key. La columna Bkg_key
contiene números como "250173001001", "250173182009"
ó "250173872026". Comparar estos números
con los datos obtenidos en la consulta de Access. La
tabla stf314ma no tiene ninguna columna que coincida
con con Bkg_key. Sin embargo, tenemos todas
las partes que la componen repartidas en STATEFP,
CNTY, TRACTBNA y BLCKGR. Debemos reunir estos
componentes para formar un identificador de grupo de
bloques que sea compatible con Bkg_key. Obsérvese
que Bkg_key contiene los números de la
siguiente forma:
donde
SS
es el código FIPS de estado (p.ej., 25),
CCC es el código FIPS de condado
(p.ej., 017),
TTTTXX
es el número de distrito censal (p.ej., 300100)
y
G es
el número de grupo de bloque del censo (p.ej.,
1).
Veámoslo con más
detenimiento:
SSCCCTTTTXXG
250173001001
250173182009
250173872026
Obsérvese que todos estos
códigos empiezan por cero; el Bkg_key
siempre tiene 12 caracteres. Hemos de construir el
Bkg_key equivalente en la tabla medhhinc.dbf.
Lo que dificulta este proceso es la representación
del número de distrito. En las tablas STF,
el campo Tractbna utiliza el formato TTTTXX,pero
la parte XX
se omite cuando es cero (p.ej., "3001", "3182",
"387202", etc.). Es decir, a veces el campo tiene
sólo 4 caracteres (cuando se omiten los dos
ceros del final) y a veces tiene 6.
La solución a esto
Llegados a este punto, disponemos
de la geografía de grupo de bloques y de algunos
datos interesantes para unirlos a ella, pero carecemos
de un método sencillo para unir los datos que
hemos extraído de las tablas del censo con el
tema de los grupos de bloques. Para solucionar esto,
hemos de crear un nuevo campo en la consulta
de Access que contenga la clave que necesitamos.
Añadir una columna a la
consulta de Access
El número de distrito plantea
algunas dificultades. El campo TRACTBNA de las
tablas del STF utiliza el formato TTTTXX
y la parte XX
se omite cuando es cero (p.ej., "3001", pero "314398").
Es decir, a veces el campo tiene sólo 4 caracteres
(cuando se omiten los dos ceros del final) y a veces
tiene 6.
Para solucionar esto, podemos utilizar
dos de las funciones de Access:
| Función |
Objetivo |
Ejemplos |
| Len(string) |
Devuelve la longitud de la
cadena |
Len("ABCD") devuelve
4
Len("ABCDEF") devuelve 6 |
| If(test_expr, verd_expr, falsa_expr) |
Evalúa test_expr.
Si text_expr es verdadera, devuelve verd_expr,
si no, devuelve falsa_expr. |
If(numval > 1000, "Alto", "Bajo")
Si numval=2000, devuelve "Alto"
Si numval=10, devuelve "Bajo" |
Podemos usar estas funciones para
saber si un identificador de distrito en concreto (TRACTBNA)
tiene más de 4 caracteres. Si es así,
no es necesario hacer nada; de lo contrario, debemos
"rellenar" el campo RACTBNA con otros
dos ceros para completar el largo. Para ello, utilizaremos
la siguiente expresión:
[STATEFP] + [CNTY] + [TRACTBNA]
+ If(Len([TRACTBNA]) > 4, "", "00") + [BLCKGR]
Puesto que queremos dar a esta
nueva columna un nombre más significativo que
el de "Expr1" que Access le asigna por defecto, podemos
añadirle el nombre BKG_KEY como se muestra
a continuación:
BKG_KEY: [STATEFP] + [CNTY]
+ [TRACTBNA] + If(Len([TRACTBNA]) > 4, "", "00") + [BLCKGR]
Además, queremos que esta
columna sea la primera en la tabla de resultados. Para
ello, haremos un clic en cualquier parte de la primera
columna de la vista de diseño de la consulta;
luego, seleccionaremos Insertar > Columnas. Aparecerá
una nueva columna en blanco. En esta columna, copiamos
y pegamos (o escribimos) en la celda "Campo:"
la expresión anterior.
Volver a ejecutar la consulta.
Obsérvese que la columna BKG_KEY tiene
12 caracteres, independientemente de que la columna
TRACTBNA tenga 4 ó 6.
Obsérvese que en el caso
de que hubiera algún número de distrito
de 5 dígitos (además de los de 4 y 6),
tendríamos que modificar este procedimiento (¿qué
podríamos hacer entonces?).
Deshacerse de las columnas innecesarias
Para nuestro objetivo, en realidad
sólo necesitamos llevar a ArcView las
columnas BKG_KEY, LOGRECNU y P080A001.
Por ello, desmarcaremos la casilla de la celda "Mostrar:"
de las columnas SUMLEV, STATEFP, CNTY, TRACTBNA y
BLCKGR.
Guardar la consulta
Cerrar la consulta. Aparecerá
un cuadro pidiendo el nombre con el que guardarla; pondremos
medhhinc.
Guardar los resultados como archivo
de dBASE (DBF)
El formato de base de datos preferido
por ArcView es el de dBASE (DBF). Por ello, guardaremos
una copia de los resultados de nuestra consulta en un
archivo de formato DBF. En la ventana 'Base de datos',
nos aseguraremos de que la pestaña 'Consultas'
esté activa y de que la consulta medhhinc
esté seleccionada. Entonces, iremos a Archivo>
Exportar... Segiremos los cuadros de diálogo
que vayan apareciendo para guardar un archivo externo
llamado medhhinc.dbf en nuestra carpeta H:\private.
Debemos asegurarnos de especificar "dBASE IV (*.dbf)"
en el apartado "Guardar como tipo:" de el último
cuadro.
Hemos terminado con Access. El
resto del ejercicio lo haremos con ArcView.
Abrir la tabla 'medhhinc.dbf'
en ArcView
Añadir la tabla medhhinc.dbf
al proyecto de Arcview. Obsérvese
que la tabla contiene sólo las filas y columnas
que seleccionamos previamente.
Unir la tabla 'medhhinc.dbf' con
los atributos del tema de los grupos de bloques
Utilizar el campo común
de ambas tablas para unirlas. Seleccionar el encabezado
de la columna Bkg_key en medhhinc.dbf
y luego, en la tabla de atributos del tema ("Attributes
of Mablkgrp.shp"). Tras comprobar que "Attributes of
Mablkgrp.shp" es la ventana activa, ir a Table >
Join para unir las tablas. La tabla medhhinc.dbf
debería desaparecer (siempre y cuando hayamos
seleccionado la tabla correcta al realizar la unión).
Debe estar activa la tabla correcta cuando seleccionemos
Table > Join o de lo contrario, no podremos mapear
los nuevos atributos.
Crear un mapa temático
Por fin, estamos preparados
para crear un mapa temático.
Utilizar la columna P080a001
para crear un mapa de color graduado (graduated color).
Poner el valor null a cero y visualizar la fila
"No Data". Deberíamos
ver sombreados sólo los grupos de bloques del
condado de Middlesex. Comprobemos que sólo éstos
están sombreados; el motivo es que sólo
extrajimos los datos del censo de ese condado. Si, entonces,
hubiésemos obtenido los datos de otros condados
(p.ej., Essex, Norfolk, Plymouth y Suffolk), ahora también
aparecerían sombreados.
Un ejemplo diferente
Supón que hubiéramos
querido visualizar algo ligeramente distinto a la renta
media familiar: el porcentaje de rentas inferior a 15000
dólares de cada grupo. Para calcular esto, tendríamos
que añadir varias columnas de la tabla "Household
Income in 1989" (P80). Además, deberíamos
normalizar los datos dividiéndolos por el universo
adecuado; en este caso, "Households". Podemos calcular
el universo (número total de familias), añadiendo
las 25 columnas de la tabla P80. También podemos
obtener el número total de familias a partir
del elemento P0050001 de la tabla "Households" (P5).
El valor que se obtiene de la suma de las 25 columnas
de la tabla P80 debería ser el mismo que el de
la columna P0050001; se puede comprobar en el Negociado
del Censo, comparando estos valores. La suma de las
familias contabilizadas en varias categorías
de la renta se debería dividir por este valor.
Ojeando una vez más el apartado "Using
the File",
podemos ver que las tablas P5 y P80 están almacenadas
en distintos archivos DBF. Podemos utilizar el campo
"Logrecnu", el del número de registro lógico,
para unir los extractos de ambos archivos.
¿Por qué debemos
normalizar los datos? Comparar las cifras sin normalizar
de las unidades de vivienda por grupo de bloques puede
resultar engañoso, ya que el número total
de viviendas varía de un grupo de bloques a otro.
Al dividir el número de viviendas con una renta
inferior a 15000 dólares entre el número
total de viviendas, obtenemos una fracción
del total de viviendas con una renta inferior a 15000
dólares. Esta fracción se puede comparar
equitativamente entre los distintos grupos de bloques.
¡FIN!
Según afirma Qing Shen, la
fuente de la que proceden estos apuntes es una clase
impartida por Laura Lebow el 24 de enero de 1995. Estos
apuntes han sido adaptados para archivos de datos en
línea y MapInfo
por Thomas H. Grayson en otoño de 1996. Thomas
H. Grayson los modificó para MapInfo 5.0®,
Microsoft Excel 97® y Microsoft Query® en enero
de 1999.
Thomas H. Grayson preparó una
versión de estos apuntes para el curso 11.521
en otoño de 1998, que a su vez fue modificada
por Anne Kinsella Thompson, con algunos comentarios
de Thomas H. Grayson, para el curso 11.520 en otoño
de 1999. Este documento es una mezcla de los apuntes
del curso 11.208 del IAP de 1999 (Excel®/MSQuery®
y MapInfo®) con los del curso 11.520 del otoño
de 1999 (sólo ArcView®) y presenta procedimientos
en Excel®/MSQuery® y ArcView®.
|