| |
PRÁCTICA E: Cómo trabajar
con los datos del censo II
Extracción y análisis
de los datos del censo a partir de archivos STF
Enlace
al Boletín
Enlace
a la página de consejos
[Las
imágenes han sido extraídas de MSAccess®]
En este ejercicio hay que
responder a algunas preguntas sobre la gente que conduce
sola de camino al trabajo en el condado de Middlesex
(Massachusetts). Para ello, primero es necesario encontrar
y extraer los datos de distintos archivos STF del censo
que se encuentran en formato de dBASE (DBF). Y luego,
utilizar las herramientas de consulta de Microsoft Access
para crear un subcompendio de datos en una nueva tabla.
Además de los identificadores geográficos
y de registro, estará entre los nuevos datos
el porcentage de trabajadores que conducen
en solitario de camino al trabajo para cada grupo
de bloques del condado. Cuando dispongamos de una
tabla con esta información, podremos responder
a las preguntas que se encuentran al final de esta práctica.
Puede que los materiales
de las dos clases tituladas "Entender el censo"
sean de ayuda para realizar esta práctica:
Habrá que:
Seguiremos estos pasos para
extraer los datos y crear el nuevo archivo:
1. Identificar
los datos necesarios
Debemoss determinar los
archivos STF y los campos de datos que necesitaremos
para los trabajadores que conducen en solitario de camino
al trabajo (buscar Means of Transportation to Work
--medios de transporte para ir al trabajo-- en
el Buscador
temático) y el universo necesario
para normalizar estos datos (asegúrarse de comprobar
la definición de trabajador). Hay varias fuentes
para esta información y la elegida debe coincidir
con la definición dada para el modo de transporte.
Sigamos este procedimiento
para obtener los datos:
- Buscar la tabla "Medios
de transporte para ir al trabajo": abrir Netscape
e ir al Buscador
temático del STF 3A; buscar "Means
of Transportation to Work" (medios de transporte para
ir al trabajo) en el margen izquierdo de esta página
(en la barra de herramientas de Netscape, ir
a "Editar", luego a "Buscar en esta página..."
y escribir "Means of Transportation to Work", sin
las comillas). Es importante ignorar las entradas
que contienen la palabra "imputation" (imputación)
o en las que el texto no está completamente
en el lado izquierdo (pulsar el botón Buscar
en la ventana 'Buscar en esta página' hasta
encontrar una entrada que reúna estas condiciones).
Debería poner "Workers 16 years and over" (trabajadores
de 16 años y mayores) justo debajo. En la columna
situada a la derecha de Means of Transportation
to Work, se encontrará la tabla que contiene
esta información. ¡Anotamos el código
de la tabla! Ya hemos acabado con esta página.
- Determinar las columnas
de datos necesarias de la tabla: ahora, mirar
en la
Tabla de definiciones del STF 3A (STF 3A Table
Definitions). Buscar el código de la tabla
que anotamos en el paso anterior utilizando, una vez
más, el comando "Buscar" de Netscape.
Observando la descripción de la tabla, en esta
lista podremos encontrar el nombre de referencia que
presentan en el diccionario de datos las cabeceras
de columnas que contienen la información necesaria
(p.ej., P0490010 hace referencia a la columna de datos
que contiene información sobre los que utilizan
una bicicleta como medio de transporte para ir a trabajar).
En esta práctica, sólo nos interesa
la columna de datos de los que conducen en solitario
de camino al trabajo.
- Localizar la tabla para
normalizar los datos: ¿por qué
es necesario normalizar los datos? Comparar las cifras
sin normalizar de trabajadores que conducen en solitario
por grupo de bloques podría darnos un resultado
engañoso, ya que el número total de
trabajadores puede variar de un grupo de bloques a
otro. Si dividimos el número de trabajadores
que conducen en solitario por el número total
de trabajadores que hay en cada grupo de bloques,
obtendremos una fracción con la que sí
se puede realizar una comparación realista
entre los distintos grupos de bloques. Para normalizar
los datos, es necesario saber primero el número
total de trabajadores que hay en cada grupo de bloques
o en el universo. Esto, es posible averiguarlo buscando
"by Work Status in 1989" (por situación laboral
en 1989) en el Buscador
temático. Debería aparecer "by Race
by Employment Status" justo sobre esta línea;
veremos que la información se refiere a personas
de 16 años y mayores.
- Mirar qué columnas
son necesarias para normalizar los datos: volver
a la Tabla
de definiciones del STF 3A y determinar qué
columnas será necesario extraer de esta segunda
tabla. Para construir un universo de trabajadores
de 16 años como mínimo, necesitaremos
extraer (y posteriormente agregar) datos de trabajadores
de ambos sexos, masculino y femenino. En este caso,
incluiremos a los hombres y a las mujeres que hayan
trabajado en 1989. Obsérvese que la frase "Repeat
WORK STATUS IN 1989" (Repite situación laboral
en 1989) utilizada para las mujeres significa, básicamente,
que las mismas categorías que hay para los
hombres ("Worked in 1989" y "Did not work in 1989"),
están repetidas para las mujeres. Y las consiguientes
cabeceras de columna van a continuación (de
forma secuencial) de la primera listada para las mujeres.
El censo hace esto cuando se repiten las mismas categorías
para distintos grupos como, por ejemplo, mujeres y
hombres. De este modo, se evitan las repeticiones
y se ahorra espacio.
- Tercera parte: averiguar
en qué archivos están almacenadas las
tablas: ir al apartado "Using
the File" en la documentación del STF 3A.
Aquí podremos ver una lista de las tablas que
se incluyen en cada uno de los 35 archivos DBF del
STF 3A (buscar bajo el título "Data Tables
In Each Segment"). Por ejemplo, la tabla de datos
STF307 incluye los campos que van desde el P27 al
P32. Determinar qué tablas de datos incluyen
las columnas que hemos seleccionado. Anótarlo.
- Buscar el nivel de sumario
adecuado: Los datos del censo se almacenan en
muchos niveles: estados, condados, distritos censales,
etc. Se trata de niveles anidados formando una jerarquía.
Todos los niveles de la jerarquía geográfica
-- lo que en el censo se llaman "niveles de sumario"--
están incluidos en las tablas del STF 3A. Sin
embargo, para esta práctica, sólo nos
interesa el nivel de sumario 'grupo de bloques'. Para
encontrar el código numérico de este
nivel, iremos a las Summary
Level Sequence Charts (Tablas de secuencia de
los niveles de sumario). En la fila "State--County--Census
Tract/Block Numbering Area--Block Group", la tabla
muestra el código para el nivel de grupo de
bloques (150). Es importante anotarlo. Lo utilizaremos
más adelante para diseñar una consulta
en MS Access.
- Averiguar el código
del condado: puesto que sólo nos interesan
los datos del condado de Middlesex tendremos que averiguar
su código FIPS (Federal Information Processing
Standard). Si consultamos el sitio
de los códigos FIPS de estados y condados de
la EPA, veremos que el código del estado
de Massachusetts es el "25" y el del condado
de Middlesex es el "017". Anotaremos ambos
códigos. Nos harán falta más
adelante para diseñar una consulta en MS Access.
2. RELACIONAR
(no importar) los archivos y preparar los datos
para el análisis
Para este ejercicio, hemos
almacenado en el disco duro local de los ordenadores
que están utilizando en este momento una copia
de los archivos del censo que van a necesitar. Concretamente,
se encuentran en los ordenadores 9-551/555, 9-554, 9-524,
3-314 y 10-485. Los archivos del censo están
en C:\stf3a1990 (ruta alternativa: J:\stf3a1990\ma_nh).
Debido a que se trata de archivos de gran tamaño,
para acceder a ellos les instamos a que sigan un procedimiento
ligeramente distinto al que han utilizado en las prácticas
anteriores. Esta vez NO importaremos los
archivos *.dbf, sino que los VINCULAREMOS a una
nueva base de datos ya creada. El motivo es que los
archivos origen del censo son muy grandes (alrededor
de 32MB en conjunto) y su importación supondría
sobrecargar innecesariamente los recursos de red del
CRL, así como su propio espacio CRL.
Cómo VINCULAR a Microsoft
Access los archivos STF necesarios:
- Abrir Microsoft Access y crear
una Nueva base de datos en blanco. En la ventana
Archivo nueva base de datos comprobar que en
Guardar en está el directorio propio
de cada uno H:\private y luego pulsar Crear.
En el menú superior, seleccionar Archivo
> Obtener datos externos y hacer clic en Vincular
tablas...
- En la ventana Vincular,
ir al cuadro Buscar en y seleccionar C:\stf3a1990
(ruta alternativa: J:\stf3a1990\ma_nh); luego,
en 'Tipo de archivo' seleccionar dBASE IV (*.dbf).
Ahora deberíamos poder ver los archivos DBF
que necesitamos. Seleccionar uno de ellos y hacer
clic en Vincular. En la siguiente ventana,
llamada Selecciona los archivos índice,
pulsar Cancelar. Ahora debería aparecer
una pequeña ventana para informar de que la
tabla se ha vinculado con éxito. A continuación,
volver a la ventana Vincular y repetir este
procedimiento con los otros archivos. Cuando los hayamos
vinculado todos, podremos cerrar la ventana.
- Hacer clic en la pestaña
Consultas y pulsar Nueva para crear
una nueva vista de diseño. Añadir los
dos archivos del censo y relaciónarlos
mediante su identificador común LOGRECNU.
Ahora añadiremos campos
a la rejilla de diseño de la consulta, que
se convertirá en una nueva tabla. Utilizar
la nueva tabla para responder a las preguntas del
Boletín. Recuerden que debemos hacer una
tabla de los trabajadores que conducen en solitario
de camino al trabajo en los grupos de bloques del
condado de Middlesex.
- Añadir los campos
determinados previamente para los trabajadores que
conducen en solitario y para el universo de todos
los trabajadores del condado de Middlesex.
- No se olviden de incluir
los identificadores de los lugares geográficos,
entre los que se incluyen el número de registro
lógico y los identificadores de condado,
distrito y grupo de bloques.
- Algo muy importante: también
hay que limitar los resultados de la tabla por condado
y nivel de sumario. Utilizar los códigos
que anotamos antes: nivel de sumario de grupo de
bloques (150), código de estado (25)
y código de condado (017).
- También se puede
optar por crear una nueva columna que calcule el
porcentaje de trabajadores que conducen en solitario
al trabajo en cada grupo de bloques. Recuerden que
MS Access permite introducir por teclado en Campo
una expresión que sirva para calcular un
nuevo valor. Eso es lo que debemos hacer aquí.
También se podría escribir un nuevo
nombre de campo basado en una "expresión
calculada". Por ejemplo, un modo de hacerlo sería
introducir por teclado en el cuadro Campo una expresión
del tipo:
PCTDRVALON: (([nombre_campo1]+[nombre_campo2])/
[nombre_campo3])*100
Cuando se utilice una división
en una expresión, como en el caso anterior,
es importante comprobar que el divisor (el número
por el que se divide; el denominador en una fracción;
en este caso, [fieldname3])
nunca sea igual a cero. Para ello, puede que sea
necesario añadir el criterio "<>0"
a la consulta. La división entre cero es
infinita, por lo que Access informará de
un error de "desbordamiento" si se lleva
a cabo una división de este tipo por error.
- Es necesario asegurarse
de incluir un criterio de selección que elimine
los registros en los que no hay ningún trabajador
(p.ej., el número de trabajadores de cada
grupo de bloques debería ser obligatoriamente
mayor de 0).
- Un modo de revisar los resultados
de la consulta es hacer clic de vez en cuando en
la 'Vista hoja de datos' a medida que se van añadiendo
los campos. Hagámoslo ahora para comprobar
que los resultados coinciden con los esperados.
- Cuando estemos seguro de que
la consulta reúne todos los elementos necesarios,
la guardaremos con un nuevo nombre. Una vez que esté
todo preparado, para que los resultados se conviertan
en una nueva tabla de base de datos, ir a la barra
de herramientas y pulsar el botón Tipo de consulta
;
aparecerá un menú desplegable con los
distintos tipos de consulta. Seleccionar la opción
Consulta de creación de tabla:
Listado de los tipos de consulta
A continuación, escribir
un nuevo Nombre de tabla en la ventana Crear
tabla y guardarla en la base de datos activa. Para
que se cree la nueva tabla, pulsar el botón Ejecutar
consulta .
Entonces aparecerá una ventana en la que Access
informa que "Va a pegar x fila(s) en una nueva tabla".
Pulsar Sí. La nueva tabla debería
aparecer ahora en la lista de tablas, junto a las demás.
Acabamos de crear una tabla
para poder responder a las preguntas del Boletín.
Ahora podríamos crear nuevas consultas y utilizar
en ellas la nueva tabla. De este modo, ya no son necesarias
las tablas vinculadas del censo.
-
Llegados a este punto, nos
gustaría ver los comandos SQL que se han
utilizado para crear la nueva tabla. Se deberá
entregar una copia de estos comandos junto con la
hoja de respuestas del Boletín. Para obtener
esta copia, hacer clic en la consulta anterior o
abrir la consulta que ha utilizado para crear la
tabla. Pulsar el botón Vista y seleccionar
la opción 'Vista SQL' (como se muestra en
imágen inferior) para ver el código
SQL que MS Access ejecuta por nosotros.

Selección
de la Vista SQL
Seleccionar el texto que aparece
en pantalla y copiarlo para poder imprimirlo y entregarlo
(con el nombre de la persona que lo ha realizado) junto
con la hoja de respuestas. Un modo de hacerlo es seleccionar
el texto y copiarlo en el portapapeles utilizando Control-C.
Para luego, abrir el editor Bloc de notas (Inicio
> Programas > Accesorios > Bloc de notas) y pegar
ahí el texto. Activar la función 'Ajuste
de línea' (en el menú Edición
> Ajuste de línea; la opción debería
estar marcada) para que los comandos SQL se muestren
en múltiples líneas cuando sea necesario.
Guardar el archivo de texto e imprimir los comandos
SQL de esta consulta.
3. Realizar
el análisis
- Ahora ya tenemos las
tablas de Microsoft Access que hacen falta para completar
el Boletín.
4. OPCIONAL:
Hacer un mapa temático a partir de los resultados
Si a alguien le sobra tiempo,
puede que quiera hacer un mapa temático a partir
de los datos STF que ha extraído, siguiendo el
procedimiento que aprendido en la clase de esta mañana.
Para ello, hay dos formas distintas de mover las tablas
de datos del censo desde Access a ArcView®.
- Cómo mover los datos
de Access a ArcView®:
- Opción 1:
consiste en exportar las tablas desde Access como
archivos en formato *.dbf y luego, importar desde
ArcView® dichos archivos. Exportar la
tabla desde Access con el nombre drvalpc.dbf
y el tipo DBF 4 (dBASE IV) (*.dbf). Luego,
salir de Access y ejecutar ArcView®.
- Opción 2:
consiste en utilizar una
extensión de ArcView® por medio
de una conexión SQL (SQL Connect)
para que éste reconozca e importe las tablas
de Access directamente. Seleccionar File
> Extensions... en el menú de ArcView®.
Aparecerá la ventana Extensions. Desplázarse
hacia abajo en la ventana hasta ver la extensión
de Base de datos de Access y marcar la casilla
situada junto a ella. Observar que no basta con
hacer clic sobre el nombre de la extensión;
esto sólo muestra una descripción
de la misma. Pulsar OK. Luego hacer clic
dentro de la ventana de proyecto (Untitled)
y seleccionar, en el menú, Project >
SQL Connect. Entonces, aparecerá la ventana
SQL Connect (ventana de conexión SQL).
En la parte superior de esta ventana, hacer clic
en el menú desplegable del cuadro Connection
y seleccionar la opción Microsoft Access
Database. Luego pulsar el botón Connect.
Aparecerá una ventana con el título
Select Database (seleccionar base de datos).
Especificar la unidad (Drive) y los directorios
(Directories) en los que se encuentran
las tablas de Access. Comprobar que en el apartado
del tipo de archivo (List Files of Type)
pone Access Databases (*.mdb). Seleccionar
la tabla haciendo clic sobre su nombre y pulsar
OK. Volverá a aparecer la ventana
SQL Connect; hacer doble clic en esta ventana
sobre el nombre de la tabla. Aparecerán los
nombres de los campos de la tabla a la derecha,
en el cuadro Columns. Para importar la tabla
completa, introducir un asterisco (*) en el cuadro
Select y poner un nuevo nombre en el cuadro
Output Table (Tabla de salida). Al pulsar
el botón Query (consulta) se creará
la tabla de ArcView®. Por ejemplo, la
ventana SQL Connect que se muestra a continuación,
importa todas las columnas de la tabla STF309ma
a una nueva tabla de ArcView® llamada
"mitabla".

Ventana de conexión SQL (SQL
Connect)
- Diseño del mapa con
ArcView®: Una vez llevado a cabo cualquiera
de las opciones anteriores, se puede empezar con el
proceso de diseño. Dentro de ArcView®,
añadir el tema (theme) grupos de bloques
de Massachusetts que está en C:\11.208\arcviewfiles\stateplane\mablkgrp.shp
(ruta alternativa: K:\11.208\arcviewfiles\stateplane\mablkgrp.shp).
Para vincular la tabla de atributos de mablkgrp.shp
a drivealonepct.dbf, hay que crear en drivealonepct.dbf
un nuevo campo que contenga un identificador único
para los grupos de bloques censales. Una vez hecho
esto y habiendo enlazado ya las tablas entre sí,
se podrá ver un mapa temático de los
datos extraídos. Para más detalles sobre
este procedimiento, consultar la Lecture
6: Working with Census Data in ArcView®.
|