MIT OpenCourseWare


11.208 Introducción a la informática en la gestión pública II

Página principal
¿Qué es OCW?
Ayuda
Feedback
Preguntas frecuentes
Glosario
 
 
Página principal del curso
Programa
Calendario
Material de clase
Trabajos
Exámenes
  Otras fuentes
Prácticas
  Material de estudio

   MIT

   
 

PRÁCTICA E: Cómo trabajar con los datos del censo II

Extracción y análisis de los datos del censo a partir de archivos STF

Enlace al Boletín
Enlace a la página de consejos

[Las imágenes han sido extraídas de MSAccess®]

En este ejercicio hay que responder a algunas preguntas sobre la gente que conduce sola de camino al trabajo en el condado de Middlesex (Massachusetts). Para ello, primero es necesario encontrar y extraer los datos de distintos archivos STF del censo que se encuentran en formato de dBASE (DBF). Y luego, utilizar las herramientas de consulta de Microsoft Access para crear un subcompendio de datos en una nueva tabla. Además de los identificadores geográficos y de registro, estará entre los nuevos datos el porcentage de trabajadores que conducen en solitario de camino al trabajo para cada grupo de bloques del condado. Cuando dispongamos de una tabla con esta información, podremos responder a las preguntas que se encuentran al final de esta práctica.

Puede que los materiales de las dos clases tituladas "Entender el censo" sean de ayuda para realizar esta práctica:

Habrá que:

Seguiremos estos pasos para extraer los datos y crear el nuevo archivo:

1. Identificar los datos necesarios

Debemoss determinar los archivos STF y los campos de datos que necesitaremos para los trabajadores que conducen en solitario de camino al trabajo (buscar Means of Transportation to Work --medios de transporte para ir al trabajo-- en el Buscador temático) y el universo necesario para normalizar estos datos (asegúrarse de comprobar la definición de trabajador). Hay varias fuentes para esta información y la elegida debe coincidir con la definición dada para el modo de transporte.

Sigamos este procedimiento para obtener los datos:

  1. Buscar la tabla "Medios de transporte para ir al trabajo": abrir Netscape e ir al Buscador temático del STF 3A; buscar "Means of Transportation to Work" (medios de transporte para ir al trabajo) en el margen izquierdo de esta página (en la barra de herramientas de Netscape, ir a "Editar", luego a "Buscar en esta página..." y escribir "Means of Transportation to Work", sin las comillas). Es importante ignorar las entradas que contienen la palabra "imputation" (imputación) o en las que el texto no está completamente en el lado izquierdo (pulsar el botón Buscar en la ventana 'Buscar en esta página' hasta encontrar una entrada que reúna estas condiciones). Debería poner "Workers 16 years and over" (trabajadores de 16 años y mayores) justo debajo. En la columna situada a la derecha de Means of Transportation to Work, se encontrará la tabla que contiene esta información. ¡Anotamos el código de la tabla! Ya hemos acabado con esta página.

  2. Determinar las columnas de datos necesarias de la tabla: ahora, mirar en la Tabla de definiciones del STF 3A (STF 3A Table Definitions). Buscar el código de la tabla que anotamos en el paso anterior utilizando, una vez más, el comando "Buscar" de Netscape. Observando la descripción de la tabla, en esta lista podremos encontrar el nombre de referencia que presentan en el diccionario de datos las cabeceras de columnas que contienen la información necesaria (p.ej., P0490010 hace referencia a la columna de datos que contiene información sobre los que utilizan una bicicleta como medio de transporte para ir a trabajar). En esta práctica, sólo nos interesa la columna de datos de los que conducen en solitario de camino al trabajo.

  3. Localizar la tabla para normalizar los datos: ¿por qué es necesario normalizar los datos? Comparar las cifras sin normalizar de trabajadores que conducen en solitario por grupo de bloques podría darnos un resultado engañoso, ya que el número total de trabajadores puede variar de un grupo de bloques a otro. Si dividimos el número de trabajadores que conducen en solitario por el número total de trabajadores que hay en cada grupo de bloques, obtendremos una fracción con la que sí se puede realizar una comparación realista entre los distintos grupos de bloques. Para normalizar los datos, es necesario saber primero el número total de trabajadores que hay en cada grupo de bloques o en el universo. Esto, es posible averiguarlo buscando "by Work Status in 1989" (por situación laboral en 1989) en el Buscador temático. Debería aparecer "by Race by Employment Status" justo sobre esta línea; veremos que la información se refiere a personas de 16 años y mayores.

  4. Mirar qué columnas son necesarias para normalizar los datos: volver a la Tabla de definiciones del STF 3A y determinar qué columnas será necesario extraer de esta segunda tabla. Para construir un universo de trabajadores de 16 años como mínimo, necesitaremos extraer (y posteriormente agregar) datos de trabajadores de ambos sexos, masculino y femenino. En este caso, incluiremos a los hombres y a las mujeres que hayan trabajado en 1989. Obsérvese que la frase "Repeat WORK STATUS IN 1989" (Repite situación laboral en 1989) utilizada para las mujeres significa, básicamente, que las mismas categorías que hay para los hombres ("Worked in 1989" y "Did not work in 1989"), están repetidas para las mujeres. Y las consiguientes cabeceras de columna van a continuación (de forma secuencial) de la primera listada para las mujeres. El censo hace esto cuando se repiten las mismas categorías para distintos grupos como, por ejemplo, mujeres y hombres. De este modo, se evitan las repeticiones y se ahorra espacio.

  5. Tercera parte: averiguar en qué archivos están almacenadas las tablas: ir al apartado "Using the File" en la documentación del STF 3A. Aquí podremos ver una lista de las tablas que se incluyen en cada uno de los 35 archivos DBF del STF 3A (buscar bajo el título "Data Tables In Each Segment"). Por ejemplo, la tabla de datos STF307 incluye los campos que van desde el P27 al P32. Determinar qué tablas de datos incluyen las columnas que hemos seleccionado. Anótarlo.

  6. Buscar el nivel de sumario adecuado: Los datos del censo se almacenan en muchos niveles: estados, condados, distritos censales, etc. Se trata de niveles anidados formando una jerarquía. Todos los niveles de la jerarquía geográfica -- lo que en el censo se llaman "niveles de sumario"-- están incluidos en las tablas del STF 3A. Sin embargo, para esta práctica, sólo nos interesa el nivel de sumario 'grupo de bloques'. Para encontrar el código numérico de este nivel, iremos a las Summary Level Sequence Charts (Tablas de secuencia de los niveles de sumario). En la fila "State--County--Census Tract/Block Numbering Area--Block Group", la tabla muestra el código para el nivel de grupo de bloques (150). Es importante anotarlo. Lo utilizaremos más adelante para diseñar una consulta en MS Access.

  7. Averiguar el código del condado: puesto que sólo nos interesan los datos del condado de Middlesex tendremos que averiguar su código FIPS (Federal Information Processing Standard). Si consultamos el sitio de los códigos FIPS de estados y condados de la EPA, veremos que el código del estado de Massachusetts es el "25" y el del condado de Middlesex es el "017". Anotaremos ambos códigos. Nos harán falta más adelante para diseñar una consulta en MS Access.

2. RELACIONAR (no importar) los archivos y preparar los datos para el análisis

Para este ejercicio, hemos almacenado en el disco duro local de los ordenadores que están utilizando en este momento una copia de los archivos del censo que van a necesitar. Concretamente, se encuentran en los ordenadores 9-551/555, 9-554, 9-524, 3-314 y 10-485. Los archivos del censo están en C:\stf3a1990 (ruta alternativa: J:\stf3a1990\ma_nh). Debido a que se trata de archivos de gran tamaño, para acceder a ellos les instamos a que sigan un procedimiento ligeramente distinto al que han utilizado en las prácticas anteriores. Esta vez NO importaremos los archivos *.dbf, sino que los VINCULAREMOS a una nueva base de datos ya creada. El motivo es que los archivos origen del censo son muy grandes (alrededor de 32MB en conjunto) y su importación supondría sobrecargar innecesariamente los recursos de red del CRL, así como su propio espacio CRL.

Cómo VINCULAR a Microsoft Access los archivos STF necesarios:

  1. Abrir Microsoft Access y crear una Nueva base de datos en blanco. En la ventana Archivo nueva base de datos comprobar que en Guardar en está el directorio propio de cada uno H:\private y luego pulsar Crear. En el menú superior, seleccionar Archivo > Obtener datos externos y hacer clic en Vincular tablas...

  2. En la ventana Vincular, ir al cuadro Buscar en y seleccionar C:\stf3a1990 (ruta alternativa: J:\stf3a1990\ma_nh); luego, en 'Tipo de archivo' seleccionar dBASE IV (*.dbf). Ahora deberíamos poder ver los archivos DBF que necesitamos. Seleccionar uno de ellos y hacer clic en Vincular. En la siguiente ventana, llamada Selecciona los archivos índice, pulsar Cancelar. Ahora debería aparecer una pequeña ventana para informar de que la tabla se ha vinculado con éxito. A continuación, volver a la ventana Vincular y repetir este procedimiento con los otros archivos. Cuando los hayamos vinculado todos, podremos cerrar la ventana.

  3. Hacer clic en la pestaña Consultas y pulsar Nueva para crear una nueva vista de diseño. Añadir los dos archivos del censo y relaciónarlos mediante su identificador común LOGRECNU.

    Ahora añadiremos campos a la rejilla de diseño de la consulta, que se convertirá en una nueva tabla. Utilizar la nueva tabla para responder a las preguntas del Boletín. Recuerden que debemos hacer una tabla de los trabajadores que conducen en solitario de camino al trabajo en los grupos de bloques del condado de Middlesex.

    1. Añadir los campos determinados previamente para los trabajadores que conducen en solitario y para el universo de todos los trabajadores del condado de Middlesex.

    2. No se olviden de incluir los identificadores de los lugares geográficos, entre los que se incluyen el número de registro lógico y los identificadores de condado, distrito y grupo de bloques.

    3. Algo muy importante: también hay que limitar los resultados de la tabla por condado y nivel de sumario. Utilizar los códigos que anotamos antes: nivel de sumario de grupo de bloques (150), código de estado (25) y código de condado (017).

    4. También se puede optar por crear una nueva columna que calcule el porcentaje de trabajadores que conducen en solitario al trabajo en cada grupo de bloques. Recuerden que MS Access permite introducir por teclado en Campo una expresión que sirva para calcular un nuevo valor. Eso es lo que debemos hacer aquí. También se podría escribir un nuevo nombre de campo basado en una "expresión calculada". Por ejemplo, un modo de hacerlo sería introducir por teclado en el cuadro Campo una expresión del tipo:
    5. PCTDRVALON: (([nombre_campo1]+[nombre_campo2])/ [nombre_campo3])*100

      Cuando se utilice una división en una expresión, como en el caso anterior, es importante comprobar que el divisor (el número por el que se divide; el denominador en una fracción; en este caso, [fieldname3]) nunca sea igual a cero. Para ello, puede que sea necesario añadir el criterio "<>0" a la consulta. La división entre cero es infinita, por lo que Access informará de un error de "desbordamiento" si se lleva a cabo una división de este tipo por error.

    6. Es necesario asegurarse de incluir un criterio de selección que elimine los registros en los que no hay ningún trabajador (p.ej., el número de trabajadores de cada grupo de bloques debería ser obligatoriamente mayor de 0).

    7. Un modo de revisar los resultados de la consulta es hacer clic de vez en cuando en la 'Vista hoja de datos' a medida que se van añadiendo los campos. Hagámoslo ahora para comprobar que los resultados coinciden con los esperados.
  1. Cuando estemos seguro de que la consulta reúne todos los elementos necesarios, la guardaremos con un nuevo nombre. Una vez que esté todo preparado, para que los resultados se conviertan en una nueva tabla de base de datos, ir a la barra de herramientas y pulsar el botón Tipo de consulta
     ; aparecerá un menú desplegable con los distintos tipos de consulta. Seleccionar la opción Consulta de creación de tabla:

Listado de los tipos de consulta
Listado de los tipos de consulta

A continuación, escribir un nuevo Nombre de tabla en la ventana Crear tabla y guardarla en la base de datos activa. Para que se cree la nueva tabla, pulsar el botón Ejecutar consulta  . Entonces aparecerá una ventana en la que Access informa que "Va a pegar x fila(s) en una nueva tabla". Pulsar . La nueva tabla debería aparecer ahora en la lista de tablas, junto a las demás.

Acabamos de crear una tabla para poder responder a las preguntas del Boletín. Ahora podríamos crear nuevas consultas y utilizar en ellas la nueva tabla. De este modo, ya no son necesarias las tablas vinculadas del censo.

  1. Llegados a este punto, nos gustaría ver los comandos SQL que se han utilizado para crear la nueva tabla. Se deberá entregar una copia de estos comandos junto con la hoja de respuestas del Boletín. Para obtener esta copia, hacer clic en la consulta anterior o abrir la consulta que ha utilizado para crear la tabla. Pulsar el botón Vista y seleccionar la opción 'Vista SQL' (como se muestra en imágen inferior) para ver el código SQL que MS Access ejecuta por nosotros.

Selección de la Vista SQL

Selección de la Vista SQL

Seleccionar el texto que aparece en pantalla y copiarlo para poder imprimirlo y entregarlo (con el nombre de la persona que lo ha realizado) junto con la hoja de respuestas. Un modo de hacerlo es seleccionar el texto y copiarlo en el portapapeles utilizando Control-C. Para luego, abrir el editor Bloc de notas (Inicio > Programas > Accesorios > Bloc de notas) y pegar ahí el texto. Activar la función 'Ajuste de línea' (en el menú Edición > Ajuste de línea; la opción debería estar marcada) para que los comandos SQL se muestren en múltiples líneas cuando sea necesario. Guardar el archivo de texto e imprimir los comandos SQL de esta consulta.

3. Realizar el análisis

  • Ahora ya tenemos las tablas de Microsoft Access que hacen falta para completar el Boletín.

4. OPCIONAL: Hacer un mapa temático a partir de los resultados

Si a alguien le sobra tiempo, puede que quiera hacer un mapa temático a partir de los datos STF que ha extraído, siguiendo el procedimiento que aprendido en la clase de esta mañana. Para ello, hay dos formas distintas de mover las tablas de datos del censo desde Access a ArcView®.

  1. Cómo mover los datos de Access a ArcView®:
    • Opción 1: consiste en exportar las tablas desde Access como archivos en formato *.dbf y luego, importar desde ArcView® dichos archivos. Exportar la tabla desde Access con el nombre drvalpc.dbf y el tipo DBF 4 (dBASE IV) (*.dbf). Luego, salir de Access y ejecutar ArcView®.

    • Opción 2: consiste en utilizar una extensión de ArcView® por medio de una conexión SQL (SQL Connect) para que éste reconozca e importe las tablas de Access directamente. Seleccionar File > Extensions... en el menú de ArcView®. Aparecerá la ventana Extensions. Desplázarse hacia abajo en la ventana hasta ver la extensión de Base de datos de Access y marcar la casilla situada junto a ella. Observar que no basta con hacer clic sobre el nombre de la extensión; esto sólo muestra una descripción de la misma. Pulsar OK. Luego hacer clic dentro de la ventana de proyecto (Untitled) y seleccionar, en el menú, Project > SQL Connect. Entonces, aparecerá la ventana SQL Connect (ventana de conexión SQL). En la parte superior de esta ventana, hacer clic en el menú desplegable del cuadro Connection y seleccionar la opción Microsoft Access Database. Luego pulsar el botón Connect. Aparecerá una ventana con el título Select Database (seleccionar base de datos). Especificar la unidad (Drive) y los directorios (Directories) en los que se encuentran las tablas de Access. Comprobar que en el apartado del tipo de archivo (List Files of Type) pone Access Databases (*.mdb). Seleccionar la tabla haciendo clic sobre su nombre y pulsar OK. Volverá a aparecer la ventana SQL Connect; hacer doble clic en esta ventana sobre el nombre de la tabla. Aparecerán los nombres de los campos de la tabla a la derecha, en el cuadro Columns. Para importar la tabla completa, introducir un asterisco (*) en el cuadro Select y poner un nuevo nombre en el cuadro Output Table (Tabla de salida). Al pulsar el botón Query (consulta) se creará la tabla de ArcView®. Por ejemplo, la ventana SQL Connect que se muestra a continuación, importa todas las columnas de la tabla STF309ma a una nueva tabla de ArcView® llamada "mitabla".

    Ventana de conexión SQL (SQL Connect)
    Ventana de conexión SQL (SQL Connect)
  1. Diseño del mapa con ArcView®: Una vez llevado a cabo cualquiera de las opciones anteriores, se puede empezar con el proceso de diseño. Dentro de ArcView®, añadir el tema (theme) grupos de bloques de Massachusetts que está en C:\11.208\arcviewfiles\stateplane\mablkgrp.shp (ruta alternativa: K:\11.208\arcviewfiles\stateplane\mablkgrp.shp). Para vincular la tabla de atributos de mablkgrp.shp a drivealonepct.dbf, hay que crear en drivealonepct.dbf un nuevo campo que contenga un identificador único para los grupos de bloques censales. Una vez hecho esto y habiendo enlazado ya las tablas entre sí, se podrá ver un mapa temático de los datos extraídos. Para más detalles sobre este procedimiento, consultar la Lecture 6: Working with Census Data in ArcView®.

Información Jurídica | Privacidad
Todo uso del sitio de MIT OpenCourseWare y sus materiales de curso queda sujeto a las condiciones y términos de uso detallados
en la sección sobre Información Jurídica
Contacta con nosotros: Usuarios | Empresas-Instituciones-Medios comunicación
Código Ético | Aviso Legal | Política de confidencialidad | Quiénes somos: Sala de Prensa