unir-metodologia/procesamiento-unificador.ipynb

4.6 KiB

from functools import cache
import pandas as pd

pd.set_option("display.max_columns", None)
df = pd.concat(
    [
        pd.read_csv("2010-2016.csv"),
        pd.read_csv("2017-2019.csv"),
    ]
)
/var/folders/05/y38rqjl55hjb_hbnypxzgrsw0000gn/T/ipykernel_93262/3018518299.py:3: DtypeWarning: Columns (20) have mixed types. Specify dtype option on import or set low_memory=False.
  pd.read_csv("2010-2016.csv"),
df.to_csv("2010-2019.csv")
df.info()
<class 'pandas.core.frame.DataFrame'>
Index: 20918084 entries, 0 to 5873376
Data columns (total 32 columns):
 #   Column                              Dtype 
---  ------                              ----- 
 0   Unnamed: 0                          int64 
 1   edo_captura                         object
 2   edo_nac_madre                       object
 3   fecha_nac_madre                     object
 4   edad_madre                          int64 
 5   estado_conyugal                     object
 6   entidad_residencia_madre            object
 7   numero_embarazos                    int64 
 8   hijos_nacidos_muertos               int64 
 9   hijos_nacidos_vivos                 int64 
 10  hijos_sobrevivientes                int64 
 11  el_hijo_anterior_nacio              object
 12  vive_aun_hijo_anterior              object
 13  orden_nacimiento                    int64 
 14  recibio_atencion_prenatal           object
 15  trimestre_recibio_primera_consulta  object
 16  total_consultas_recibidas           int64 
 17  madre_sobrevivio_al_parto           object
 18  escolaridad_madre                   object
 19  ocupacion_habitual_madre            object
 20  trabaja_actualmente                 object
 21  fecha_nacimiento_nac_vivo           object
 22  hora_nacimiento_nac_vivo            object
 23  sexo_nac_vivo                       object
 24  semanas_gestacion_nac_vivo          int64 
 25  talla_nac_vivo                      int64 
 26  peso_nac_vivo                       int64 
 27  valoracion_apgar_nac_vivo           int64 
 28  valoracion_silverman_nac_vivo       int64 
 29  producto_de_un_embarazo             object
 30  codigo_anomalia                     object
 31  entidad_certifico                   object
dtypes: int64(13), object(19)
memory usage: 5.1+ GB
! stat 2010-2019.csv
16777232 80891859 -rw-r--r-- 1 miguel.salgado staff 0 4854454496 "Feb 25 01:57:13 2024" "Feb 25 01:59:10 2024" "Feb 25 01:59:10 2024" "Feb 25 01:57:10 2024" 4096 9504688 0 2010-2019.csv