import pandas as pd # Para el manejo de los datos
from scipy.stats import norm # Para realizar la prueba de hipótesis
import os # Para interacuar con el sistema de archivos
# para las visualizaciones
import seaborn as sns 
import matplotlib.pyplot as plt


df_total = pd.read_excel(
    'homicidios_2020.xls', # Nombre del archivo
    skiprows=8, # Se omiten los primeros 8 renglones
    usecols=[1,4], # Se seleccionan las columnas con información
    header=None, # Se especifica que no se lean nombres de las variables
    names=['estado','mujer'],# Asignamos nombre a las columnas
    nrows=33 # Leemos únicamente los renglones con información
)
df_total


# Carpeta desde la cual leeremos los datos
carpeta = './homicidios_por_edad/'
# Se crea un dataframe vacío que contiene únicamente 
# el nombre de los estados. Aquí se almacenará toda
# la información de los datos agrupados por edad
df_edades = pd.DataFrame({'estado':[e for e in df_total.estado]})
# Se lee cada archivo de homicidios por edad y se 
# une al dataframe resultante
for f in os.listdir(carpeta):
    # Se obtiene el rango de edad de los datos en cuestión
    rango_edad = f.split('.')[0]
    # Se lee el dataframe actual 
    df = pd.read_excel(
        f'{carpeta}{f}', # Nombre del archivo
        skiprows=10, # Se omiten los primeros 9 renglones
        usecols=[1,4], # Se seleccionan las columnas con información
        header=None, # Se especifica que no se lean nombres de las variables
        names=['estado',rango_edad],# Asignamos nombre a las columnas
    ).dropna(how='all')
    # Se une el dataframe actual con los demás resultados
    df_edades = df_edades.merge(df, on='estado', how='left')

df_edades.fillna(0, inplace=True)


# Se establece el orden de las columnas
orden_columnas = ['estado','0','1-4','5-9','10-14','15-19','20-24','25-29','30-34',
                  '35-39','40-44','45-49','50-54','55-59','60-64','65-69',
                  '70-74','75-79','80-84','85-mas']

# Todos los valores se convierten a números enteros
int_cols = df_edades.columns[1:]
df_edades[int_cols] = df_edades[int_cols].astype('Int64')
# Se reordenan las columnas
df_edades = df_edades[orden_columnas]

df_edades


# Carpeta desde la cual leeremos los datos
carpeta = './homicidios_por_mes/'
# Se crea un dataframe vacío que contiene únicamente 
# el nombre de los estados. Aquí se almacenará toda
# la información de los datos agrupados por mes
df_mes = pd.DataFrame({'estado':[e for e in df_total.estado]})
# Se lee cada archivo de homicidios por mes y se 
# une al dataframe resultante
for f in os.listdir(carpeta):
    # Se obtiene el mes de los datos en cuestión
    mes = f.split('.')[0]
    # Se lee el dataframe actual 
    df = pd.read_excel(
        f'{carpeta}{f}', # Nombre del archivo
        skiprows=9, # Se omiten los primeros 9 renglones
        usecols=[1,4], # Se seleccionan las columnas con información
        header=None, # Se especifica que no se lean nombres de las variables
        names=['estado',mes],# Asignamos nombre a las columnas
    ).dropna(how='all')
    # Se une el dataframe actual con los demás resultados
    df_mes = df_mes.merge(df, on='estado', how='left')

df_mes.fillna(0, inplace=True)

# Se establece el orden de las columnas
orden_columnas = ['estado','enero','febrero','marzo','abril','mayo','junio',
                  'julio','agosto','septiembre','octubre','noviembre',
                  'diciembre'
                 ]
# Todos los valores se convierten a números enteros
int_cols = df_mes.columns[1:]
df_mes[int_cols] = df_mes[int_cols].astype('Int64')

# Se reordenan las columnas
df_mes = df_mes[orden_columnas]

df_mes


# Se establece el tamaño de la gráfica y el color del fondo
sns.set(rc = {'figure.figsize':(15,8)})
sns.set_style("dark")

# Se grafica la figura
barplot = sns.barplot(
    data=df_edades, 
    estimator=sum, 
    ci=None, 
    color=(172/255,0,255/255,0.87)
)
barplot.set_title("Casos de feminicidio en México por grupo de edad (2020)", fontsize = 18)
barplot.set_xlabel("Edades (años)", fontsize = 15)
barplot.axes.yaxis.set_ticklabels([])

# Se grafica el valor de cada barra
i = 0
for col in df_edades.columns[1:]:
    value = df_edades[col].sum()
    barplot.text(i,value+10, int(value), color='black', ha="center")
    i += 1


# Se establece el tamaño de la gráfica y el color del fondo
sns.set(rc = {'figure.figsize':(20,3)})
sns.set_style("dark")

# Se grafica la serie de tiempo
lineplot = sns.lineplot(
    data=[df_mes[m].sum() for m in df_mes.columns[1:]],
    color=(172/255,0,255/255,0.87),
    markers=True,
    marker='o'
)
lineplot.set_title("Casos de feminicidio en México por mes (2020)", fontsize = 18)
lineplot.set_xlabel("Mes", fontsize = 15)
plt.xticks(range(12), df_mes.columns[1:])
lineplot.axes.yaxis.set_ticklabels([])

# Se añade el valor para cada mes
i = 0
for col in df_mes.columns[1:]:
    value = df_mes[col].sum()
    
    lineplot.text(i,value+2, int(value), color='black', ha="center")
    i += 1


# Se establece el tamaño de la gráfica y el color del fondo
sns.set(rc = {'figure.figsize':(15,10)})
sns.set_style("dark")

# Se reordena el dataframe para visualizar mejor el resultado
df_total_ordenado = df_total.sort_values('mujer', ascending=False)
# Se grafica la figura
barplot = sns.barplot(
    data=df_total_ordenado, x='mujer', y='estado',
    estimator=sum, ci=None, orient='h',
    color=(172/255,0,255/255,0.87)
)
barplot.set_title("Casos de feminicidio en México por estado (2020)", fontsize = 18)
barplot.set_xlabel("")
barplot.set_ylabel("")
barplot.axes.xaxis.set_ticklabels([])

# Se añade el valor de cada barra
for i in range(len(df_total_ordenado)):
    value = df_total_ordenado.iloc[i,1]
    barplot.text(value+10,i+.25, int(value), color='black', ha="center")


x = df_total.mujer.sum()
print(f"Número de mujeres asesinadas en el 2020: {x}")

Número de mujeres asesinadas en el 2020: 3957


# Variable aleatoria: X = Número de mujeres asesinadas en México

x = 3957 # Número real de mujeres asesinadas en México en el 2020
n = 64540634 # Número total de mujeres en México
p_0 = 3650/n # Prob. de que una mujer sea asesinada en México

p_hat = x/n # Estimador 
alpha = .05 # Nivel de significancia

Z_c = ( p_hat-p_0 )/( (p_0*(1-p_0))/n )**(1/2) # Estadístico de prueba
Z_1_sub_alpha = norm.ppf(1-alpha,loc=0,scale=1) # Se calcula Z_{1-alpha}


print(f"Núm. real de mujeres asesinadas en México (x): {x}")
print(f"Núm. total de mujeres en México (n): {n}")
print(f"Prob. de que una mujer sea asesinada en México (p_0): {p_0}")
print(f"Estimador (p_hat): {p_hat}")
print(f"Nivel de significancia (alpha): {alpha}")
print("\n")

print(f"Estadístico de prueba (Z_c): {Z_c}")
print(f"Z_{{1-alpha}} = {Z_1_sub_alpha}")
print("\n")

print("Resultado de la prueba de hipótesis")

if Z_c > Z_1_sub_alpha:
    print("Z_c > Z_{1-alpha}. Por lo tanto se rechaza H_0")
else:
    print("Z_c <= Z_{1-alpha}. Por lo tanto no se puede rechazar H_0")

Núm. real de mujeres asesinadas en México (x): 3957
Núm. total de mujeres en México (n): 64540634
Prob. de que una mujer sea asesinada en México (p_0): 5.6553519446369245e-05
Estimador (p_hat): 6.131021272583099e-05
Nivel de significancia (alpha): 0.05


Estadístico de prueba (Z_c): 5.081643850472337
Z_{1-alpha} = 1.6448536269514722


Resultado de la prueba de hipótesis
Z_c > Z_{1-alpha}. Por lo tanto se rechaza H_0


asesinatos_diarios = 0.1 # Número de asesinatos diarios que vamos a variar

# Límites del intervalo de asesinatos
limite_inf = None
limite_sup = None

# Se busca el límite inferior (Cuando H_0 deja de rechazarse)
while limite_inf == None:
    p_0 = 365*asesinatos_diarios/n # Prob. de que una mujer sea asesinada en México

    Z_c = ( p_hat-p_0 )/( (p_0*(1-p_0))/n )**(1/2) # Estadístico de prueba
    Z_1_sub_alpha_div_2 = norm.ppf(1-(alpha/2),loc=0,scale=1) # Se calcula Z_{1-(alpha/2)}
    
    # Si H_0 se acepta, hemos encontrado el primer valor para el cuál H_0 se acepta
    if not (Z_c > Z_1_sub_alpha_div_2 or Z_c < -Z_1_sub_alpha_div_2):
        limite_inf = asesinatos_diarios
        break
    
    asesinatos_diarios += .1

# Se busca el límite superior (Cuando H_0 vuelve a rechazarse)
while limite_sup == None:
    p_0 = 365*asesinatos_diarios/n # Prob. de que una mujer sea asesinada en México

    Z_c = ( p_hat-p_0 )/( (p_0*(1-p_0))/n )**(1/2) # Estadístico de prueba
    Z_1_sub_alpha_div_2 = norm.ppf(1-(alpha/2),loc=0,scale=1) # Se calcula Z_{1-(alpha/2)}
    
    # Si H_0 se rechaza, hemos encontrado el primer valor para el cual H_0 comienza a ser
    # "falsa" de nuevo
    if Z_c > Z_1_sub_alpha_div_2 or Z_c < -Z_1_sub_alpha_div_2:
        if limite_sup == None:
            limite_sup = asesinatos_diarios
            break
    
    asesinatos_diarios += .1

print(f"Intervalo más probable de mujeres asesinadas en México: [{limite_inf}, {limite_sup}]")

Intervalo más probable de mujeres asesinadas en México: [10.599999999999978, 11.199999999999976]

	estado	mujer
0	Aguascalientes	7
1	Baja California	293
2	Baja California Sur	5
3	Campeche	7
4	Coahuila de Zaragoza	32
5	Colima	94
6	Chiapas	74
7	Chihuahua	357
8	Ciudad de México	143
9	Durango	17
10	Guanajuato	613
11	Guerrero	150
12	Hidalgo	42
13	Jalisco	236
14	México	430
15	Michoacán de Ocampo	244
16	Morelos	81
17	Nayarit	22
18	Nuevo León	93
19	Oaxaca	108
20	Puebla	117
21	Querétaro	25
22	Quintana Roo	68
23	San Luis Potosí	59
24	Sinaloa	39
25	Sonora	93
26	Tabasco	55
27	Tamaulipas	72
28	Tlaxcala	27
29	Veracruz de Ignacio de la Llave	134
30	Yucatán	12
31	Zacatecas	114
32	No especificado	94

Feminicidio en México, ¿10 casos al día?

Pedro Andrés Hernández Amador

3 de diciembre del 2021

Obtención de los datos¶

Lectura de los datos¶

Análisis exploratorio¶

Prueba de hipótesis¶

En busca de la verdad¶

Conclusiones¶