Analizando datos del CONACYT: De los investigadores
En lo siguiente se extraen algunos datos correspondientes a los investigadores que pertenecen al SNI.
In [16]:
import warnings
warnings.filterwarnings("ignore", 'This pattern has match groups')
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
plt.style.use("ggplot")
mpl.rcParams['xtick.labelsize'] = 6
mpl.rcParams['ytick.labelsize'] = 6
%matplotlib inline
# Datos tomados de: http://datosabiertos.conacyt.gob.mx/publico/default.aspx
filename = "data/inv_sni.csv"
data = pd.read_csv(filename, encoding="latin1") # leyendo datos
data.drop(data.columns[range(8,17)],axis=1,inplace=True) # Limpiando datos
Generalidades¶
El número de total de investigadores
In [17]:
NUM_INV = len(data)
Investigadores eméritos
In [18]:
emeritos = data['EMERITO'].value_counts().E
emeritos
Out[18]:
Por niveles¶
In [19]:
niveles = data['NIVEL'].value_counts().to_frame()
niveles
Out[19]:
Por género¶
In [20]:
genero = data["GENERO"].value_counts().to_frame("INVESTIGADORES")
genero["PORCENTAJE"] = 100*genero["INVESTIGADORES"]/(NUM_INV)
genero
Out[20]:
Por estados¶
In [21]:
estados = data['ESTADO'].value_counts()
x = range(len(estados))
plt.bar(x, estados.get_values(), 0.5, align="center")
plt.xticks(x, estados.keys(), rotation="vertical")
plt.xlim(min(x)-0.5, max(x)+0.5);
In [22]:
ninv = sum(estados.values) # No. total de investigadores
prc_df = estados.to_frame("INVESTIGADORES")
prc_df["Porcentaje"] = 100*prc_df['INVESTIGADORES']/ninv
prc_df
Out[22]:
Por instituciones¶
Las 20 instituciones con mayor número de investigadores
In [34]:
inst = data['INSTITUCION'].value_counts()
n = 20
x = range(len(inst))[:n]
plt.bar(x, inst.get_values()[:n], 0.5, align="center")
plt.xticks(x, inst.keys()[:n], rotation=90)
plt.xlim(min(x)-0.5, max(x)+0.5);
Sobre las instituciones del Tecnológico Nacional de México (TECNM)¶
Lo subsiguiente presenta el porcentaje de representación de las instituciones correspondientes al Tecnológico Nacional de México: es decir, todos los institutos tecnológicos centralizados y descentralizados, más el CENIDET y CIIDET.
In [24]:
TECNOLOGICOS = sum(inst[inst.index.str.contains("INSTITUTO TECNOLOGICO (SUP|DE)")])
CENIDET = sum(inst[inst.index.str.contains("CENTRO NACIONAL DE INV*")])
CIIDET = sum(inst[inst.index.str.contains("INTERDISCIPLINARIO [\w*\s*\.]* EDUCACION")])
porcentaje_tecnm = 100*(TECNOLOGICOS + CENIDET + CIIDET)/NUM_INV
porcentaje_tecnm
Out[24]:
Los 20 tecnológicos con mayor cantidad de investigadores son:
In [29]:
(inst[inst.index.str.contains("INSTITUTO TECNOLOGICO (SUP|DE)")][:20]).to_frame("No. de Investigadores")
Out[29]:
In [ ]:
Comentarios
Comments powered by Disqus