Data Visualization of Student Demographics and Academic Performance

Jul 5, 2025, 3:37 AM

BASE-DE-DATOS-EJEMPLO (IA).xlsx

Missing file

Realiza una exploración de los datos

Let's explore the dataset to understand its structure and contents. Here's a brief overview of the dataset:
  • SEXO: Gender of the individual (e.g., MASCULINO, FEMENINO)
  • EDAD: Age of the individual
  • PESO: Weight of the individual
  • TALLA: Height of the individual
  • ING FAM: Family income
  • MIE-FAM: Number of family members
  • G.ESTUDIOS: Level of education
  • CR.APROB: Approved credits
  • PROM ACUM: Cumulative average
  • T.VI.VIVIEND: Type of housing (e.g., ALQUILADA, PROPIA)
  • NºDORMIT: Number of bedrooms
  • HRS.TV: Hours spent watching TV
  • HRS.ESTUD: Hours spent studying
  • LIB.LEIDOS: Number of books read
  • HOBBY: Hobby of the individual (e.g., DANZA, LECTURA)
  • IMP.ESTUDIO: Importance of study
  • IMP.FISICO: Importance of physical activity
  • COL PROC: Type of school (e.g., PRIVADO, FISCAL)
  • ESPECIAL: Special condition (e.g., SI, NO)
Let's proceed to visualize some key insights from this dataset.

II) Realiza un análisis univariado y obtiene las frecuencias de las variables necesarias (se precisa que los resultados se presenten en un gráfico de sectores, barras histogramas y con sus porcentajes respectivos, según corresponda cada medida de variable), además se debe obtener la media, moda y mediana para las variables que así lo precisen.

Summary of Central Tendencies

Here are the calculated central tendencies for the numerical variables:
  • Mean:
    • EDAD: 19.87
    • PESO: 59.87
    • TALLA: 164.6
    • ING FAM: 1510.83
    • MIE-FAM: 4.92
    • G.ESTUDIOS: 174.92
    • CR.APROB: 37.88
    • PROM ACUM: 12.35
    • NºDORMIT: 3.88
    • HRS.TV: 10.85
    • HRS.ESTUD: 15.32
    • LIB.LEIDOS: 4.03
  • Median:
    • EDAD: 20.0
    • PESO: 57.0
    • TALLA: 165.0
    • ING FAM: 1000.0
    • MIE-FAM: 5.0
    • G.ESTUDIOS: 155.0
    • CR.APROB: 38.0
    • PROM ACUM: 12.0
    • NºDORMIT: 3.0
    • HRS.TV: 10.0
    • HRS.ESTUD: 14.0
    • LIB.LEIDOS: 3.0
  • Mode:
    • SEXO: MASCULINO
    • EDAD: 19.0
    • PESO: 55.0
    • TALLA: 152.0
    • ING FAM: 800.0
    • MIE-FAM: 5.0
    • G.ESTUDIOS: 150.0
    • CR.APROB: 34.0
    • PROM ACUM: 12.0
    • T.VI.VIVIEND: PROPIA
    • NºDORMIT: 3.0
    • HRS.TV: 10.0
    • HRS.ESTUD: 10.0
    • LIB.LEIDOS: 3.0
    • HOBBY: DANZA
    • IMP.ESTUDIO: MUY IMPORTANTE
    • IMP.FISICO: INDIFERENTE
    • COL PROC: FISCAL
    • ESPECIAL: NO
Next, let's visualize the frequency distributions for categorical variables using pie charts and bar charts.
It seems there was an error in creating the bar charts for the categorical variables. The issue arises from the incorrect assignment of the y-axis in the Plotly bar chart function. The value_counts().reset_index() method creates a DataFrame with columns named 'index' and 'count', but the code attempts to use 'index' as the y-axis, which is incorrect.
To fix this, we should use the correct column names for the y-axis in the bar chart. Let's correct this and try again.
It seems there was an error in creating the bar charts for the categorical variables. The issue arises from the incorrect assignment of the x-axis in the Plotly bar chart function. The value_counts().reset_index() method creates a DataFrame with columns named 'index' and 'count', but the code attempts to use 'index' as the x-axis, which is incorrect.
To fix this, we should use the correct column names for the x-axis in the bar chart. Let's correct this and try again.

realiza las correcciones necesarias para crear los gráficos de barras para las variables categóricas.

The error in the previous attempts to create bar charts for categorical variables arises from incorrect column names being used in the Plotly px.bar function. The value_counts().reset_index() method creates a DataFrame with columns named 'index' and 'count', but the code attempts to use 'index' as the x-axis, which is incorrect. The correct column names should be used for the x and y axes.
To fix this, ensure that the column names used in the px.bar function match those in the DataFrame created by value_counts().reset_index(). Specifically, use 'index' for the x-axis and 'count' for the y-axis.
The error encountered is due to the absence of the kaleido package, which is required for exporting images using Plotly's show() function. This package is necessary for rendering the plots in environments that do not support interactive Plotly plots natively.
To resolve this issue, you can install the kaleido package using the following command:
Once kaleido is installed, you should be able to render and view the plots without any issues. Let's proceed with installing kaleido and then attempt to display the plots again.

Genera un gráfico de torta para las variables SEXO T.VI.VIVIEND COL PROC ESPECIAL

Genera un gráfico de barras histogramas y sus porcentajes respectivos para las variables IMP.ESTUDIO IMP.FISICO

genera las distribuciones de frecuencia de las variables categóricas utilizando gráficos circulares y gráficos de barras.

Para generar las distribuciones de frecuencia de las variables categóricas utilizando gráficos circulares y gráficos de barras, ya hemos creado gráficos para algunas de las variables solicitadas. A continuación, procederé a crear gráficos para las variables restantes.

Variables categóricas a considerar:

  • SEXO
  • T.VI.VIVIEND
  • COL PROC
  • ESPECIAL
  • IMP.ESTUDIO
  • IMP.FISICO
Voy a generar gráficos de barras y gráficos circulares para cada una de estas variables.

realiza una tabla de contingencia en porcentaje con las variables SEXO y T.VI.VIVIEND genera el test estadístico de independencia Chi- cuadrado y por último interpreta los resultados

La tabla de contingencia en porcentaje muestra la distribución de los tipos de vivienda por sexo:
SEXOALQUILADAANTICRETICOFAMILIARPROPIA
FEMENINO11.11%0.00%0.00%88.89%
MASCULINO18.18%12.12%6.06%63.64%

Chi-cuadrado de Independencia

  • Valor Chi-cuadrado: 6.67
  • p-valor: 0.083
  • Grados de libertad: 3

Interpretación

El valor del p-valor es 0.083, que es mayor que el nivel de significancia comúnmente utilizado de 0.05. Esto indica que no hay suficiente evidencia para rechazar la hipótesis nula de independencia entre las variables SEXO y T.VI.VIVIEND. En otras palabras, no hay evidencia estadísticamente significativa de que el tipo de vivienda dependa del sexo en esta muestra.
¿Te gustaría realizar algún otro análisis o tienes alguna otra pregunta sobre los datos?

realiza una tabla de contingencia en porcentaje con las variables IMP_1 y IMP_2 genera el test estadístico de independencia Chi- cuadrado y por último interpreta los resultados

Parece que las variables IMP_1 y IMP_2 no existen en el conjunto de datos cargado.
Podrías estar refiriéndote a las variables IMP.ESTUDIO y IMP.FISICO. Si es así, procederé a realizar el análisis con estas variables. Si no, por favor verifica los nombres de las columnas en el conjunto de datos.
Voy a crear una tabla de contingencia en porcentaje para IMP.ESTUDIO y IMP.FISICO, realizar el test de independencia Chi-cuadrado, e interpretar los resultados.
La tabla de contingencia en porcentaje muestra la distribución de la importancia del estudio frente a la importancia del físico:
IMP.ESTUDIOIMPORTANTEINDIFERENTEMUY IMPORTANTENADA IMPORTANTEPOCO IMPORTANTE
IMPORTANTE30.77%46.15%11.54%0.00%11.54%
INDIFERENTE50.00%50.00%0.00%0.00%0.00%
MUY IMPORTANTE27.59%48.28%10.34%3.45%10.34%
POCO IMPORTANTE100.00%0.00%0.00%0.00%0.00%

Chi-cuadrado de Independencia

  • Valor Chi-cuadrado: 4.75
  • p-valor: 0.966
  • Grados de libertad: 12

Interpretación

El valor del p-valor es 0.966, que es significativamente mayor que el nivel de significancia comúnmente utilizado de 0.05. Esto indica que no hay suficiente evidencia para rechazar la hipótesis nula de independencia entre las variables IMP.ESTUDIO y IMP.FISICO. En otras palabras, no hay evidencia estadísticamente significativa de que la importancia del estudio dependa de la importancia del físico en esta muestra.
¿Te gustaría realizar algún otro análisis o tienes alguna otra pregunta sobre los datos?

realiza una tabla de contingencia en porcentaje con las variables COL PROC Y ESPECIAL genera el test estadístico de independencia Chi- cuadrado y por último interpreta los resultados

Vamos a crear una tabla de contingencia en porcentaje para las variables COL PROC y ESPECIAL, realizar el test de independencia Chi-cuadrado, e interpretar los resultados.
La tabla de contingencia en porcentaje muestra la distribución de los tipos de colegio frente a la especialidad:
COL PROCNO (%)SI (%)
FISCAL77.2722.73
PRIVADO75.0025.00

Chi-cuadrado de Independencia

  • Valor Chi-cuadrado: 0.0
  • p-valor: 1.0
  • Grados de libertad: 1

Interpretación

El valor del p-valor es 1.0, que es significativamente mayor que el nivel de significancia comúnmente utilizado de 0.05. Esto indica que no hay suficiente evidencia para rechazar la hipótesis nula de independencia entre las variables COL PROC y ESPECIAL. En otras palabras, no hay evidencia estadísticamente significativa de que el tipo de colegio dependa de si es especial o no en esta muestra.
¿Te gustaría realizar algún otro análisis o tienes alguna otra pregunta sobre los datos?

realiza una tabla de contingencia en porcentaje con las variables SEXO Y HOBBY genera el test estadístico de independencia Chi- cuadrado y por último interpreta los resultados

Vamos a crear una tabla de contingencia en porcentaje para las variables SEXO y HOBBY, realizar el test de independencia Chi-cuadrado, e interpretar los resultados.
La tabla de contingencia en porcentaje muestra la distribución de los hobbies frente al sexo:
SEXOCINE (%)DANZA (%)DEPORTE (%)LECTURA (%)MUSICA (%)
FEMENINO7.4148.153.7029.6311.11
MASCULINO0.0042.4242.4212.123.03

Chi-cuadrado de Independencia

  • Valor Chi-cuadrado: 15.19
  • p-valor: 0.0043
  • Grados de libertad: 4

Interpretación

El valor del p-valor es 0.0043, que es menor que el nivel de significancia comúnmente utilizado de 0.05. Esto indica que hay suficiente evidencia para rechazar la hipótesis nula de independencia entre las variables SEXO y HOBBY. En otras palabras, hay evidencia estadísticamente significativa de que el hobby depende del sexo en esta muestra.
¿Te gustaría realizar algún otro análisis o tienes alguna otra pregunta sobre los datos?

realiza una tabla de contingencia en porcentaje con las variables T.VI.VIVIEND. y HOBBY genera el test estadístico de independencia Chi- cuadrado y por último interpreta los resultados

Vamos a crear una tabla de contingencia en porcentaje para las variables T.VI.VIVIEND y HOBBY, realizar el test de independencia Chi-cuadrado, e interpretar los resultados.

realiza una tabla de contingencia en porcentaje con las variables T.VI.VIVIEND. y HOBBY genera el test estadístico de independencia Chi- cuadrado y por último interpreta los resultados

realiza un análisis de correspondencia simple y genera el mapa de visualización entre las variables T.VI.VIVIEND y HOBBY e interpreta los resultados

realiza un análisis de correspondencia simple y genera el mapa de visualización entre las variables T.VI.VIVIEND y HOBBY e interpreta los resultados

Get started with Vizly