Repaso Software R Studio

Estadística IV


Universidad Alberto Hurtado

Profesores: Kevin Carrasco y Daniela Olivares
Ayudante: María Fernanda Núñez

Primera distinción: R y RStudio



  • R es un lenguaje de programación que permite la manipulación, almacenaje, cálculo y visualización de datos.



  • RStudio es el ambiente que nos permite visulizar de forma más amigable R. Contiene 4 espacios

4 cuadrantes de RStudio:

  • Editor de sintaxis : entorno donde se despliega la hoja de códigos (generalmente un R Script) que se utlizará para procesar la base de datos

  • Consola: visualizador de resultados de los códigos desplegados en la sintaxis

4 cuadrantes de RStudio:

  • Entorno de trabajo: espacio donde se alojan la base de datos, los objetos, las tablas, etc. que vamos creando en nuestra sesión de trabajo

  • Espacio de archivos/carpetas, gráficos, paquetes y ayuda

Flujo de trabajo: IPO

Crear un proyecto

  1. Abrir RStudio

  2. Hacer click en el siguiente simbólo que aparece en el esquina superior derecha:

  3. Seleccionar “New Project”

  4. Seleccionar “New directory”

  5. Definir un nombre al proyecto

  6. Definir ubicación del proyecto con la opción “Browse”

Crear un script (o documento de R)

Un R Script es una hoja de código donde se escriben las instrucciones y los códigos para el tratamiento de datos. Para crear un R Script hay dos formas:

  1. En la esquina superior izquierda hay un icono de una hoja con un signo “+” verde, hay que clikearlo y seleccionar R Script.

  1. con las teclas Ctrl+Shift+N

Para guardarlo, hay que (a) hacer click en el signo de documento en la parte superior del Script, o (b) con las teclas Crtl + S

Lenguaje de R:
nociones básicas de código

R como calculadora

Para sumar:

1+2
[1] 3

R como calculadora

Para sumar:

1+2
[1] 3

Para restar:

3-1
[1] 2

R como calculadora

Para sumar:

1+2
[1] 3

Para restar:

3-1
[1] 2

Para multiplicar:

3*5
[1] 15

R como calculadora

Para sumar:

1+2
[1] 3

Para restar:

3-1
[1] 2

Para multiplicar:

3*5
[1] 15

Para dividir:

4/2
[1] 2

R como calculadora

Para sumar:

1+2
[1] 3

Para restar:

3-1
[1] 2

Para multiplicar:

3*5
[1] 15

Para dividir:

4/2
[1] 2

Para elevar al cuadrado:

2^2
[1] 4

Objetos/vectores/variables

  • Se trata de: asignar un valor a un objeto o asignar a un objeto un valor, donde < - es nuestro “asignador” que nos sirve para crear objetos
  • Se pueden asignar números o nombres
x <- 2 #asignamos el valor
x #ejecutamos
[1] 2
y <- "hola"

y
[1] "hola"

Variable (conjunto de datos)

  • Podemos crear un vector, conjunto de datos o una variable con el siguiente comando:
genero <- c(1,1,2,1,2,2,2,1,2)
  • Donde: masculino=1; femenino =2

Tipos de datos

  • Character: valores alfanuméricos, es decir, letras, números y signos mezclados.
a <- "totalmente de acuerdo"
a
[1] "totalmente de acuerdo"
class(a) #para observar la clase (o tipo de vector) del objeto 
[1] "character"

Tipos de datos

  • Numeric: valores numéricos, incluye decimales.
b <- 1
b
[1] 1
class(b)
[1] "numeric"

Tipos de datos

  • logical: valores lógicos, TRUE (T) o FALSE (F).
i <- FALSE 
i
[1] FALSE
class(i)
[1] "logical"

Data Frame (o base de datos)

  • Un data frame es una base de datos que contiene dos dimensiones (columnas y filas) donde podemos agrupar variables

Siguiendo con el caso anterior:

genero <- c(1,1,2,1,2,2,2,1,2)

ingreso <- c(100000,300000,500000,340000,300000,500000,650000,410000,750000)

acuerdo <- c(1,1,3,2,4,1,5,3,2)

OJO: todas las variables deben tener la misma cantidad de casos

Data Frame (o base de datos)

Creamos el data frame:

datos_ficticios <- data.frame(genero, ingreso, acuerdo)

Verificamos:

names(datos_ficticios)# nos muestra los nombres de nuestras variables
[1] "genero"  "ingreso" "acuerdo"
dim(datos_ficticios) #nos muestra la cantidad de casos (9) y de variables (3)
[1] 9 3

Códigos básicos para el uso de R en la carrera

Librerias

  • Las librerias corresponden al conjunto de paquetes que utlizaremos para trabajar en nuestra sesión de R
  • Estas deben ser siempre cargadas antes de comenzar a trabajar en nuestra hoja de códigos. En cada sesión de trabajo
  • Sin embargo, esta deben ser instaladas solo una vez

Para instalar librerías se utiliza el siguiente código:

install.packages(“paquete_a_utilizar”)

Para cargar librerias se utiliza el siguiente código:

library (paquete_A_utilizar)

Paquetes

  • Los paquetes corresponden al conjunto de funciones específicas que usaremos en nuestra sesión de R.
  • Los principales son dos:

pacman: este facilita y agiliza la lectura de los paquetes a utilizar en R

tidyverse: es nuestro entorno de trabajo o colección de paquetes que utlizaremos para el procesamiento de nuestros datos, de los cuales destacan los paquetes dplyr y haven

Paquetes: tidyverse

  • dplyr: nos permite seleccionar variables de un set de datos

Paquetes: tidyverse

  • dplyr: nos permite seleccionar variables de un set de datos
  • haven: cargar y exportar bases de datos en formatos .sav y .dta

Paquetes: tidyverse

  • dplyr: nos permite seleccionar variables de un set de datos
  • haven: cargar y exportar bases de datos en formatos .sav y .dta
  • car: para recodificar/agrupar valores de variables

Paquetes: tidyverse

  • dplyr: nos permite seleccionar variables de un set de datos
  • haven: cargar y exportar bases de datos en formatos .sav y .dta
  • car: para recodificar/agrupar valores de variables

Importar base de datos

A continuación se presentan funciones para importar diferentes formatos de base de datos:

base_sav <- read_sav(“input/data/nombre_de_la_base.sav”)

base.dta <- haven::read_dta(file = “input/data/nombre_de_la_base.dta”, encoding = “UTF-8”)

base.csv <- readr::read_csv(file =“input/data/nombre_de_la_base.csv”)

Importar base de datos

base.xlxx <- readxl::read_excel(“input/data/nombre_de_la_base.xlsx”)

base.RData <- base::load(file = “input/data/nombre_de_la_base.RData”)

Seleccionar

  • Para seleccionar:
dim(datos_ficticios)
[1] 9 3
names(datos_ficticios)
[1] "genero"  "ingreso" "acuerdo"

dplyr::select(datos_ficticios, genero, ingreso)

  genero ingreso
1      1  100000
2      1  300000
3      2  500000
4      1  340000
5      2  300000
6      2  500000
7      2  650000
8      1  410000
9      2  750000

Filtrar

  • Para filtrar:
dplyr::filter(datos_ficticios, genero == 1)
  genero ingreso acuerdo
1      1  100000       1
2      1  300000       1
3      1  340000       2
4      1  410000       3

Recodificar

  • Ejemplo: para recodificar el grado de acuerdo de 1 a 5 a 3 valores.
table(datos_ficticios$acuerdo)

1 2 3 4 5 
3 2 2 1 1 
library(car)
Warning: package 'car' was built under R version 4.3.3
Loading required package: carData
Warning: package 'carData' was built under R version 4.3.3
datos_ficticios$acuerdo <- car::recode(datos_ficticios$acuerdo, c("1=1", "2=1","3=2", "4=3,5=3"))

Transformar variables: creación o derivación

  • mutate() de dplyr
  • Case_when(): cuando el valor sea X, asignar un nombre Y.
  • if_else: para crear una variable a partir de una condición.

Guardar procesamiento de los datos

  • Solo utilizamos la siguiente línea de código:
#saveRDS(datos_ficticios, file = "input/data/proc/datos_proc.Rdata")

Ahora con datos reales