Repaso Software R Studio

Estadística IV

Universidad Alberto Hurtado

Profesores: Kevin Carrasco y Daniela Olivares
Ayudante: María Fernanda Núñez

Primera distinción: R y RStudio

R es un lenguaje de programación que permite la manipulación, almacenaje, cálculo y visualización de datos.

RStudio es el ambiente que nos permite visulizar de forma más amigable R. Contiene 4 espacios

4 cuadrantes de RStudio:

Editor de sintaxis : entorno donde se despliega la hoja de códigos (generalmente un R Script) que se utlizará para procesar la base de datos

Consola: visualizador de resultados de los códigos desplegados en la sintaxis

4 cuadrantes de RStudio:

Entorno de trabajo: espacio donde se alojan la base de datos, los objetos, las tablas, etc. que vamos creando en nuestra sesión de trabajo

Espacio de archivos/carpetas, gráficos, paquetes y ayuda

Flujo de trabajo: IPO

Crear un proyecto

Abrir RStudio
Hacer click en el siguiente simbólo que aparece en el esquina superior derecha:
Seleccionar “New Project”
Seleccionar “New directory”
Definir un nombre al proyecto
Definir ubicación del proyecto con la opción “Browse”

Crear un script (o documento de R)

Un R Script es una hoja de código donde se escriben las instrucciones y los códigos para el tratamiento de datos. Para crear un R Script hay dos formas:

En la esquina superior izquierda hay un icono de una hoja con un signo “+” verde, hay que clikearlo y seleccionar R Script.

con las teclas Ctrl+Shift+N

Para guardarlo, hay que (a) hacer click en el signo de documento en la parte superior del Script, o (b) con las teclas Crtl + S

Lenguaje de R:
nociones básicas de código

R como calculadora

Para sumar:

1+2

[1] 3

R como calculadora

Para sumar:

1+2

[1] 3

Para restar:

3-1

[1] 2

R como calculadora

Para sumar:

1+2

[1] 3

Para restar:

3-1

[1] 2

Para multiplicar:

3*5

[1] 15

R como calculadora

Para sumar:

1+2

[1] 3

Para restar:

3-1

[1] 2

Para multiplicar:

3*5

[1] 15

Para dividir:

4/2

[1] 2

R como calculadora

Para sumar:

1+2

[1] 3

Para restar:

3-1

[1] 2

Para multiplicar:

3*5

[1] 15

Para dividir:

4/2

[1] 2

Para elevar al cuadrado:

2^2

[1] 4

Objetos/vectores/variables

Se trata de: asignar un valor a un objeto o asignar a un objeto un valor, donde < - es nuestro “asignador” que nos sirve para crear objetos
Se pueden asignar números o nombres

x <- 2 #asignamos el valor
x #ejecutamos

[1] 2

y <- "hola"

y

[1] "hola"

Variable (conjunto de datos)

Podemos crear un vector, conjunto de datos o una variable con el siguiente comando:

genero <- c(1,1,2,1,2,2,2,1,2)

Donde: masculino=1; femenino =2

Tipos de datos

Character: valores alfanuméricos, es decir, letras, números y signos mezclados.

a <- "totalmente de acuerdo"
a

[1] "totalmente de acuerdo"

class(a) #para observar la clase (o tipo de vector) del objeto

[1] "character"

Tipos de datos

Numeric: valores numéricos, incluye decimales.

b <- 1
b

[1] 1

class(b)

[1] "numeric"

Tipos de datos

logical: valores lógicos, TRUE (T) o FALSE (F).

i <- FALSE 
i

[1] FALSE

class(i)

[1] "logical"

Data Frame (o base de datos)

Un data frame es una base de datos que contiene dos dimensiones (columnas y filas) donde podemos agrupar variables

Siguiendo con el caso anterior:

genero <- c(1,1,2,1,2,2,2,1,2)

ingreso <- c(100000,300000,500000,340000,300000,500000,650000,410000,750000)

acuerdo <- c(1,1,3,2,4,1,5,3,2)

OJO: todas las variables deben tener la misma cantidad de casos

Data Frame (o base de datos)

Creamos el data frame:

datos_ficticios <- data.frame(genero, ingreso, acuerdo)

Verificamos:

names(datos_ficticios)# nos muestra los nombres de nuestras variables

[1] "genero"  "ingreso" "acuerdo"

dim(datos_ficticios) #nos muestra la cantidad de casos (9) y de variables (3)

[1] 9 3

Códigos básicos para el uso de R en la carrera

Librerias

Las librerias corresponden al conjunto de paquetes que utlizaremos para trabajar en nuestra sesión de R
Estas deben ser siempre cargadas antes de comenzar a trabajar en nuestra hoja de códigos. En cada sesión de trabajo
Sin embargo, esta deben ser instaladas solo una vez

Para instalar librerías se utiliza el siguiente código:

install.packages(“paquete_a_utilizar”)

Para cargar librerias se utiliza el siguiente código:

library (paquete_A_utilizar)

Paquetes

Los paquetes corresponden al conjunto de funciones específicas que usaremos en nuestra sesión de R.
Los principales son dos:

pacman: este facilita y agiliza la lectura de los paquetes a utilizar en R

tidyverse: es nuestro entorno de trabajo o colección de paquetes que utlizaremos para el procesamiento de nuestros datos, de los cuales destacan los paquetes dplyr y haven

Paquetes: tidyverse

dplyr: nos permite seleccionar variables de un set de datos

Paquetes: tidyverse

dplyr: nos permite seleccionar variables de un set de datos
haven: cargar y exportar bases de datos en formatos .sav y .dta

Paquetes: tidyverse

dplyr: nos permite seleccionar variables de un set de datos
haven: cargar y exportar bases de datos en formatos .sav y .dta
car: para recodificar/agrupar valores de variables

Paquetes: tidyverse

dplyr: nos permite seleccionar variables de un set de datos
haven: cargar y exportar bases de datos en formatos .sav y .dta
car: para recodificar/agrupar valores de variables

Importar base de datos

A continuación se presentan funciones para importar diferentes formatos de base de datos:

base_sav <- read_sav(“input/data/nombre_de_la_base.sav”)

base.dta <- haven::read_dta(file = “input/data/nombre_de_la_base.dta”, encoding = “UTF-8”)

base.csv <- readr::read_csv(file =“input/data/nombre_de_la_base.csv”)

Importar base de datos

base.xlxx <- readxl::read_excel(“input/data/nombre_de_la_base.xlsx”)

base.RData <- base::load(file = “input/data/nombre_de_la_base.RData”)

Seleccionar

Para seleccionar:

dim(datos_ficticios)

[1] 9 3

names(datos_ficticios)

[1] "genero"  "ingreso" "acuerdo"

dplyr::select(datos_ficticios, genero, ingreso)

  genero ingreso
1      1  100000
2      1  300000
3      2  500000
4      1  340000
5      2  300000
6      2  500000
7      2  650000
8      1  410000
9      2  750000

Filtrar

Para filtrar:

dplyr::filter(datos_ficticios, genero == 1)

  genero ingreso acuerdo
1      1  100000       1
2      1  300000       1
3      1  340000       2
4      1  410000       3

Recodificar

Ejemplo: para recodificar el grado de acuerdo de 1 a 5 a 3 valores.

table(datos_ficticios$acuerdo)


1 2 3 4 5 
3 2 2 1 1

library(car)

Warning: package 'car' was built under R version 4.3.3

Loading required package: carData

Warning: package 'carData' was built under R version 4.3.3

datos_ficticios$acuerdo <- car::recode(datos_ficticios$acuerdo, c("1=1", "2=1","3=2", "4=3,5=3"))

Transformar variables: creación o derivación

mutate() de dplyr
Case_when(): cuando el valor sea X, asignar un nombre Y.
if_else: para crear una variable a partir de una condición.

Guardar procesamiento de los datos

Solo utilizamos la siguiente línea de código:

#saveRDS(datos_ficticios, file = "input/data/proc/datos_proc.Rdata")

Estadística IV

Primera distinción: R y RStudio

4 cuadrantes de RStudio:

4 cuadrantes de RStudio:

Flujo de trabajo: IPO

Crear un proyecto

Crear un script (o documento de R)

Lenguaje de R: nociones básicas de código

R como calculadora

R como calculadora

R como calculadora

R como calculadora

R como calculadora

Objetos/vectores/variables

Variable (conjunto de datos)

Tipos de datos

Tipos de datos

Tipos de datos

Data Frame (o base de datos)

Data Frame (o base de datos)

Códigos básicos para el uso de R en la carrera

Librerias

Paquetes

Paquetes: tidyverse

Paquetes: tidyverse

Paquetes: tidyverse

Paquetes: tidyverse

Importar base de datos

Importar base de datos

Seleccionar

Filtrar

Recodificar

Transformar variables: creación o derivación

Guardar procesamiento de los datos

Ahora con datos reales

Lenguaje de R:
nociones básicas de código