SlideShare a Scribd company logo
1 of 106
Download to read offline
Introducci´n a R
          o
      Notas sobre R: Un entorno de programaci´n para An´lisis de Datos y Gr´ficos
                                             o         a                   a
                                                      Versi´n 1.0.1 (2000-05-16)
                                                            o




R Development Core Team
Copyright c 1990, 1992 W. Venables
Copyright c 1997, R. Gentleman & R. Ihaka
Copyright c 1997, 1998 M. M¨chlera
Copyright   c 2000, Andr´s Gonz´lez y Silvia Gonz´lez
                           e       a                   a
Copyright c 1999, 2000 R Development Core Team
Se autoriza la realizaci´n y distribuci´n de copias literales de este manual, siempre y cuando
                        o              o
las advertencias del copyright y de este permiso se conserven en todas las copias.
Se autoriza la realizaci^^f3n y distribuci´n de copias modificadas de este manual, en las mis-
                                          o
mas condiciones de las copias literales, siempre y cuando la totalidad del trabajo resultante
se distribuya bajo los t´rminos de una advertencia de permiso id^^e9ntica a esta.
                         e
Se autoriza la realizaci^^f3n y distribuci´n de traducciones de este manual a otros idiomas,
                                          o
en las mismas condiciones de las copias modificadas, siempre y cuando la traducci´n de la
                                                                                       o
advertencia de este permiso sea aprobada por el Equipo Central de Desarrollo de R.
i



´
Indice General

Pr´logo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
  o

1    Introducci´n y Preliminares . . . . . . . . . . . . . . . . 2
               o
        1.1  El entorno R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .          2
        1.2  Programas relacionados. Documentaci´n . . . . . . . . . . . . . . . . . .
                                                                                o                                          2
        1.3  Estad´ıstica con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .              2
        1.4  R en un sistema de ventanas . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                         3
        1.5  Utilizaci´n interactiva de R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
                        o                                                                                                  3
        1.6  Una sesi´n inicial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
                        o                                                                                                  4
        1.7  Ayuda sobre funciones y capacidades . . . . . . . . . . . . . . . . . . . . .                                 4
        1.8  ´
             Ordenes de R. May´sculas y min´sculas. . . . . . . . . . . . . . . . . . .
                                            u                         u                                                    5
        1.9  Recuperaci´n y correcci´n de ´rdenes previas . . . . . . . . . . . . . .
                             o                       o          o                                                          5
        1.10  Ejecuci´n de ´rdenes desde un archivo y redirecci´n de la
                        o           o                                                                 o
            salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   5
        1.11 Almacenamiento y eliminaci´n de objetos . . . . . . . . . . . . . . . .
                                                               o                                                           6

2    C´lculos sencillos. N´ meros y vectores . . . . . . 7
      a                   u
        2.1 Vectores (num´ricos). Asignaci´n . . . . . . . . . . . . . . . . . . . . . . . . . 7
                                       e                             o
        2.2 Aritm´tica vectorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
                       e
        2.3 Generaci´n de sucesiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
                            o
        2.4 Vectores l´gicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
                              o
        2.5 Valores faltantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
        2.6 Vectores de caracteres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
        2.7 Vectores de ´          ındices. Selecci´n y modificaci´n de subvectores
                                                              o                           o
            . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
        2.8 Clases de objetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3    Objetos: Modos y atributos . . . . . . . . . . . . . . . 14
        3.1     Atributos intr´
                              ınsecos: modo y longitud . . . . . . . . . . . . . . . . . . .                            14
        3.2     Modificaci´n de la longitud de un objeto . . . . . . . . . . . . . . . . .
                          o                                                                                             15
        3.3     Obtenci´n y modificaci´n de atributos . . . . . . . . . . . . . . . . . . .
                        o                   o                                                                           15
        3.4     Clases de objetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .         15

4    Factores Nominales y Ordinales. . . . . . . . . . . . 17
        4.1 Un ejemplo espec´               ıfico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
        4.2 La funci´n tapply(). Variables desastradas (ragged arrays)
                           o
            . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
        4.3 Factores ordinales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
ii

5   Variables indexadas. Matrices . . . . . . . . . . . . . 20
      5.1     Variables indexadas (Arrays) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
      5.2     Elementos de una variable indexada . . . . . . . . . . . . . . . . . . . . . 20
      5.3     Uso de variables indexadas como ´                             ındices . . . . . . . . . . . . . . . . . 21
      5.4     La funci´n array() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
                             o
                  5.4.1 Operaciones con variables indexadas y vectores.
                           Reciclado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
      5.5     Producto exterior de dos variables indexadas . . . . . . . . . . . . . 23
                  Ejemplo: Distribuci´n del determinante de una matriz de
                                                       o
                           d´ıgitos de 2 × 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
      5.6     Traspuesta generalizada de una variable indexada . . . . . . . . . 24
      5.7     Operaciones con matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
                  5.7.1 Producto matricial. Inversa de una matriz.
                           Resoluci´n de sistemas lineales . . . . . . . . . . . . . . . . . . . . 24
                                          o
                  5.7.2 Autovalores y autovectores . . . . . . . . . . . . . . . . . . . . . 25
                  5.7.3 Descomposici´n en valores singulares. Determinantes
                                                        o
                            . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
                  5.7.4 Ajuste por m´                   ınimos cuadrados. Descomposici´n QR                         o
                            . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
      5.8     Submatrices. Funciones cbind() y rbind(). . . . . . . . . . . . . . 26
      5.9     La funci´n de concatenaci´n, c(), con variables indexadas
                             o                                o
              . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
      5.10      Tablas de frecuencias a partir de factores. . . . . . . . . . . . . . . . 27

6   Listas y hojas de datos . . . . . . . . . . . . . . . . . . . . 28
      6.1 Listas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .       28
      6.2 Construcci´n y modificaci´n de listas . . . . . . . . . . . . . . . . . . . .
                         o                           o                                                                   29
            6.2.1 Concatenaci´n de listas . . . . . . . . . . . . . . . . . . . . . . . .
                                             o                                                                           29
      6.3 Hojas de datos (Data frames) . . . . . . . . . . . . . . . . . . . . . . . . . . .                             29
            6.3.1 Construcci´n de hojas de datos . . . . . . . . . . . . . . . . .
                                          o                                                                              29
            6.3.2 Funciones attach() y detach() . . . . . . . . . . . . . . . .                                          30
            6.3.3 Trabajo con hojas de datos . . . . . . . . . . . . . . . . . . . . .                                   31
            6.3.4 Conexi´n de listas arbitrarias . . . . . . . . . . . . . . . . . . .
                                   o                                                                                     31
            6.3.5 Gesti´n de la trayectoria de b´squeda . . . . . . . . . . .
                                o                                            u                                           31

7   Lectura de datos de un archivo . . . . . . . . . . . . 33
      7.1 La funci´n read.table() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
                  o                                                                                                      33
      7.2 La funci´n scan() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
                  o                                                                                                      34
      7.3 Acceso a datos internos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                      35
            7.3.1 Acceso a datos de una biblioteca . . . . . . . . . . . . . . . .                                       35
      7.4 Edici´n de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
               o                                                                                                         36
      7.5 C´mo importar datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
           o                                                                                                             36

8   Distribuciones probabil´
                           ısticas . . . . . . . . . . . . . . 37
      8.1     Tablas estad´
                          ısticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
      8.2     Estudio de la distribuci´n de unos datos . . . . . . . . . . . . . . . . . 38
                                         o
      8.3     Contrastes de una y de dos muestras . . . . . . . . . . . . . . . . . . . . . 41
iii

9    Ciclos. Ejecuci´n condicional . . . . . . . . . . . . . . 44
                    o
       9.1 Expresiones agrupadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                    44
           ´
       9.2 Ordenes de control . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                 44
             9.2.1 Ejecuci´n condicional: la orden if . . . . . . . . . . . . . .
                           o                                                                                            44
                            ´
             9.2.2 Ciclos: Ordenes for, repeat y while . . . . . . . . . . .                                            44

10    Escritura de nuevas funciones . . . . . . . . . . . . 46
       10.1 Ejemplos elementales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
       10.2 C´mo definir un operador binario. . . . . . . . . . . . . . . . . . . . . . . 47
              o
       10.3 Argumentos con nombre. Valores predeterminados . . . . . . . 47
       10.4 El argumento ‘...’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
       10.5 Asignaciones dentro de una funci´n . . . . . . . . . . . . . . . . . . . . . 48
                                                                  o
       10.6 Ejemplos m´s complejos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
                          a
             10.6.1 Factores de eficiencia en dise˜o en bloques . . . . . . 49
                                                                           n
             10.6.2 C´mo eliminar los nombres al imprimir una variable
                         o
                  indexada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
             10.6.3 Integraci´n num´rica recursiva . . . . . . . . . . . . . . . . . 50
                                      o             e
            ´
       10.7 Ambito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
       10.8 Personalizaci´n del entorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
                            o
       10.9 Clases. Funciones gen´ricas. Orientaci´n a objetos . . . . . . . 54
                                             e                             o

11    Modelos estad´
                   ısticos en R . . . . . . . . . . . . . . . . 55
       11.1   Definici´n de modelos estad´
                            o                                     ısticos. F´rmulas . . . . . . . . . . . . 55
                                                                                   o
                11.1.1 Contrastes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
       11.2 Modelos lineales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
       11.3 Funciones gen´ricas de extracci´n de informaci´n del modelo
                                        e                               o                            o
            . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
       11.4 An´lisis de varianza. Comparaci´n de modelos . . . . . . . . . . 60
                    a                                                     o
                11.4.1 Tablas ANOVA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
       11.5 Actualizaci´n de modelos ajustados . . . . . . . . . . . . . . . . . . . . . 61
                                   o
       11.6 Modelos lineales generalizados . . . . . . . . . . . . . . . . . . . . . . . . . . 61
                11.6.1 Familias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
                11.6.2 La funci´n glm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
                                              o
       11.7 Modelos de M´               ınimos cuadrados no lineales y de M´xima                           a
           verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
                11.7.1 M´          ınimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
                11.7.2 M´xima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . 67
                                   a
       11.8 Algunos modelos no-est´ndar . . . . . . . . . . . . . . . . . . . . . . . . . . 67
                                                          a
iv

12   Procedimientos gr´ficos . . . . . . . . . . . . . . . . . . 69
                      a
     12.1    Funciones gr´ficas de nivel alto . . . . . . . . . . . . . . . . . . . . . . . . . 69
                               a
              12.1.1 La funci´n plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
                                        o
              12.1.2 Representaci´n de datos multivariantes . . . . . . . . . 70
                                                 o
              12.1.3 Otras representaciones gr´ficas . . . . . . . . . . . . . . . . 70
                                                                        a
              12.1.4 Argumentos de las funciones gr´ficas de nivel alto             a
                    . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
     12.2    Funciones gr´ficas de nivel bajo . . . . . . . . . . . . . . . . . . . . . . . . 72
                               a
              12.2.1 Anotaciones matem´ticas . . . . . . . . . . . . . . . . . . . . . 74
                                                              a
              12.2.2 Fuentes vectoriales Hershey. . . . . . . . . . . . . . . . . . . . 74
     12.3    Funciones gr´ficas interactivas . . . . . . . . . . . . . . . . . . . . . . . . . . 74
                               a
     12.4    Uso de par´metros gr´ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
                            a                   a
              12.4.1 Cambios permanentes. La funci´n par() . . . . . . . 76         o
              12.4.2 Cambios temporales. Argumentos de las funciones
                   gr´ficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
                      a
     12.5    Par´metros gr´ficos habituales . . . . . . . . . . . . . . . . . . . . . . . . . 76
                a                 a
              12.5.1 Elementos gr´ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
                                                 a
              12.5.2 Ejes y marcas de divisi´n. . . . . . . . . . . . . . . . . . . . . . 78
                                                                    o
              12.5.3 M´rgenes de las figuras . . . . . . . . . . . . . . . . . . . . . . . 78
                             a
              12.5.4 Figuras m´ltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
                                            u
     12.6    Dispositivos gr´ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
                                   a
              12.6.1 Inclusi´n de gr´ficos PostScript en documentos . . 81
                                     o               a
              12.6.2 Dispositivos gr´ficos m´ltiples . . . . . . . . . . . . . . . . . 82
                                                     a              u
     12.7    Gr´ficos din´micos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
               a              a

Apendice A              Primera sesi´n con R . . . . . . . . . . . 84
                                    o

Apendice B              Ejecuci´n de R . . . . . . . . . . . . . . . . . 88
                               o
     B.1    Ejecuci´n de R en UNIX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
                   o
     B.2    Ejecuci´n de R en Microsoft Windows . . . . . . . . . . . . . . . . . . . 91
                   o

Apendice C              El editor de ´rdenes . . . . . . . . . . . . 93
                                     o
     C.1    Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
     C.2    Edici´n de acciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
                 o
     C.3    Resumen del editor de l´         ıneas de ´rdenes . . . . . . . . . . . . . . . . . 93
                                                             o

Apendice D              ´
                        Indice de funciones y variables. . . 95

Apendice E              ´
                        Indice de conceptos . . . . . . . . . . . . . 98

Apendice F              Referencias . . . . . . . . . . . . . . . . . . . . 100
Pr´logo
  o                                                                                        1



Pr´logo
  o
   Estas notas sobre R est´n escritas a partir de un conjunto de notas que describ´ los
                           a                                                          ıan
entornos S y S-Plus escritas por Bill Venables y Dave Smith. Hemos realizado un peque˜o   n
n´mero de cambios para reflejar las diferencias entre R y S.
 u
   R es un proyecto vivo y sus capacidades no coinciden totalmente con las de S. En
estas notas hemos adoptado la convenci´n de que cualquier caracter´
                                         o                             ıstica que se vaya a
implementar se especifica como tal en el comienzo de la secci´n en que la caracter´
                                                             o                      ıstica es
descrita. Los usuarios pueden contribuir al proyecto implementando cualquiera de ellas.
   Deseamos dar las gracias m´s efusivas a Bill Venables por permitir la distribuci´n de
                               a                                                       o
esta versi´n modificada de las notas y por ser un defensor de R desde su inicio.
          o
   Cualquier comentario o correcci´n ser´n siempre bienvenidos. Dirija cualquier correspon-
                                  o     a
dencia a R-core@r-project.org.

Sugerencias al lector
   La primera relaci´n con R deber´ ser la sesi´n inicial del Apendice A [Ejemplo de sesion],
                    o             ıa           o
p´gina 84. Est´ escrita para que se pueda conseguir cierta familiaridad con el estilo de las
 a             a
sesiones de R y para comprobar que coincide con la versi´n actual.
                                                           o
   Muchos usuarios eligen R fundamentalmente por sus capacidades gr´ficas. Si ese es su
                                                                          a
caso, deber´ leer antes o despu´s el Cap´
            ıa                  e         ıtulo 12 [Graficos], p´gina 69, sobre capacidades
                                                                a
gr´ficas y para ello no es necesario esperar a haber asimilado totalmente las secciones
  a
precedentes.
Cap´
   ıtulo 1: Introducci´n y Preliminares
                      o                                                                      2



1 Introducci´n y Preliminares
            o

1.1 El entorno R
  R es un conjunto integrado de programas para manipulaci´n de datos, c´lculo y gr´ficos.
                                                             o             a         a
Entre otras caracter´
                    ısticas dispone de:
 • almacenamiento y manipulaci´n efectiva de datos,
                                   o
 • operadores para c´lculo sobre variables indexadas (Arrays), en particular matrices,
                       a
 • una amplia, coherente e integrada colecci´n de herramientas para an´lisis de datos,
                                               o                          a
 • posibilidades gr´ficas para an´lisis de datos, que funcionan directamente sobre pantalla
                    a             a
    o impresora, y
 • un lenguaje de programaci´n bien desarrollado, simple y efectivo, que incluye
                                  o
    condicionales, ciclos, funciones recursivas y posibilidad de entradas y salidas. (Debe
    destacarse que muchas de las funciones suministradas con el sistema est´n escritas en
                                                                             a
    el lenguaje R)
    El t´rmino “entorno” lo caracteriza como un sistema completamente dise˜ado y co-
        e                                                                          n
herente, antes que como una agregaci´n incremental de herramientas muy espec´
                                         o                                              ıficas e
inflexibles, como ocurre frecuentemente con otros programas de an´lisis de datos.
                                                                     a
    R es en gran parte un veh´
                             ıculo para el desarrollo de nuevos m´todos de an´lisis interactivo
                                                                 e           a
de datos. Como tal es muy din´mico y las diferentes versiones no siempre son totalmente
                                 a
compatibles con las anteriores. Algunos usuarios prefieren los cambios debido a los nuevos
m´todos y tecnolog´ que los acompa˜an, a otros sin embargo les molesta ya que alg´n c´digo
  e                 ıa               n                                               u o
anterior deja de funcionar. Aunque R puede entenderse como un lenguaje de programaci´n,     o
los programas escritos en R deben considerarse esencialmente ef´   ımeros.

1.2 Programas relacionados. Documentaci´n
                                       o
   R puede definirse como una nueva implementaci´n del lenguaje S desarrollado en AT&T
                                                   o
por Rick Becker, John Chambers y Allan Wilks. Muchos de los libros y manuales sobre S
son utiles para R.
    ´
   La referencia b´sica es The New S Language: A Programming Environment for Data
                    a
Analysis and Graphics de Richard A. Becker, John M. Chambers and Allan R. Wilks. Las
caracter´ısticas de la versi´n de agosto de 1991 de S est´n recogidas en Statistical Models
                            o                            a
in S editado por John M. Chambers y Trevor J. Hastie. V´ase Apendice F [Referencias],
                                                            e
p´gina 100, para referencias concretas.
 a

1.3 Estad´
         ıstica con R
   En la introducci´n a R no se ha mencionado la palabra estad´
                   o                                           ıstica, sin embargo muchas
personas utilizan R como un sistema estad´
                                         ıstico. Nosotros preferimos describirlo como un
entorno en el que se han implementado muchas t´cnicas estad´
                                                 e            ısticas, tanto cl´sicas como
                                                                               a
modernas. Algunas est´n incluidas en el entorno base de R y otras se acompa˜an en
                        a                                                           n
forma de bibliotecas (packages). El hecho de distinguir entre ambos conceptos es funda-
mentalmente una cuesti´n hist´rica. Junto con R se incluyen ocho bibliotecas (llamadas
                        o      o
Cap´
   ıtulo 1: Introducci´n y Preliminares
                      o                                                                  3



bibliotecas est´ndar) pero otras muchas est´n disponibles a trav´s de Internet en CRAN
               a                           a                    e
(http://www.r-project.org).
    Como hemos indicado, muchas t´cnicas estad´
                                   e           ısticas, desde las cl´sicas hasta la ultima
                                                                    a               ´
metodolog´ est´n disponibles en R, pero los usuarios necesitar´n estar dispuestos a traba-
          ıa,   a                                             a
jar un poco para poder encontrarlas.
    Existe una diferencia fundamental en la filosof´ que subyace en R (o S) y la de otros
                                                   ıa
sistemas estad´ısticos. En R, un an´lisis estad´
                                     a         ıstico se realiza en una serie de pasos, con
unos resultados intermedios que se van almacenando en objetos, para ser observados o
analizados posteriormente, produciendo unas salidas m´ ınimas. Sin embargo en SAS o SPSS
se obtendr´ de modo inmediato una salida copiosa para cualquier an´lisis, por ejemplo,
           ıa                                                           a
una regresi´n o un an´lisis discriminante.
            o          a


1.4 R en un sistema de ventanas
   La forma m´s conveniente de usar R es en una estaci´n de trabajo con un sistema de
               a                                          o
ventanas. Estas notas est´n escritas pensando en usuarios de estas caracter´
                           a                                                 ısticas. En
particular nos referiremos ocasionalmente a la utilizaci´n de R en un sistema X-window,
                                                        o
aunque normalmente se pueden aplicar a cualquier implementaci´n del entorno R.
                                                                o
   Muchos usuarios encontrar´n necesario interactuar directamente con el sistema opera-
                               a
tivo de su ordenador de vez en cuando. En estas notas se trata fundamentalmente de la
interacci´n con el sistema operativo UNIX. Si utiliza R bajo Microsoft Windows necesitar´
         o                                                                              a
realizar algunos peque˜os cambios.
                        n
    El ajuste del programa para obtener el m´ximo rendimiento de las cualidades parame-
                                             a
trizables de R es una tarea interesante aunque tediosa y no se considerar´ en estas notas.
                                                                         a
Si tiene dificultades busque a un experto cercano a usted.


1.5 Utilizaci´n interactiva de R
             o
   Cuando R espera la entrada de ´rdenes, presenta un s´
                                 o                     ımbolo para indicarlo. El s´
                                                                                  ımbolo
predeterminado es ‘>’, que en UNIX puede coincidir con el s´
                                                           ımbolo del sistema, por lo que
puede parecer que no sucede nada. Si ese es su caso, sepa que es posible modificar este
s´
 ımbolo en R. En estas notas supondremos que el s´
                                                 ımbolo de UNIX es ‘$’.
   Para utilizar R bajo UNIX por primera vez, el procedimiento recomendado es el siguiente:
 1. Cree un subdirectorio, por ejemplo ‘trabajo’, en el que almacenar los archivos de datos
                                    ´
    que desee analizar mediante R. Este ser´ el directorio de trabajo cada vez que utilice
                                            a
    R para este problema concreto.
          $ mkdir trabajo
          $ cd trabajo
 2. Inicie R con la orden
           $ R
 3. Ahora puede escribir ´rdenes para R (como se hace m´s adelante).
                         o                             a
 4. Para salir de R la orden es
          > q()
Cap´
   ıtulo 1: Introducci´n y Preliminares
                      o                                                                    4



    R preguntar´ si desea salvar los datos de esta sesi´n de trabajo. Puede responder yes
                 a                                      o
    (Si), no (No) o cancel (cancelar) pulsando respectivamente las letras y, n o c, en cada
    uno de cuyos casos, respectivamente, salvar´ los datos antes de terminar, terminar´
                                                  a                                         a
    sin salvar, o volver´ a la sesi´n de R. Los datos que se salvan estar´n disponibles en la
                        a          o                                     a
    siguiente sesi´n de R.
                  o
   Volver a trabajar con R es sencillo:
 1. Haga que ‘trabajo’ sea su directorio de trabajo e inicie el programa como antes:
          $ cd trabajo
          $ R
 2. D´ las ´rdenes que estime convenientes a R y termine la sesi´n con la orden q().
      e    o                                                     o
    Bajo Microsoft Windows el procedimiento a seguir es b´sicamente el mismo: Cree una
                                                             a
carpeta o directorio. Ejecute R haciendo doble click en el icono correspondiente. Seleccione
New dentro del men´ File para indicar que desea iniciar un nuevo problema (lo que eliminar´
                     u                                                                      a
todos los objetos definidos dentro del espacio de trabajo) y a continuaci´n seleccione Save
                                                                           o
dentro del men´ File para salvar esta imagen en el directorio que acaba de crear. Puede
                u
comenzar ahora los an´lisis y cuando salga de R, ´ste le preguntar´ si desea salvar la imagen
                        a                         e               a
en el directorio de trabajo.
    Para continuar con este an´lisis posteriormente basta con pulsar en el icono de la imagen
                              a
salvada, o bien puede ejecutar R y utilizar la opci´n Open dentro del men´ File para
                                                      o                           u
seleccionar y abrir la imagen salvada.

1.6 Una sesi´n inicial
            o
   Se recomienda a los lectores que deseen ver c´mo funciona R que realicen la sesi´n inicial
                                                o                                  o
dada en el Apendice A [Ejemplo de sesion], p´gina 84.
                                              a

1.7 Ayuda sobre funciones y capacidades
    R contiene una ayuda similar a la orden man de UNIX. Para obtener informaci´n sobre
                                                                                  o
una funci´n concreta, por ejemplo solve, la orden es
           o
       > help(solve)
    Una forma alternativa es
       > ?solve
    Con las funciones especificadas por caracteres especiales, el argumento deber´ ir entre
                                                                                 a
comillas, para transformarlo en una ”cadena de caracteres”:
       > help("[[")
    Podr´ utilizar tanto comillas simples como dobles, y cada una de ellas puede utilizarse
         a
dentro de la otra, como en la frase "Dijo ’Hola y adi´s’ y se march´". En estas notas
                                                        o              o
utilizaremos dobles comillas.
    En muchas versiones de R puede acceder a la ayuda escrita en formato html, escribiendo
       > help.start()
que ejecuta un lector Web (Netscape en UNIX) para leer estas p´ginas como hipertextos.
                                                                   a
En UNIX, las peticiones de ayuda posteriores se envir´n al sistema de ayuda basado en
                                                        a
html.
Cap´
   ıtulo 1: Introducci´n y Preliminares
                      o                                                                      5



   Las versiones de Microsoft Windows de R poseen otros sistemas de ayuda opcionales.
Utilice
       > ?help
para obtener detalles adicionales.

    ´
1.8 Ordenes de R. May´ sculas y min´ sculas
                     u             u
   T´cnicamente hablando, R es un lenguaje de expresiones con una sintaxis muy simple.
      e
Consecuente con sus or´    ıgenes en UNIX, distingue entre may´sculas y min´sculas, de tal
                                                                  u              u
modo que A y a son s´   ımbolos distintos y se referir´n, por tanto, a objetos distintos.
                                                      a
   Las ´rdenes elementales consisten en expresiones o en asignaciones. Si una orden consiste
         o
en una expresi´n, se eval´a, se imprime y su valor se pierde. Una asignaci´n, por el contrario,
                o          u                                                o
eval´a una expresi´n, no la imprime y guarda su valor en una variable.
    u                o
   Las ´rdenes se separan mediante punto y coma, (‘;’), o mediante un cambio de l´
          o                                                                               ınea.
Si al terminar la l´ınea, la orden no est´ sint´cticamente completa, R mostrar´ un signo de
                                         a     a                                   a
continuaci´n, por ejemplo
             o
        +
en la l´  ınea siguiente y las sucesivas y continuar´ leyendo hasta que la orden est´
                                                         a                                    e
sint´cticamente completa. El signo de continuaci´n puede ser modificado f´cilmente. En
    a                                                 o                          a
estas notas omitiremos generalmente el s´   ımbolo de continuaci´n y lo indicaremos mediante
                                                                 o
un sangrado.

1.9 Recuperaci´n y correcci´n de ´rdenes previas
              o            o     o
   Bajo muchas versiones de UNIX, R permite recuperar y ejecutar ´rdenes previas. Las
                                                                         o
flechas verticales del teclado puede utilizarse para recorrer el historial de ´rdenes. Cuando
                                                                             o
haya recuperado una orden con este procedimiento, puede utilizar las flechas horizontales
para desplazarse por ella, puede eliminar caracteres con la tecla DEL , o a˜adir nuevos ca-
                                                                             n
racteres. M´s adelante se dar´n mayores detalles, v´ase Apendice C [El editor de ordenes],
            a                 a                      e
p´gina 93.
 a
   La recuperaci´n y edici´n en UNIX pueden ser f´cilmente adaptadas. Para ello debe
                 o          o                          a
buscar en el manual de UNIX la informaci´n sobre readline.
                                            o
   Tambi´n puede utilizar el editor de textos emacs para trabajar m´s c´modamente de
          e                                                               a o
modo interactivo con R, mediante ESS.1

1.10 Ejecuci´n de ´rdenes desde un archivo y redirecci´n de
             o    o                                   o
     la salida
   Si tiene ´rdenes almacenadas en un archivo del sistema operativo, por ejemplo
             o
´rdenes.R, en el directorio de trabajo, trabajo, puede ejecutarlas dentro de una sesi´n
o                                                                                    o
de R con la orden
      > source("´rdenes.R")
                  o
   En la versi´n de Microsoft Windows, Source tambi´n est´ disponible dentro del men´
              o                                       e   a                           u
File. Por otra parte, la orden sink, como por ejemplo en
 1
     Acr´nimo en ingl´s de Emacs Speaks Statistics.
        o            e
Cap´
   ıtulo 1: Introducci´n y Preliminares
                      o                                                                     6



      > sink("resultado.lis")
enviar´ el resto de la salida, en vez de a la pantalla, al archivo del sistema operativo,
      a
resultado.lis, dentro del directorio de trabajo. La orden
      > sink()
devuelve la salida de nuevo a la pantalla.
   Si utiliza nombres absolutos de archivo en vez de nombres relativos, los resultados se
almacena´n en ellos, independientemente del directorio de trabajo.
          a

1.11 Almacenamiento y eliminaci´n de objetos
                               o
    Las entidades que R crea y manipula se denominan objetos. Estos pueden ser de mu-
chos tipos: Variables, Variables indexadas, Cadenas de caracteres, Funciones, etc. Incluso
estructuras m´s complejas construidas a partir de otras m´s sencillas.
               a                                             a
    Durante una sesi´n de trabajo con R los objetos que se crean se almacenan por nombre
                     o
(Discutiremos este proceso en la siguiente secci´n). La orden
                                                  o
       > objects()
se puede utilizar para obtener los nombres de los objetos almacenados en R. Esta funci´n    o
es equivalente a la funci´n ls(). La colecci´n de objetos almacenados en cada momento se
                         o                    o
denomina espacio de trabajo (workspace).
    Para eliminar objetos puede utilizar la orden rm, por ejemplo:
       > rm(x, y, z, tinta, chatarra, temporal, barra)
    Los objetos creados durante una sesi´n de R pueden almacenarse en un archivo para su
                                         o
uso posterior. Al finalizar la sesi´n, R pregunta si desea hacerlo. En caso afirmativo todos
                                  o
los objetos se almacenan en el archivo ‘.RData’2 en el directorio de trabajo.
    En la siguiente ocasi´n que ejecute R, se recuperar´n los objetos de este archivo as´ como
                         o                             a                                ı
el historial de ´rdenes.
                o
    Es recomendable que utilice un directorio de trabajo diferente para cada problema que
analice con R. Es muy com´n crear objetos con los nombres x e y, por ejemplo. Estos
                              u
nombres tienen sentido dentro de un an´lisis concreto, pero es muy dif´ dilucidar su
                                            a                                 ıcil
significado cuando se han realizado varios an´lisis en el mismo directorio.
                                                a




 2
     El punto inicial del nombre de este archivo indica que es invisible en UNIX.
Cap´
   ıtulo 2: C´lculos sencillos. N´meros y vectores
             a                   u                                                                       7



2 C´lculos sencillos. N´ meros y vectores
   a                   u


2.1 Vectores (num´ricos). Asignaci´n
                 e                o
   R utiliza diferentes estructuras de datos. La estructura m´s simple es el vector, que es
                                                               a
una colecci´n ordenada de n´meros. Para crear un vector, por ejemplo x, consistente en
           o                  u
cinco n´meros, por ejemplo 10.4, 5.6, 3.1, 6.4 y 21.7, use la orden
       u
        > x <- c(10.4, 5.6, 3.1, 6.4, 21.7)
   Esta es una asignaci´n en la que se utiliza la funci´n c() que, en este contexto, puede
                       o                               o
tener un n´mero arbitrario de vectores como argumento y cuyo valor es el vector obtenido
          u
mediante la concatenaci´n de todos ellos.1
                       o
     Un n´mero, por s´ mismo, se considera un vector de longitud uno.
         u           ı
   Advierta que el operador de asignaci´n, (‘<-’), no es el operador habitual, ‘=’, que se
                                        o
reserva para otro prop´sito, sino que consiste en dos caracteres, ‘<’ (‘menor que’) y ‘-’
                        o
(‘gui´n’), que obligatoriamente deben ir unidos y ’apuntan’ hacia el objeto que recibe el
     o
valor de la expresi´n.2
                   o
   La asignaci´n puede realizarse tambi´n mediante la funci´n assign(). Una forma equi-
               o                         e                 o
valente de realizar la asignaci´n anterior es
                               o
        > assign("x", c(10.4, 5.6, 3.1, 6.4, 21.7))
El operador usual, <-, puede interpretarse como una abreviatura de la funci´n assign().
                                                                           o
    Las asignaciones pueden realizarse tambi´n con una flecha apuntando a la derecha, rea-
                                            e
lizando el cambio obvio en la asignaci´n. Por tanto, tambi´n podr´ escribirse
                                      o                   e      ıa
        > c(10.4, 5.6, 3.1, 6.4, 21.7) -> x
   Si una expresi´n se utiliza como una orden por s´ misma, su valor se imprime y se pierde 3 .
                 o                                 ı
As´ pues, la orden
  ı
        > 1/x
simplemente imprime los inversos de los cinco valores anteriores en la pantalla (por supuesto,
el valor de x no se modifica).
     Si a continuaci´n hace la asignaci´n
                    o                  o
        > y <- c(x, 0, x)
crear´ un vector, y, con 11 elementos, consistentes en dos copias de x con un cero entre
     a
ambas.

 1
     Con argumentos diferentes, por ejemplo listas, la acci´n de c() puede ser diferente. Vea Secci´n 6.2.1
                                                            o                                      o
     [Concatenacion de listas], p´gina 29.
                                 a
 2
     El s´ımbolo de subrayado, ‘_’, es un sin´nimo del operador de asignaci´n, pero no aconsejamos su uti-
                                             o                             o
     lizaci´n ya que produce un c´digo menos legible.
           o                      o
 3
     Aunque, de hecho, se almacena en .Last.value hasta que se ejecute otra orden.
Cap´
   ıtulo 2: C´lculos sencillos. N´meros y vectores
             a                   u                                                        8



2.2 Aritm´tica vectorial
         e
   Los vectores pueden usarse en expresiones aritm´ticas, en cuyo caso las operaciones
                                                     e
se realizan elemento a elemento. Dos vectores que se utilizan en la misma expresi´n no
                                                                                    o
tienen por qu´ ser de la misma longitud. Si no lo son, el resultado ser´ un vector de la
               e                                                         a
longitud del m´s largo, y el m´s corto ser´ reciclado, repiti´ndolo tantas veces como sea
                 a              a          a                 e
necesario (puede que no un n´mero exacto de veces) hasta que coincida con el m´s largo.
                              u                                                   a
En particular, cualquier constante ser´ simplemente repetida. De este modo, y siendo x e
                                       a
y los vectores antes definidos, la orden
      > v <- 2*x + y + 1
genera un nuevo vector, v, de longitud 11, construido sumando, elemento a elemento, el
vector 2*x repetido 2.2 veces, el vector y, y el n´mero 1 repetido 11 veces.
                                                  u
    Los operadores aritm´ticos elementales son los habituales +, -, *, / y ^ para elevar
                           e
a una potencia. Adem´s est´n disponibles las funciones log, exp, sin, cos, tan, sqrt,
                         a     a
bien conocidas. Existen muchas m´s funciones, entre otras, las siguientes: max y min que
                                    a
seleccionan respectivamente el mayor y el menor elemento de un vector; range cuyo valor
es el vector de longitud dos, c(min(x), max(x)); length(x) que es el n´mero de elementos
                                                                      u
o longitud de x; sum(x) que es la suma de todos los elementos de x; y prod(x) que es el
producto de todos ellos.
   Dos funciones estad´
                      ısticas son mean(x), que calcula la media, esto es,
      sum(x)/length(x)
   y var(x) que calcula la cuasi-varianza, esto es,
      sum((x-mean(x))^2)/(length(x)-1)
   Si el argumento de var() es una matriz n × p, el resultado es la matriz de cuasi-
covarianzas p×p correspondiente a interpretar las filas como vectores muestrales p-variantes.
   Para ordenar un vector dispone de la funci´n sort(x) que devuelve un vector del mismo
                                             o
tama˜o que x con los elementos ordenados en orden creciente. Tambi´n dispone de order()
     n                                                            e
y de sort.list(), que produce la permutaci´n del vector que corresponde a la ordenaci´n.
                                            o                                         o

   Advierta que max y min seleccionan el mayor y el menor valor de sus argumentos, incluso
aunque estos sean varios vectores. Las funciones paralelas pmax y pmin devuelven un vector
(de la misma longitud del argumento m´s largo) que contiene en cada elemento el mayor y
                                        a
menor elemento de dicha posici´n de entre todos los vectores de entrada.
                               o
   En la mayor´ de los casos, el usuario no debe preocuparse de si los “n´meros” de un vec-
               ıa                                                        u
tor num´rico son enteros, reales o incluso complejos. Los c´lculos se realizan internamente
        e                                                  a
como n´meros de doble precisi´n, reales o complejos seg´n el caso.
       u                       o                        u
   Para trabajar con n´meros complejos, debe indicar expl´
                      u                                  ıcitamente la parte compleja.
As´
  ı
      sqrt(-17)
devuelve el resultado NaN y un mensaje de advertencia, pero
      sqrt(-17+0i)
realiza correctamente el c´lculo de la ra´ cuadrada de este n´mero complejo.
                          a              ız                  u
Cap´
   ıtulo 2: C´lculos sencillos. N´meros y vectores
             a                   u                                                        9



2.3 Generaci´n de sucesiones
            o
   En R existen varias funciones para generar sucesiones num´ricas. Por ejemplo, 1:30
                                                              e
es el vector c(1,2, ...,29,30). El operador ’dos puntos’ tiene m´xima prioridad en una
                                                                a
expresi´n, as´ por ejemplo, 2*1:15 es el vector c(2,4,6, ...,28,30). Escriba n <- 10 y
        o     ı,
compare las sucesiones 1:n-1 y 1:(n-1).
   La forma 30:1 permite construir una sucesi´n descendente.
                                             o
    La funci´n seq() permite generar sucesiones m´s complejas. Dispone de cinco argu-
            o                                        a
mentos, aunque no se utilizan todos simult´neamente. Si se dan los dos primeros indican el
                                            a
comienzo y el final de la sucesi´n, y si son los unicos argumentos, el resultado coincide con
                               o                ´
el operador ’dos puntos’, esto es, seq(2,10) coincide con 2:10.
   Los argumentos de seq(), y de muchas funciones de R, pueden darse adem´s de por
                                                                             a
posici´n, por nombre, en cuyo caso, el orden en que aparecen es irrelevante. En esta
      o
funci´n los dos primeros argumentos se pueden dar por nombre mediante from=valor-inicial
     o
y to=valor-final; por tanto seq(1,30), seq(from=1, to=30) y seq(to=30, from=1) son
formas equivalentes a 1:30.
   Los dos siguientes argumentos de seq() son by=valor y length=valor, y especifican el
’paso’ y ’longitud’ de la sucesi´n respectivamente. Si no se suministra ninguno, el valor
                                o
predeterminado es by=1 y length se calcula.
   Por ejemplo
     > seq(-5, 5, by=.2) -> s3
genera el vector c(-5.0, -4.8, -4.6, ..., 4.6, 4.8, 5.0) y lo almacena en s3 . Simi-
larmente
      > s4 <- seq(length=51, from=-5, by=.2)
genera los mismos valores y los almacena en s4.
   El quinto argumento de esta funci´n es along=vector, y si se usa debe ser el unico
                                       o                                          ´
argumento, ya que crea una sucesi´n 1, 2, ..., length(vector), o la sucesi´n vac´ si el
                                  o                                       o     ıa
vector es vac´ (lo que puede ocurrir).
             ıo
   Una funci´n relacionada con seq es rep(), que permite duplicar un objeto de formas
             o
diversas. Su forma m´s sencilla es
                    a
      > s5 <- rep(x, times=5)
que coloca cinco copias de x, una tras otra, y las almacena en s5.

2.4 Vectores l´gicos
              o
   R no solo maneja vectores num´ricos, sino tambi´n l´gicos. Los elementos de un vector
                                 e                 e o
l´gico s´lo pueden tomar dos valores: FALSE (falso) y TRUE (verdadero). Estos valores se
 o      o
representan tambi´n por F y T.
                  e
   Los vectores l´gicos aparecen al utilizar condiciones. Por ejemplo,
                 o
     > temp <- x > 13
almacena en temp un vector de la misma longitud de x y cuyos valores ser´n, respectiva-
                                                                          a
mente, T o F de acuerdo a que los elementos de x cumplan o no la condici´n indicada: ser
                                                                        o
mayores que 13.
Cap´
   ıtulo 2: C´lculos sencillos. N´meros y vectores
             a                   u                                                          10



    Los operadores l´gicos son < (menor), <= (menor o igual), > (mayor), >= (mayor o igual),
                    o
== (igual), y != (distinto). Adem´s, si c1 y c2 son expresiones l´gicas, entonces c1&c2 es
                                   a                              o
su intersecci´n (“conjunci´n”), c1|c2 es su uni´n (“disyunci´n”) y !c1 es la negaci´n de
             o             o                    o              o                      o
c1.
   Los vectores l´gicos pueden utilizarse en expresiones aritm´ticas, en cuyo caso se trans-
                 o                                            e
forman primero en vectores num´ricos, de tal modo que F se transforma en 0 y T en 1. Sin
                                e
embargo hay casos en que un vector l´gico y su correspondiente num´rico no son equiva-
                                       o                                e
lentes, como puede ver a continuaci´n.
                                    o

2.5 Valores faltantes
    En ocasiones puede que no todas las componentes de un vector sean conocidas. Cuando
falta un elemento, lo que se denomina ’valor faltante’4 , se le asigna un valor especial, NA5 .
En general, casi cualquier operaci´n donde intervenga un valor NA da por resultado NA. La
                                    o
justificaci´n es sencilla: Si no se puede especificar completamente la operaci´n, el resultado
          o                                                                   o
no podr´ ser conocido, y por tanto no estar´ disponible.
        a                                    a
   La funci´n is.na(x) crea un vector l´gico del tama˜o de x cuyos elementos s´lo valdr´n
            o                           o              n                      o        a
T si el elemento correspondiente de x es NA, y F en caso contrario.
       > z <- c(1:3,NA); ind <- is.na(z)
   N´tese que la expresi´n l´gica x == NA es distinta de is.na(x) puesto que NA no es
     o                   o o
realmente un valor, sino un indicador de una cantidad que no est´ disponible. Por tanto
                                                                a
x == NA es un vector de la misma longitud de x con todos sus elementos NA puesto que la
expresi´n l´gica es incompleta.
       o o
   Adem´s hay una segunda clase de valores “faltantes”, producidos por el c´lculo. Son los
        a                                                                  a
                    6
llamados valores NaN . Este tipo de dato no existe en S, y por tanto se confunden con NA
en S-Plus. Ejemplos de NaN son
     > 0/0
o
           > Inf - Inf
    En resumen, is.na(xx) es TRUE tanto para los valores NA como para los NaN. Para
diferenciar estos ultimos existe la funci´n is.nan(xx) que s´lo toma el valor TRUE para
                  ´                      o                  o
valores NaN.

2.6 Vectores de caracteres
   Las cadenas de caracteres, o frases, tambi´n son utilizadas en R, por ejemplo, para
                                               e
etiquetar gr´ficos. Una cadena de caracteres se construye escribiendo entre comillas la
            a
sucesi´n de caracteres que la define, por ejemplo, "Altura" o "Resultados de la tercera
      o
iteraci´n".
        o
        Los vectores de caracteres pueden concatenarse en un vector mediante la funci´n c().
                                                                                     o
    4
        En la literatura estad´
                              ıstica inglesa, “missing value”
    5
        Acr´nimo en ingl´s de “Not Available”, no disponible.
           o              e
    6
        Acr´nimo en ingl´s de “Not a Number”, esto es, “No es un n´mero”.
           o              e                                       u
Cap´
   ıtulo 2: C´lculos sencillos. N´meros y vectores
             a                   u                                                                     11



   Por otra parte, la funci´n paste() une todos los vectores de caracteres que se le sumi-
                           o
nistran y construye una sola cadena de caracteres. Tambi´n admite argumentos num´ricos,
                                                        e                           e
que convierte inmediatamente en cadenas de caracteres. En su forma predeterminada, en
la cadena final, cada argumento original se separa del siguiente por un espacio en blanco,
aunque ello puede cambiarse utilizando el argumento sep="cadena", que sustituye el espacio
en blanco por cadena, la cual podr´ ser incluso vac´
                                   ıa               ıa.
     Por ejemplo,
        > labs <- paste(c("X","Y"), 1:10, sep="")
almacena, en labs, el vector de caracteres
        c("X1", "Y2", "X3", "Y4", "X5", "Y6", "X7", "Y8", "X9", "Y10")
   Recuerde que al tener c("X", "Y") solo dos elementos, deber´ repetirse 5 veces para
                                                              a
                                    7
obtener la longitud del vector 1:10.

2.7 Vectores de ´
                ındices. Selecci´n y modificaci´n de
                                o             o
    subvectores
   Puede seleccionar un subvector de un vector a˜adiendo al nombre del mismo un vector
                                                n
de ´
   ındices entre corchetes, [ y ]. En general podr´ obtener un subvector de cualquier
                                                   a
expresi´n cuyo resultado sea un vector, sin m´s que a˜adirle un vector de ´
       o                                      a       n                   ındices entre
corchetes.
     Los vectores de ´
                     ındices pueden ser de cuatro tipos distintos:
 1. Un vector l´gico. En este caso el vector de ´
                 o                                 ındices debe tener la misma longitud que
    el vector al que refiere. S´lo se seleccionar´n los elementos correspondientes a valores
                              o                  a
    T del vector de ´
                    ındices y se omitir´ el resto. Por ejemplo,
                                       a
          > y <- x[!is.na(x)]
      almacena en y los valores no-faltantes de x, en el mismo orden. Si x tiene valores
      faltantes, el vector y ser´ m´s corto que x. An´logamente,
                                a a                  a
            > (x+1)[(!is.na(x)) & x>0] -> z
      almacena en z los elementos del vector x+1 para los que el correspondiente elemento
      de x es no-faltante y positivo.
 2. Un vector de n´meros naturales positivos. En este caso los elementos del vector de
                    u
    ´
    ındices deben pertenecer al conjunto {1, 2, . . . , length(x)}. El resultado es un vector
    formado por los elementos del vector referido que corresponden a estos ´     ındices y en
    el orden en que aparecen en el vector de ´  ındices. El vector de ´  ındices puede tener
    cualquier longitud y el resultado ser´ de esa misma longitud. Por ejemplo, x[6] es el
                                         a
    sexto elemento de x, y
          > x[1:10]
      es el vector formado por los diez primeros elementos de x, (supuesto que length(x) no
      es menor que 10). Por otra parte,

 7
     paste(..., collapse=ss) permite colapsar los argumentos en una sola cadena de caracteres separ´ndolos
                                                                                                   a
     mediante ss. Adem´s existen otras ´rdenes de manipulaci´n de caracteres. como sub y substring. Puede
                        a              o                    o
     encontrar su descripci´n en la ayuda del programa.
                           o
Cap´
   ıtulo 2: C´lculos sencillos. N´meros y vectores
             a                   u                                                                  12



             > c("x","y")[rep(c(1,2,2,1), times=4)]
      crea un vector de caracteres de longitud 16 formado por "x", "y", "y", "x" repetido
      cuatro veces.
 3. Un vector de n´meros naturales negativos. En este caso, los ´
                   u                                            ındices indican los ele-
    mentos del vector referido que deben excluirse. As´ pues,
                                                      ı
         > y <- x[-(1:5)]
      almacena en el vector y todos los elementos de x excepto los cinco primeros (suponiendo
      que x tiene al menos cinco elementos).
 4. Un vector de caracteres. Esta opci´n solo puede realizarse si el vector posee el atributo
                                      o
    names (nombres) para identificar sus componentes, en cuyo caso se comportar´ de modo
                                                                                  a
    similar al punto 2.
          > fruta <- c(5, 10, 1, 20)
          > names(fruta) <- c("naranja", "pl´tano", "manzana", "pera")
                                                  a
          > postre <- fruta[c("manzana","naranja")]
      La ventaja en este caso es que los nombres son a menudo m´s f´ciles de recordar que
                                                                  a a
      los ´
          ındices num´ricos.Esta opci´n es especialmente util al tratar de la estructura de
                     e                o                  ´
      “hoja de datos” (data frame) que veremos posteriormente.
   La variable de almacenamiento tambi´n puede ser indexada, en cuyo caso la asignaci´n
                                          e                                               o
se realiza solamente sobre los elementos referidos. La expresi´n debe ser de la forma
                                                                  o
vector[vector de ´ındices] ya que la utilizaci´n de una expresi´n arbitraria en vez del nom-
                                              o                o
bre de un vector no tiene mucho sentido.
   El vector asignado debe ser de la misma longitud que el vector de ´ındices y, en el caso
de un vector de ´ındices l´gico, debe ser de la misma longitud del vector que indexa. Por
                          o
ejemplo,
      > x[is.na(x)] <- 0
sustituye cada valor faltante de x por un cero. Por otra parte,
      > y[y < 0] <- -y[y < 0]
equivale8 a
      > y <- abs(y)

2.8 Clases de objetos
  Los vectores son el tipo b´sico de objeto en R, pero existen m´s tipos que veremos de
                            a                                   a
modo formal posteriormente.
 • Las matrices o, m´s generalmente, variables indexadas (Arrays) son generalizaciones
                     a
   multidimensionales de los vectores. De hecho, son vectores indexados por dos o m´sa
   ındices y que se imprimen de modo especial. V´ase Cap´
   ´                                              e       ıtulo 5 [Matrices y variables
   indexadas], p´gina 20.
                a
 • Los factores sirven para representar datos categ´ricos. V´ase Cap´
                                                   o        e       ıtulo 4 [Factores],
   p´gina 17.
    a
 8
     Tenga en cuenta que abs() no se comporta correctamente con n´meros complejos, en ellos deber´ usar
                                                                 u                               ıa
     Mod().
Cap´
   ıtulo 2: C´lculos sencillos. N´meros y vectores
             a                   u                                                   13



 • Las listas son una forma generalizada de vector en las cuales los elementos no tienen
   por qu´ ser del mismo tipo y a menudo son a su vez vectores o listas. Las listas
           e
   permiten devolver los resultados de los c´lculos estad´
                                            a            ısticos de un modo conveniente.
   V´ase Secci´n 6.1 [Listas], p´gina 28.
     e         o                a
 • Las hojas de datos (data frames) son estructuras similares a una matriz, en que cada
   columna puede ser de un tipo distinto a las otras. Las hojas de datos son apropiadas
   para describir ‘matrices de datos’ donde cada fila representa a un individuo y cada
   columna una variable, cuyas variables pueden ser num´ricas o categ´ricas. Muchos
                                                            e            o
   experimentos se describen muy apropiadamente con hojas de datos: los tratamientos
   son categ´ricos pero la respuesta es num´rica. V´ase Secci´n 6.3 [Hojas de datos],
             o                                e        e         o
   p´gina 29.
    a
 • Las funciones son tambi´n objetos de R que pueden almacenarse en el espacio de
                             e
   trabajo, lo que permite extender las capacidades de R f´cilmente. V´ase Cap´
                                                            a           e       ıtulo 10
   [Escritura de funciones], p´gina 46.
                              a
Cap´
   ıtulo 3: Objetos: Modos y atributos                                                                    14



3 Objetos: Modos y atributos

3.1 Atributos intr´
                  ınsecos: modo y longitud
    Las entidades que manipula R se conocen con el nombre de objetos. Por ejemplo, los
vectores de n´meros, reales o complejos, los vectores l´gicos o los vectores de caracteres.
               u                                         o
Este tipo de objetos se denominan estructuras ‘at´micas’ puesto que todos sus elementos son
                                                  o
del mismo tipo o modo, bien sea numeric 1 (num´rico), complex (complejo), logical (l´gico)
                                                  e                                    o
o character (car´cter).
                  a
    Los elementos de un vector deben ser todos del mismo modo y ´ste ser´ el modo del
                                                                       e        a
vector. Esto es, un vector ser´, en su totalidad, de modo logical, numeric, complex o
                                  a
character. La unica excepci´n a esta regla es que cualquiera de ellos puede contener el valor
                ´            o
NA. Debe tener en cuenta que un vector puede ser vac´ pero pese a ello tendr´ un modo.
                                                        ıo,                        a
As´ el vector de caracteres vac´ aparece como character(0) y el vector num´rico vac´
   ı,                             ıo                                                e       ıo
aparece como numeric(0).
    R tambi´n maneja objetos denominados listas que son del modo list (lista) y que con-
             e
sisten en sucesiones de objetos, cada uno de los cuales puede ser de un modo distinto.
Las listas se denominan estructuras ‘recursivas’ puesto que sus componentes pueden ser
asimismo listas.
    Existen otras estructuras recursivas que corresponden a los modos function (funci´n) y
                                                                                        o
expression (expresi´n). El modo function est´ formado por las funciones que constituyen R,
                     o                        a
unidas a las funciones escritas por cada usuario, y que discutiremos m´s adelante. El modo
                                                                        a
expression corresponde a una parte avanzada de R que no trataremos aqu´ excepto en lo
                                                                             ı,
m´ınimo necesario para el tratamiento de f´rmulas en la descripci´n de modelos estad´
                                           o                      o                   ısticos.
    Con el modo de un objeto designamos el tipo b´sico de sus constituyentes fundamentales.
                                                   a
Es un caso especial de un atributo de un objeto. Los atributos de un objeto suministran
informaci´n espec´
          o         ıfica sobre el propio objeto. Otro atributo de un objeto es su longitud.
Las funciones mode(objeto) y length(objeto) se pueden utilizar para obtener el modo y
longitud de cualquier estructura.
    Por ejemplo, si z es un vector complejo de longitud 100, entonces mode(z) es la cadena
"complex", y length(z) es 100.
    R realiza cambios de modo cada vez que se le indica o es necesario (y tambi´n en algunas
                                                                                 e
ocasiones en que no parece que no lo es). Por ejemplo, si escribe
       > z <- 0:9
y a continuaci´n escribe
                o
       > digitos <- as.character(z)
el vector digitos ser´ el vector de caracteres ("0", "1", "2", ..., "9"). Si a continua-
                       a
ci´n aplica un nuevo cambio de modo
  o
       > d <- as.integer(digitos)
R reconstruir´ el vector num´rico de nuevo y, en este caso, d y z coinciden.2 Existe una
               a               e
colecci´n completa de funciones de la forma as.lo-que-sea(), tanto para forzar el cambio de
       o
 1
     El modo num´rico consiste realmente en dos modos distintos, integer (entero) y double (doble precisi´n).
                   e                                                                                     o
 2
     En general, al forzar el cambio de num´rico a car´cter y de nuevo a num´rico, no se obtienen los mismos
                                             e          a                   e
     resultados, debido, entre otros, a los errores de redondeo.
Cap´
   ıtulo 3: Objetos: Modos y atributos                                                   15



modo, como para asignar un atributo a un objeto que carece de ´l. Es aconsejable consultar
                                                              e
la ayuda para familiarizarse con estas funciones.

3.2 Modificaci´n de la longitud de un objeto
             o
   Un objeto, aunque est´ “vac´ tiene modo. Por ejemplo,
                          e     ıo”,
       > v <- numeric()
almacena en v una estructura vac´ de vector num´rico. Del mismo modo, character() es
                                  ıa              e
un vector de caracteres vac´ y lo mismo ocurre con otros tipos. Una vez creado un objeto
                            ıo,
con un tama˜o cualquiera, pueden a˜adirse nuevos elementos sin m´s que asignarlos a un
             n                        n                               a
´
ındice que est´ fuera del rango previo.Por ejemplo,
                e
       > v[3] <- 17
transforma v en un vector de longitud 3, (cuyas dos primeras componentes ser´n NA). Esta
                                                                               a
regla se aplica a cualquier estructura, siempre que los nuevos elementos sean compatibles
con el modo inicial de la estructura.
   Este ajuste autom´tico de la longitud de un objeto se utiliza a menudo, por ejemplo en la
                      a
funci´n scan() para entrada de datos. (V´ase Secci´n 7.2 [La funcion scan()], p´gina 34.)
     o                                     e        o                             a
   An´logamente, puede reducirse la longitud de un objeto sin m´s que realizar una nueva
       a                                                           a
asignaci´n. Si, por ejemplo, alfa es un objeto de longitud 10, entonces
         o
       > alfa <- alfa[2 * 1:5]
lo transforma en un objeto de longitud 5 formado por los elementos de posici´n par del
                                                                                  o
objeto inicial.

3.3 Obtenci´n y modificaci´n de atributos
           o             o
    La funci´n attributes(objeto) proporciona una lista de todos los atributos no
             o
intr´
    ınsecos definidos para el objeto en ese momento. La funci´n attr(objeto, nombre)
                                                                 o
puede usarse para seleccionar un atributo espec´    ıfico. Estas funciones no se utilizan
habitualmente, sino que se reservan para la creaci´n de un nuevo atributo con fines
                                                       o
espec´ıficos, por ejemplo, para asociar una fecha de creaci´n o un operador con un objeto
                                                           o
de R. Sin embargo, es un concepto muy importante que no debe olvidar.
    La asignaci´n o eliminaci´n de atributos de un objeto debe realizarse con precauci´n, ya
               o             o                                                        o
que los atributos forman parte del sistema de objetos utilizados en R.
    Cuando se utiliza en la parte que recibe la asignaci´n, puede usarse para asociar un
                                                         o
nuevo atributo al objeto o para cambiar uno existente. Por ejemplo,
       > attr(z,"dim") <- c(10,10)
permite tratar z como si fuese una matriz de 10 × 10.

3.4 Clases de objetos
   Cada objeto pertenece a una clase, y ello permite utilizar en R programaci´n dirigida a
                                                                             o
objetos.
   Por ejemplo, si un objeto pertenece a la clase "data.frame", se imprimir´ de un modo
                                                                           a
especial; cuando le aplique la funci´n plot() ´sta mostrar´ un gr´fico de un tipo especial;
                                    o         e            a      a
Cap´
   ıtulo 3: Objetos: Modos y atributos                                                   16



y otras funciones gen´ricas, como summary(), producir´n un resultado especial; todo ello
                       e                                 a
en funci´n de la pertenencia a dicha clase.
         o
    Para eliminar temporalmente los efectos de la clase puede utilizar la funci´n unclass().
                                                                               o
Por ejemplo, si invierno pertenece a la clase "data.frame", entonces
       > invierno
escribe el objeto en la forma de la clase, parecida a una matriz, en tanto que
       > unclass(invierno)
lo imprime como una lista ordinaria. S´lo debe utilizar esta funci´n en situaciones muy
                                          o                           o
concretas, como, por ejemplo, si hace pruebas para comprender el concepto de clase y de
funci´n gen´rica.
     o      e
    Las clases y las funciones gen´ricas ser´n tratadas muy brevemente en la Secci´n 10.9
                                  e         a                                        o
[Orientacion a objetos], p´gina 54.
                           a
Cap´
   ıtulo 4: Factores Nominales y Ordinales                                                              17



4 Factores Nominales y Ordinales
   Un factor es un vector utilizado para especificar una clasificaci´n discreta de los elemen-
                                                                  o
tos de otro vector de igual longitud. En R existen factores nominales y factores ordinales.


4.1 Un ejemplo espec´
                    ıfico
   Suponga que dispone de una muestra de 30 personas de Australia1 de tal modo que su
estado o territorio se especifica mediante un vector de caracteres con las abreviaturas de los
mismos:
        > estado <- c("tas",         "sa",     "qld",    "nsw",    "nsw",    "nt", "wa", "wa",
                      "qld",         "vic",    "nsw",    "vic",    "qld",    "qld", "sa", "tas",
                      "sa",          "nt",     "wa",     "vic",    "qld",    "nsw", "nsw", "wa",
                      "sa",          "act",    "nsw",    "vic",    "vic",    "act")
   Recuerde que, para un vector de caracteres, la palabra “ordenado” indica que est´ en
                                                                                   a
orden alfab´tico.
           e
     Un factor se crea utilizando la funci´n factor():
                                          o
        > FactorEstado <- factor(estado)
     La funci´n print() trata a los factores de un modo distinto al de los vectores ordinarios:
             o
        > FactorEstado
         [1] tas sa qld nsw nsw nt wa wa qld vic nsw vic qld qld sa
        [16] tas sa nt wa vic qld nsw nsw wa sa act nsw vic vic act
        Levels: act nsw nt qld sa tas vic wa
     Puede utilizar la funci´n levels() para ver los niveles de un factor:
                            o
        > levels(FactorEstado)
        [1] "act" "nsw" "nt" "qld" "sa"                 "tas" "vic" "wa"

4.2 La funci´n tapply(). Variables desastradas (ragged
            o
    arrays)
   Como continuaci´n del ejemplo anterior, suponga que disponemos en otro vector de los
                    o
ingresos de las mismas personas (medidos con unas unidades apropiadas)
        > ingresos <- c(60, 49, 40, 61, 64, 60, 59, 54, 62, 69, 70, 42, 56,
                       61, 61, 61, 58, 51, 48, 65, 49, 49, 41, 48, 52, 46,
                       59, 46, 58, 43)
     Para calcular la media muestral para cada estado podemos usar la funci´n tapply():
                                                                           o
        > MediaIngresos <- tapply(ingresos, FactorEstado, mean)
que devuelve el vector de medias con las componentes etiquetadas con los niveles:

 1
     Para quienes no conocen la estructura administrativa de Australia, existen ocho estados y territorios
     en la misma: Australian Capital Territory, New South Wales, Northern Territory, Queensland, South
     Australia, Tasmania, Victoria, y Western Australia; y sus correspondientes abreviaturas son: act, nsw,
     nt, qld, sa, tas, vic, y wa.
Cap´
   ıtulo 4: Factores Nominales y Ordinales                                                        18



        > MediaIngresos
           act       nsw       nt     qld      sa     tas      vic       wa
        44.500 57.333 55.500 53.600 55.000 60.500 56.000 52.250
    La funci´n tapply() aplica una funci´n, en este ejemplo la funci´n mean(), a cada grupo
            o                             o                          o
de componentes del primer argumento, en este ejemplo ingresos, definidos por los niveles
del segundo argumento, en este ejemplo FactorEstado, como si cada grupo fuese un vector
por s´ solo. El resultado es una estructura cuya longitud es el n´mero de niveles del factor.
      ı                                                           u
Puede consultar la ayuda para obtener m´s detalles.
                                            a
    Suponga que ahora desea calcular las desviaciones t´ ıpicas de las medias de ingresos por
estados. Para ello es necesario escribir una funci´n en R que calcule la desviaci´n t´
                                                   o                              o ıpica de
un vector. Aunque a´n no se ha explicado en este texto c´mo escribir funciones2 , puede
                        u                                     o
admitir que existe la funci´n var() que calcula la varianza muestral o cuasi-varianza, y que
                             o
la funci´n buscada puede construirse con la asignaci´n:
         o                                            o
        > StdErr <- function(x) sqrt(var(x)/length(x))
Ahora puede calcular los valores buscados mediante
        > ErrorTipicoIngresos <- tapply(ingresos, FactorEstado, StdErr)
con el siguiente resultado:
        > ErrorTipicoIngresos
              act         nsw         nt       qld         sa        tas        vic        wa
        1.500000 4.310195 4.500000 4.106093 2.738613 0.500000 5.244044 2.657536
    Como ejercicio puede calcular el intervalo de confianza al 95% de la media de ingresos por
estados. Para ello puede utilizar la funci´n tapply(), la funci´n length() para calcular los
                                          o                     o
tama˜os muestrales, y la funci´n qt() para encontrar los percentiles de las distribuciones t
      n                           o
de Student correspondientes.
    La funci´n tapply() puede utilizarse para aplicar una funci´n a un vector indexado por
             o                                                    o
diferentes categor´ simult´neamente. Por ejemplo, para dividir la muestra tanto por el
                    ıas        a
estado como por el sexo. Los elementos del vector se dividir´n en grupos correspondientes
                                                               a
a las distintas categor´ y se aplicar´ la funci´n a cada uno de dichos grupos. El resultado
                         ıas           a        o
es una variable indexada etiquetada con los niveles de cada categor´  ıa.
                                    3
    La combinaci´n de un vector con un factor para etiquetarlo, es un ejemplo de lo que se
                  o
llama variable indexada desastrada (ragged array) puesto que los tama˜os de las subclases
                                                                          n
son posiblemente irregulares. Cuando estos tama˜os son iguales la indexaci´n puede hacerse
                                                   n                          o
impl´ıcitamente y adem´s m´s eficientemente, como veremos a continuaci´n.
                          a    a                                            o

4.3 Factores ordinales
   Los niveles de los factores se almacenan en orden alfab´tico, o en el orden en que se
                                                               e
especificaron en la funci´n factor si ello se hizo expl´
                         o                              ıcitamente.
   A veces existe una ordenaci´n natural en los niveles de un factor, orden que deseamos
                                 o
tener en cuenta en los an´lisis estad´
                          a          ısticos. La funci´n ordered() crea este tipo de factores
                                                      o
y su uso es id´ntico al de la funci´n factor. Los factores creados por la funci´n factor los
              e                    o                                           o
denominaremos nominales o simplemente factores cuando no haya lugar a confusi´n, y los
                                                                                    o
 2
     La escritura de funciones ser´ tratada en Cap´
                                  a               ıtulo 10 [Escritura de funciones], p´gina 46.
                                                                                      a
 3
     En general de una variable indexada
Cap´
   ıtulo 4: Factores Nominales y Ordinales                                               19



creados por la funci´n ordered() los denominaremos ordinales. En la mayor´ de los casos
                    o                                                         ıa
la unica diferencia entre ambos tipos de factores consiste en que los ordinales se imprimen
   ´
indicando el orden de los niveles. Sin embargo los contrastes generados por los dos tipos de
factores al ajustar Modelos lineales, son diferentes.
Cap´
   ıtulo 5: Variables indexadas. Matrices                                                     20



5 Variables indexadas. Matrices

5.1 Variables indexadas (Arrays)
    Una variable indexada (array) es una colecci´n de datos, por ejemplo num´ricos, inde-
                                                    o                                e
xada por varios ´ ındices. R permite crear y manipular variables indexadas en general y en
particular, matrices.
    Un vector de dimensiones es un vector de n´meros enteros positivos. Si su longitud es k
                                                  u
entonces la variable indexada correspondiente es k–dimensional. Los elementos del vector
de dimensiones indican los l´ ımites superiores de los k ´
                                                         ındices. Los l´ımites inferiores siempre
valen 1.
    Un vector puede transformarse en una variable indexada cuando se asigna un vector
de dimensiones al atributo dim. Supongamos, por ejemplo, que z es un vector de 1500
elementos. La asignaci´n o
       > dim(z) <- c(3,5,100)
hace que R considere a z como una variable indexada de dimensi´n 3 × 5 × 100.
                                                                      o
    Existen otras funciones, como matrix() y array(), que permiten asignaciones m´s            a
sencillas y naturales, como se ver´ en la Secci´n 5.4 [La funcion array()], p´gina 22.
                                    a            o                               a
    Los elementos del vector pasan a formar parte de la variable indexada siguiendo la regla1
de que el primer ´ ındice es el que se mueve m´s r´pido y el ultimo es el m´s lento.
                                                a a            ´               a
    Por ejemplo, si se define una variable indexada, a, con vector de dimensiones c(3,4,2),
la variable indexada tendr´ 3×4×2 = 24 elementos que se formar´n a partir de los elementos
                            a                                       a
originales en el orden a[1,1,1], a[2,1,1], ..., a[2,4,2], a[3,4,2].

5.2 Elementos de una variable indexada
    Un elemento de una variable indexada puede referirse dando el nombre de la variable y,
entre corchetes, los ´ ındices que lo refieren, separados por comas.
    En general, puede referir una parte de una variable indexada mediante una sucesi´n de o
vectores ´ındices, teniendo en cuenta que si un vector ´ındice es vac´ equivale a utilizar todo
                                                                      ıo,
el rango de valores para dicho ´  ındice.
    As´ en el ejemplo anterior, a[2,,] es una variable indexada 4×2, con vector de dimensi´n
       ı,                                                                                    o
c(4,2) y sus elementos son
       c(a[2,1,1], a[2,2,1], a[2,3,1], a[2,4,1],
          a[2,1,2], a[2,2,2], a[2,3,2], a[2,4,2])
en ese orden. A su vez, a[,,] equivale a la variable completa, que coincide con omitir
completamente los ´   ındices y utilizar simplemente a.
    Para cualquier variable indexada, por ejemplo Z, el vector de dimensi´n puede referirse
                                                                             o
expl´ıcitamente mediante dim(Z) (en cualquiera de las dos partes de una asignaci´n).  o
    Asimismo, si especifica una variable indexada con un solo ´      ındice o vector ´
                                                                                    ındice, s´lo
                                                                                             o
se utilizan los elementos correspondientes del vector de datos, y el vector de dimensi´n se
                                                                                          o
ignora. En caso de que el ´   ındice no sea un vector, sino a su vez una variable indexada, el
tratamiento es distinto, como ahora veremos.
 1
     Esta regla es la que se utiliza en el lenguaje   Fortran
Cap´
   ıtulo 5: Variables indexadas. Matrices                                                  21



5.3 Uso de variables indexadas como ´
                                    ındices
   Una variable indexada puede utilizar no s´lo un vector de ´
                                              o                 ındices, sino incluso una
variable indexada de ´ındices, tanto para asignar un vector a una colecci´n irregular de
                                                                           o
elementos de una variable indexada como para extraer una colecci´n irregular de elementos.
                                                                o
  Veamos un ejemplo sobre una matriz, que es una variable indexada con dos ´          ındices.
Puede construirse un ´ındice matricial consistente en dos columnas y varias filas. Los ele-
mentos del ´
           ındice matricial son los ´
                                    ındices fila y columna para construir la matriz de ´
                                                                                      ındices.
Supongamos que X es una variable indexada 4 × 5 y que desea hacer lo siguiente:
 • Extraer los elementos X[1,3], X[2,2] y X[3,1] con una estructura de vector, y
 • Reemplazar dichos elementos de X con ceros.
                                          ındices de 3 × 2 como en el siguiente ejemplo.
   Para ello puede utilizar una matriz de ´
      > x <- array(1:20,dim=c(4,5))   # Genera una variable indexada (4 × 5).
      > x
           [,1] [,2] [,3] [,4] [,5]
      [1,]    1    5    9   13   17
      [2,]    2    6   10   14   18
      [3,]    3    7   11   15   19
      [4,]    4    8   12   16   20
      > i <- array(c(1:3,3:1),dim=c(3,2))
      > i                                                  ındices (3 × 2).
                                      # i es una matriz de ´
           [,1] [,2]
      [1,]    1    3
      [2,]    2    2
      [3,]    3    1
      > x[i]                          # Extrae los elementos.
      [1] 9 6 3
      > x[i] <- 0                     # Sustituye los elementos por ceros.
      > x
           [,1] [,2] [,3] [,4] [,5]
      [1,]    1    5    0   13   17
      [2,]    2    0   10   14   18
      [3,]    0    7   11   15   19
      [4,]    4    8   12   16   20
      >
   Un ejemplo algo m´s complejo consiste en generar la matriz de dise˜o de un dise˜o en
                     a                                               n              n
bloques definido por dos factores, bloques (niveles b) y variedades (niveles v), siendo el
n´mero de parcelas n. Puede hacerlo del siguiente modo:
 u
      >   Xb <- matrix(0, n, b)
      >   Xv <- matrix(0, n, v)
      >   ib <- cbind(1:n, bloques)
      >   iv <- cbind(1:n, variedades)
      >   Xb[ib] <- 1
      >   Xv[iv] <- 1
      >   X <- cbind(Xb, Xv)
   Adem´s, puede construir la matriz de incidencia, N, mediante
       a
Cap´
   ıtulo 5: Variables indexadas. Matrices                                                   22



     > N <- crossprod(Xb, Xv)
   Tambi´n puede construirla directamente mediante la funci´n table():
        e                                                  o
     > N <- table(bloques, variedades)

5.4 La funci´n array()
            o
   Una variable indexada no s´lo puede construirse modificando el atributo dim de un
                                 o
vector, sino tambi´n directamente mediante la funci´n array, que tiene la forma
                   e                                  o
      > Z <- array(vector de datos,vector de dimensiones)
   Por ejemplo, si el vector h contiene 24 n´meros (o incluso menos), la orden
                                             u
      > Z <- array(h, dim=c(3,4,2))
usa h para almacenar en Z una variable indexada de dimensi´n 3 × 4 × 2. Si el tama˜o de
                                                                o                         n
h es exactamente 24, el resultado coincide con el de
      > dim(Z) <- c(3,4,2)
   Sin embargo, si h es m´s corto de 24, sus valores se repiten desde el principio tantas veces
                          a
como sea necesario para obtener 24 elementos. (v´ase Secci´n 5.4.1 [Reciclado], p´gina 22).
                                                   e          o                      a
El caso extremo, muy com´n, corresponde a un vector de longitud 1, como en este ejemplo
                            u
      > Z <- array(0, c(3,4,2))
en que Z es una variable indexada compuesta enteramente de ceros.
   Adem´s, dim(Z), el vector de dimensiones, es el vector c(3,4,2), Z[1:24], es un vector
          a
de datos que coincide con h, y tanto Z[], con ´    ındice vac´ como Z, sin ´
                                                              ıo,               ındices, son la
variable indexada con estructura de variable indexada.
   Las variables indexadas pueden utilizarse en expresiones aritm´ticas y el resultado es una
                                                                   e
variable indexada formada a partir de las operaciones elemento a elemento de los vectores
subyacentes. Los atributos dim de los operandos deben ser iguales en general y coincidir´n   a
con el vector de dimensiones del resultado. As´ pues, si A, B y C son variables indexadas
                                                 ı
similares, entonces
      > D <- 2*A*B + C + 1
almacena en D una variable indexada similar, cuyo vector de datos es el resultado de las
operaciones indicadas sobre los vectores de datos subyacentes a A, B y C. Las reglas exactas
correspondientes a los c´lculos en que se mezclan variables indexadas y vectores deben ser
                        a
estudiadas con detenimiento.

5.4.1 Operaciones con variables indexadas y vectores. Reciclado.
    Cuando se realizan operaciones que mezclan variables indexadas y vectores, se siguen
los siguientes criterios:
  • La expresi´n se analiza de izquierda a derecha.
                o
  • Si un vector es m´s corto que otro, se extiende repitiendo sus elementos (lo que se
                          a
     denomina reciclado) hasta alcanzar el tama˜o del vector m´s largo.
                                                n             a
  • Si s´lo hay variables indexadas y vectores m´s cortos, las variables indexadas deben
         o                                        a
     tener el mismo atributo dim, o se producir´ un error.
                                               a
  • Si hay un vector m´s largo que una variable indexada anterior, se produce un mensaje
                          a
     de error.
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R
Introducción a R

More Related Content

What's hot (18)

Documentacion age
Documentacion ageDocumentacion age
Documentacion age
 
Metodologia Hefesto - Business Intelligence
Metodologia Hefesto - Business IntelligenceMetodologia Hefesto - Business Intelligence
Metodologia Hefesto - Business Intelligence
 
Dr Geo
Dr GeoDr Geo
Dr Geo
 
Datawarehouse hefesto
Datawarehouse hefestoDatawarehouse hefesto
Datawarehouse hefesto
 
Hefesto v2.1
Hefesto v2.1Hefesto v2.1
Hefesto v2.1
 
Psu Matematica
Psu MatematicaPsu Matematica
Psu Matematica
 
Gulp 0.11
Gulp 0.11Gulp 0.11
Gulp 0.11
 
Combinación de acciones
Combinación de accionesCombinación de acciones
Combinación de acciones
 
39702397 matematicas-discretas
39702397 matematicas-discretas39702397 matematicas-discretas
39702397 matematicas-discretas
 
43392462 analisis-matematico-ii-derivacion-de-funciones-de-varias-variables
43392462 analisis-matematico-ii-derivacion-de-funciones-de-varias-variables43392462 analisis-matematico-ii-derivacion-de-funciones-de-varias-variables
43392462 analisis-matematico-ii-derivacion-de-funciones-de-varias-variables
 
Algebra lineal
Algebra linealAlgebra lineal
Algebra lineal
 
Penduloinvertido
PenduloinvertidoPenduloinvertido
Penduloinvertido
 
Matematicas en ingenieria_con_matlab_y_o
Matematicas en ingenieria_con_matlab_y_oMatematicas en ingenieria_con_matlab_y_o
Matematicas en ingenieria_con_matlab_y_o
 
Java a tope
Java a topeJava a tope
Java a tope
 
Algoritmos
AlgoritmosAlgoritmos
Algoritmos
 
Guia de matematicas
Guia de matematicasGuia de matematicas
Guia de matematicas
 
Calculo diferencial
Calculo diferencialCalculo diferencial
Calculo diferencial
 
Matematica Discreta
Matematica DiscretaMatematica Discreta
Matematica Discreta
 

Viewers also liked

La web 2 0
La web 2 0La web 2 0
La web 2 0Syacchi
 
La revista 147 final
La revista 147 finalLa revista 147 final
La revista 147 finalperla1000
 
Manejo de y para la web
Manejo de y para la webManejo de y para la web
Manejo de y para la webguest4d07ec3
 
Mesa 2.-Ahome
Mesa 2.-AhomeMesa 2.-Ahome
Mesa 2.-AhomeCeaipes
 
Playstation 3 (Ps3) Victor
Playstation 3 (Ps3) Victor Playstation 3 (Ps3) Victor
Playstation 3 (Ps3) Victor ProfGilson Malta
 
Catalogo fotografia - I Concurso Fotografia Olhão - Centro Histórico
Catalogo fotografia - I Concurso Fotografia Olhão - Centro HistóricoCatalogo fotografia - I Concurso Fotografia Olhão - Centro Histórico
Catalogo fotografia - I Concurso Fotografia Olhão - Centro HistóricoPedro Nascimento
 
As Fotografias Mais Porcas
As Fotografias Mais PorcasAs Fotografias Mais Porcas
As Fotografias Mais PorcastDam
 
Isis Delbene - França
Isis Delbene -  FrançaIsis Delbene -  França
Isis Delbene - FrançaBeni
 
revisa enfoque 150
revisa enfoque 150revisa enfoque 150
revisa enfoque 150perla1000
 
Relacionamento & Account Control
Relacionamento & Account ControlRelacionamento & Account Control
Relacionamento & Account ControlAugusto Pinto
 
TaviraBikeRace2013_2h_temposintermedios
TaviraBikeRace2013_2h_temposintermediosTaviraBikeRace2013_2h_temposintermedios
TaviraBikeRace2013_2h_temposintermediosPedro Nascimento
 
Ferramentas Colaborativas
Ferramentas ColaborativasFerramentas Colaborativas
Ferramentas ColaborativasEwout ter Haar
 

Viewers also liked (20)

Amir E Bruno
Amir   E    BrunoAmir   E    Bruno
Amir E Bruno
 
La web 2 0
La web 2 0La web 2 0
La web 2 0
 
La revista 147 final
La revista 147 finalLa revista 147 final
La revista 147 final
 
DXN VENEZUELA
DXN VENEZUELADXN VENEZUELA
DXN VENEZUELA
 
Manejo de y para la web
Manejo de y para la webManejo de y para la web
Manejo de y para la web
 
Mesa 2.-Ahome
Mesa 2.-AhomeMesa 2.-Ahome
Mesa 2.-Ahome
 
Playstation 3 (Ps3) Victor
Playstation 3 (Ps3) Victor Playstation 3 (Ps3) Victor
Playstation 3 (Ps3) Victor
 
Catalogo fotografia - I Concurso Fotografia Olhão - Centro Histórico
Catalogo fotografia - I Concurso Fotografia Olhão - Centro HistóricoCatalogo fotografia - I Concurso Fotografia Olhão - Centro Histórico
Catalogo fotografia - I Concurso Fotografia Olhão - Centro Histórico
 
As Fotografias Mais Porcas
As Fotografias Mais PorcasAs Fotografias Mais Porcas
As Fotografias Mais Porcas
 
Isis Delbene - França
Isis Delbene -  FrançaIsis Delbene -  França
Isis Delbene - França
 
revisa enfoque 150
revisa enfoque 150revisa enfoque 150
revisa enfoque 150
 
ApresentaçãO Nathan
ApresentaçãO NathanApresentaçãO Nathan
ApresentaçãO Nathan
 
Eu E Meus Amigos!!!!!
Eu   E   Meus   Amigos!!!!!Eu   E   Meus   Amigos!!!!!
Eu E Meus Amigos!!!!!
 
Renata
RenataRenata
Renata
 
Relacionamento & Account Control
Relacionamento & Account ControlRelacionamento & Account Control
Relacionamento & Account Control
 
Parte de prensa
Parte de prensaParte de prensa
Parte de prensa
 
ApresentaçãO Naruto
ApresentaçãO NarutoApresentaçãO Naruto
ApresentaçãO Naruto
 
Marta
MartaMarta
Marta
 
TaviraBikeRace2013_2h_temposintermedios
TaviraBikeRace2013_2h_temposintermediosTaviraBikeRace2013_2h_temposintermedios
TaviraBikeRace2013_2h_temposintermedios
 
Ferramentas Colaborativas
Ferramentas ColaborativasFerramentas Colaborativas
Ferramentas Colaborativas
 

Similar to Introducción a R

Similar to Introducción a R (20)

Introducción al r
Introducción al rIntroducción al r
Introducción al r
 
Vba excel mnumericos1
Vba excel mnumericos1Vba excel mnumericos1
Vba excel mnumericos1
 
Vba excel mnumericos
Vba excel mnumericosVba excel mnumericos
Vba excel mnumericos
 
Vba excel numericos
Vba excel numericosVba excel numericos
Vba excel numericos
 
ApuntesC++.pdf
ApuntesC++.pdfApuntesC++.pdf
ApuntesC++.pdf
 
Compiladores
CompiladoresCompiladores
Compiladores
 
MANUAL DE LENGUAJE C
MANUAL DE LENGUAJE CMANUAL DE LENGUAJE C
MANUAL DE LENGUAJE C
 
52811100 manual-sp
52811100 manual-sp52811100 manual-sp
52811100 manual-sp
 
Linux benchmarking como
Linux benchmarking comoLinux benchmarking como
Linux benchmarking como
 
Practica5 bash prog-intro-como
Practica5 bash prog-intro-comoPractica5 bash prog-intro-como
Practica5 bash prog-intro-como
 
Introduccion al lenguaje c
Introduccion al lenguaje cIntroduccion al lenguaje c
Introduccion al lenguaje c
 
Algoritmos programacion-python
Algoritmos programacion-pythonAlgoritmos programacion-python
Algoritmos programacion-python
 
Algoritmos programacion-python
Algoritmos programacion-pythonAlgoritmos programacion-python
Algoritmos programacion-python
 
Algoritmos y programacion_i_-_con_lengua
Algoritmos y programacion_i_-_con_lenguaAlgoritmos y programacion_i_-_con_lengua
Algoritmos y programacion_i_-_con_lengua
 
Grafi3
Grafi3Grafi3
Grafi3
 
El Arte de Programar en R
El Arte de Programar en REl Arte de Programar en R
El Arte de Programar en R
 
El arte de programar en r
El arte de programar en rEl arte de programar en r
El arte de programar en r
 
Santana el arte_de_programar_en_r
Santana el arte_de_programar_en_rSantana el arte_de_programar_en_r
Santana el arte_de_programar_en_r
 
Tutorial xhtml y css
Tutorial xhtml y cssTutorial xhtml y css
Tutorial xhtml y css
 
Introduccion poo con_java
Introduccion poo con_javaIntroduccion poo con_java
Introduccion poo con_java
 

Introducción a R

  • 1. Introducci´n a R o Notas sobre R: Un entorno de programaci´n para An´lisis de Datos y Gr´ficos o a a Versi´n 1.0.1 (2000-05-16) o R Development Core Team
  • 2. Copyright c 1990, 1992 W. Venables Copyright c 1997, R. Gentleman & R. Ihaka Copyright c 1997, 1998 M. M¨chlera Copyright c 2000, Andr´s Gonz´lez y Silvia Gonz´lez e a a Copyright c 1999, 2000 R Development Core Team Se autoriza la realizaci´n y distribuci´n de copias literales de este manual, siempre y cuando o o las advertencias del copyright y de este permiso se conserven en todas las copias. Se autoriza la realizaci^^f3n y distribuci´n de copias modificadas de este manual, en las mis- o mas condiciones de las copias literales, siempre y cuando la totalidad del trabajo resultante se distribuya bajo los t´rminos de una advertencia de permiso id^^e9ntica a esta. e Se autoriza la realizaci^^f3n y distribuci´n de traducciones de este manual a otros idiomas, o en las mismas condiciones de las copias modificadas, siempre y cuando la traducci´n de la o advertencia de este permiso sea aprobada por el Equipo Central de Desarrollo de R.
  • 3. i ´ Indice General Pr´logo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 o 1 Introducci´n y Preliminares . . . . . . . . . . . . . . . . 2 o 1.1 El entorno R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Programas relacionados. Documentaci´n . . . . . . . . . . . . . . . . . . o 2 1.3 Estad´ıstica con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.4 R en un sistema de ventanas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.5 Utilizaci´n interactiva de R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 3 1.6 Una sesi´n inicial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 4 1.7 Ayuda sobre funciones y capacidades . . . . . . . . . . . . . . . . . . . . . 4 1.8 ´ Ordenes de R. May´sculas y min´sculas. . . . . . . . . . . . . . . . . . . u u 5 1.9 Recuperaci´n y correcci´n de ´rdenes previas . . . . . . . . . . . . . . o o o 5 1.10 Ejecuci´n de ´rdenes desde un archivo y redirecci´n de la o o o salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.11 Almacenamiento y eliminaci´n de objetos . . . . . . . . . . . . . . . . o 6 2 C´lculos sencillos. N´ meros y vectores . . . . . . 7 a u 2.1 Vectores (num´ricos). Asignaci´n . . . . . . . . . . . . . . . . . . . . . . . . . 7 e o 2.2 Aritm´tica vectorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 e 2.3 Generaci´n de sucesiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 o 2.4 Vectores l´gicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 o 2.5 Valores faltantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.6 Vectores de caracteres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.7 Vectores de ´ ındices. Selecci´n y modificaci´n de subvectores o o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.8 Clases de objetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3 Objetos: Modos y atributos . . . . . . . . . . . . . . . 14 3.1 Atributos intr´ ınsecos: modo y longitud . . . . . . . . . . . . . . . . . . . 14 3.2 Modificaci´n de la longitud de un objeto . . . . . . . . . . . . . . . . . o 15 3.3 Obtenci´n y modificaci´n de atributos . . . . . . . . . . . . . . . . . . . o o 15 3.4 Clases de objetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 4 Factores Nominales y Ordinales. . . . . . . . . . . . 17 4.1 Un ejemplo espec´ ıfico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4.2 La funci´n tapply(). Variables desastradas (ragged arrays) o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4.3 Factores ordinales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
  • 4. ii 5 Variables indexadas. Matrices . . . . . . . . . . . . . 20 5.1 Variables indexadas (Arrays) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 5.2 Elementos de una variable indexada . . . . . . . . . . . . . . . . . . . . . 20 5.3 Uso de variables indexadas como ´ ındices . . . . . . . . . . . . . . . . . 21 5.4 La funci´n array() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 o 5.4.1 Operaciones con variables indexadas y vectores. Reciclado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 5.5 Producto exterior de dos variables indexadas . . . . . . . . . . . . . 23 Ejemplo: Distribuci´n del determinante de una matriz de o d´ıgitos de 2 × 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 5.6 Traspuesta generalizada de una variable indexada . . . . . . . . . 24 5.7 Operaciones con matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 5.7.1 Producto matricial. Inversa de una matriz. Resoluci´n de sistemas lineales . . . . . . . . . . . . . . . . . . . . 24 o 5.7.2 Autovalores y autovectores . . . . . . . . . . . . . . . . . . . . . 25 5.7.3 Descomposici´n en valores singulares. Determinantes o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 5.7.4 Ajuste por m´ ınimos cuadrados. Descomposici´n QR o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 5.8 Submatrices. Funciones cbind() y rbind(). . . . . . . . . . . . . . 26 5.9 La funci´n de concatenaci´n, c(), con variables indexadas o o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 5.10 Tablas de frecuencias a partir de factores. . . . . . . . . . . . . . . . 27 6 Listas y hojas de datos . . . . . . . . . . . . . . . . . . . . 28 6.1 Listas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 6.2 Construcci´n y modificaci´n de listas . . . . . . . . . . . . . . . . . . . . o o 29 6.2.1 Concatenaci´n de listas . . . . . . . . . . . . . . . . . . . . . . . . o 29 6.3 Hojas de datos (Data frames) . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 6.3.1 Construcci´n de hojas de datos . . . . . . . . . . . . . . . . . o 29 6.3.2 Funciones attach() y detach() . . . . . . . . . . . . . . . . 30 6.3.3 Trabajo con hojas de datos . . . . . . . . . . . . . . . . . . . . . 31 6.3.4 Conexi´n de listas arbitrarias . . . . . . . . . . . . . . . . . . . o 31 6.3.5 Gesti´n de la trayectoria de b´squeda . . . . . . . . . . . o u 31 7 Lectura de datos de un archivo . . . . . . . . . . . . 33 7.1 La funci´n read.table() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 33 7.2 La funci´n scan() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 34 7.3 Acceso a datos internos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 7.3.1 Acceso a datos de una biblioteca . . . . . . . . . . . . . . . . 35 7.4 Edici´n de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 36 7.5 C´mo importar datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 36 8 Distribuciones probabil´ ısticas . . . . . . . . . . . . . . 37 8.1 Tablas estad´ ısticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 8.2 Estudio de la distribuci´n de unos datos . . . . . . . . . . . . . . . . . 38 o 8.3 Contrastes de una y de dos muestras . . . . . . . . . . . . . . . . . . . . . 41
  • 5. iii 9 Ciclos. Ejecuci´n condicional . . . . . . . . . . . . . . 44 o 9.1 Expresiones agrupadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 ´ 9.2 Ordenes de control . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 9.2.1 Ejecuci´n condicional: la orden if . . . . . . . . . . . . . . o 44 ´ 9.2.2 Ciclos: Ordenes for, repeat y while . . . . . . . . . . . 44 10 Escritura de nuevas funciones . . . . . . . . . . . . 46 10.1 Ejemplos elementales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 10.2 C´mo definir un operador binario. . . . . . . . . . . . . . . . . . . . . . . 47 o 10.3 Argumentos con nombre. Valores predeterminados . . . . . . . 47 10.4 El argumento ‘...’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 10.5 Asignaciones dentro de una funci´n . . . . . . . . . . . . . . . . . . . . . 48 o 10.6 Ejemplos m´s complejos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 a 10.6.1 Factores de eficiencia en dise˜o en bloques . . . . . . 49 n 10.6.2 C´mo eliminar los nombres al imprimir una variable o indexada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 10.6.3 Integraci´n num´rica recursiva . . . . . . . . . . . . . . . . . 50 o e ´ 10.7 Ambito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 10.8 Personalizaci´n del entorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 o 10.9 Clases. Funciones gen´ricas. Orientaci´n a objetos . . . . . . . 54 e o 11 Modelos estad´ ısticos en R . . . . . . . . . . . . . . . . 55 11.1 Definici´n de modelos estad´ o ısticos. F´rmulas . . . . . . . . . . . . 55 o 11.1.1 Contrastes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 11.2 Modelos lineales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 11.3 Funciones gen´ricas de extracci´n de informaci´n del modelo e o o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 11.4 An´lisis de varianza. Comparaci´n de modelos . . . . . . . . . . 60 a o 11.4.1 Tablas ANOVA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 11.5 Actualizaci´n de modelos ajustados . . . . . . . . . . . . . . . . . . . . . 61 o 11.6 Modelos lineales generalizados . . . . . . . . . . . . . . . . . . . . . . . . . . 61 11.6.1 Familias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 11.6.2 La funci´n glm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 o 11.7 Modelos de M´ ınimos cuadrados no lineales y de M´xima a verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 11.7.1 M´ ınimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 11.7.2 M´xima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . 67 a 11.8 Algunos modelos no-est´ndar . . . . . . . . . . . . . . . . . . . . . . . . . . 67 a
  • 6. iv 12 Procedimientos gr´ficos . . . . . . . . . . . . . . . . . . 69 a 12.1 Funciones gr´ficas de nivel alto . . . . . . . . . . . . . . . . . . . . . . . . . 69 a 12.1.1 La funci´n plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 o 12.1.2 Representaci´n de datos multivariantes . . . . . . . . . 70 o 12.1.3 Otras representaciones gr´ficas . . . . . . . . . . . . . . . . 70 a 12.1.4 Argumentos de las funciones gr´ficas de nivel alto a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 12.2 Funciones gr´ficas de nivel bajo . . . . . . . . . . . . . . . . . . . . . . . . 72 a 12.2.1 Anotaciones matem´ticas . . . . . . . . . . . . . . . . . . . . . 74 a 12.2.2 Fuentes vectoriales Hershey. . . . . . . . . . . . . . . . . . . . 74 12.3 Funciones gr´ficas interactivas . . . . . . . . . . . . . . . . . . . . . . . . . . 74 a 12.4 Uso de par´metros gr´ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 a a 12.4.1 Cambios permanentes. La funci´n par() . . . . . . . 76 o 12.4.2 Cambios temporales. Argumentos de las funciones gr´ficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 a 12.5 Par´metros gr´ficos habituales . . . . . . . . . . . . . . . . . . . . . . . . . 76 a a 12.5.1 Elementos gr´ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 a 12.5.2 Ejes y marcas de divisi´n. . . . . . . . . . . . . . . . . . . . . . 78 o 12.5.3 M´rgenes de las figuras . . . . . . . . . . . . . . . . . . . . . . . 78 a 12.5.4 Figuras m´ltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 u 12.6 Dispositivos gr´ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 a 12.6.1 Inclusi´n de gr´ficos PostScript en documentos . . 81 o a 12.6.2 Dispositivos gr´ficos m´ltiples . . . . . . . . . . . . . . . . . 82 a u 12.7 Gr´ficos din´micos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 a a Apendice A Primera sesi´n con R . . . . . . . . . . . 84 o Apendice B Ejecuci´n de R . . . . . . . . . . . . . . . . . 88 o B.1 Ejecuci´n de R en UNIX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 o B.2 Ejecuci´n de R en Microsoft Windows . . . . . . . . . . . . . . . . . . . 91 o Apendice C El editor de ´rdenes . . . . . . . . . . . . 93 o C.1 Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 C.2 Edici´n de acciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 o C.3 Resumen del editor de l´ ıneas de ´rdenes . . . . . . . . . . . . . . . . . 93 o Apendice D ´ Indice de funciones y variables. . . 95 Apendice E ´ Indice de conceptos . . . . . . . . . . . . . 98 Apendice F Referencias . . . . . . . . . . . . . . . . . . . . 100
  • 7. Pr´logo o 1 Pr´logo o Estas notas sobre R est´n escritas a partir de un conjunto de notas que describ´ los a ıan entornos S y S-Plus escritas por Bill Venables y Dave Smith. Hemos realizado un peque˜o n n´mero de cambios para reflejar las diferencias entre R y S. u R es un proyecto vivo y sus capacidades no coinciden totalmente con las de S. En estas notas hemos adoptado la convenci´n de que cualquier caracter´ o ıstica que se vaya a implementar se especifica como tal en el comienzo de la secci´n en que la caracter´ o ıstica es descrita. Los usuarios pueden contribuir al proyecto implementando cualquiera de ellas. Deseamos dar las gracias m´s efusivas a Bill Venables por permitir la distribuci´n de a o esta versi´n modificada de las notas y por ser un defensor de R desde su inicio. o Cualquier comentario o correcci´n ser´n siempre bienvenidos. Dirija cualquier correspon- o a dencia a R-core@r-project.org. Sugerencias al lector La primera relaci´n con R deber´ ser la sesi´n inicial del Apendice A [Ejemplo de sesion], o ıa o p´gina 84. Est´ escrita para que se pueda conseguir cierta familiaridad con el estilo de las a a sesiones de R y para comprobar que coincide con la versi´n actual. o Muchos usuarios eligen R fundamentalmente por sus capacidades gr´ficas. Si ese es su a caso, deber´ leer antes o despu´s el Cap´ ıa e ıtulo 12 [Graficos], p´gina 69, sobre capacidades a gr´ficas y para ello no es necesario esperar a haber asimilado totalmente las secciones a precedentes.
  • 8. Cap´ ıtulo 1: Introducci´n y Preliminares o 2 1 Introducci´n y Preliminares o 1.1 El entorno R R es un conjunto integrado de programas para manipulaci´n de datos, c´lculo y gr´ficos. o a a Entre otras caracter´ ısticas dispone de: • almacenamiento y manipulaci´n efectiva de datos, o • operadores para c´lculo sobre variables indexadas (Arrays), en particular matrices, a • una amplia, coherente e integrada colecci´n de herramientas para an´lisis de datos, o a • posibilidades gr´ficas para an´lisis de datos, que funcionan directamente sobre pantalla a a o impresora, y • un lenguaje de programaci´n bien desarrollado, simple y efectivo, que incluye o condicionales, ciclos, funciones recursivas y posibilidad de entradas y salidas. (Debe destacarse que muchas de las funciones suministradas con el sistema est´n escritas en a el lenguaje R) El t´rmino “entorno” lo caracteriza como un sistema completamente dise˜ado y co- e n herente, antes que como una agregaci´n incremental de herramientas muy espec´ o ıficas e inflexibles, como ocurre frecuentemente con otros programas de an´lisis de datos. a R es en gran parte un veh´ ıculo para el desarrollo de nuevos m´todos de an´lisis interactivo e a de datos. Como tal es muy din´mico y las diferentes versiones no siempre son totalmente a compatibles con las anteriores. Algunos usuarios prefieren los cambios debido a los nuevos m´todos y tecnolog´ que los acompa˜an, a otros sin embargo les molesta ya que alg´n c´digo e ıa n u o anterior deja de funcionar. Aunque R puede entenderse como un lenguaje de programaci´n, o los programas escritos en R deben considerarse esencialmente ef´ ımeros. 1.2 Programas relacionados. Documentaci´n o R puede definirse como una nueva implementaci´n del lenguaje S desarrollado en AT&T o por Rick Becker, John Chambers y Allan Wilks. Muchos de los libros y manuales sobre S son utiles para R. ´ La referencia b´sica es The New S Language: A Programming Environment for Data a Analysis and Graphics de Richard A. Becker, John M. Chambers and Allan R. Wilks. Las caracter´ısticas de la versi´n de agosto de 1991 de S est´n recogidas en Statistical Models o a in S editado por John M. Chambers y Trevor J. Hastie. V´ase Apendice F [Referencias], e p´gina 100, para referencias concretas. a 1.3 Estad´ ıstica con R En la introducci´n a R no se ha mencionado la palabra estad´ o ıstica, sin embargo muchas personas utilizan R como un sistema estad´ ıstico. Nosotros preferimos describirlo como un entorno en el que se han implementado muchas t´cnicas estad´ e ısticas, tanto cl´sicas como a modernas. Algunas est´n incluidas en el entorno base de R y otras se acompa˜an en a n forma de bibliotecas (packages). El hecho de distinguir entre ambos conceptos es funda- mentalmente una cuesti´n hist´rica. Junto con R se incluyen ocho bibliotecas (llamadas o o
  • 9. Cap´ ıtulo 1: Introducci´n y Preliminares o 3 bibliotecas est´ndar) pero otras muchas est´n disponibles a trav´s de Internet en CRAN a a e (http://www.r-project.org). Como hemos indicado, muchas t´cnicas estad´ e ısticas, desde las cl´sicas hasta la ultima a ´ metodolog´ est´n disponibles en R, pero los usuarios necesitar´n estar dispuestos a traba- ıa, a a jar un poco para poder encontrarlas. Existe una diferencia fundamental en la filosof´ que subyace en R (o S) y la de otros ıa sistemas estad´ısticos. En R, un an´lisis estad´ a ıstico se realiza en una serie de pasos, con unos resultados intermedios que se van almacenando en objetos, para ser observados o analizados posteriormente, produciendo unas salidas m´ ınimas. Sin embargo en SAS o SPSS se obtendr´ de modo inmediato una salida copiosa para cualquier an´lisis, por ejemplo, ıa a una regresi´n o un an´lisis discriminante. o a 1.4 R en un sistema de ventanas La forma m´s conveniente de usar R es en una estaci´n de trabajo con un sistema de a o ventanas. Estas notas est´n escritas pensando en usuarios de estas caracter´ a ısticas. En particular nos referiremos ocasionalmente a la utilizaci´n de R en un sistema X-window, o aunque normalmente se pueden aplicar a cualquier implementaci´n del entorno R. o Muchos usuarios encontrar´n necesario interactuar directamente con el sistema opera- a tivo de su ordenador de vez en cuando. En estas notas se trata fundamentalmente de la interacci´n con el sistema operativo UNIX. Si utiliza R bajo Microsoft Windows necesitar´ o a realizar algunos peque˜os cambios. n El ajuste del programa para obtener el m´ximo rendimiento de las cualidades parame- a trizables de R es una tarea interesante aunque tediosa y no se considerar´ en estas notas. a Si tiene dificultades busque a un experto cercano a usted. 1.5 Utilizaci´n interactiva de R o Cuando R espera la entrada de ´rdenes, presenta un s´ o ımbolo para indicarlo. El s´ ımbolo predeterminado es ‘>’, que en UNIX puede coincidir con el s´ ımbolo del sistema, por lo que puede parecer que no sucede nada. Si ese es su caso, sepa que es posible modificar este s´ ımbolo en R. En estas notas supondremos que el s´ ımbolo de UNIX es ‘$’. Para utilizar R bajo UNIX por primera vez, el procedimiento recomendado es el siguiente: 1. Cree un subdirectorio, por ejemplo ‘trabajo’, en el que almacenar los archivos de datos ´ que desee analizar mediante R. Este ser´ el directorio de trabajo cada vez que utilice a R para este problema concreto. $ mkdir trabajo $ cd trabajo 2. Inicie R con la orden $ R 3. Ahora puede escribir ´rdenes para R (como se hace m´s adelante). o a 4. Para salir de R la orden es > q()
  • 10. Cap´ ıtulo 1: Introducci´n y Preliminares o 4 R preguntar´ si desea salvar los datos de esta sesi´n de trabajo. Puede responder yes a o (Si), no (No) o cancel (cancelar) pulsando respectivamente las letras y, n o c, en cada uno de cuyos casos, respectivamente, salvar´ los datos antes de terminar, terminar´ a a sin salvar, o volver´ a la sesi´n de R. Los datos que se salvan estar´n disponibles en la a o a siguiente sesi´n de R. o Volver a trabajar con R es sencillo: 1. Haga que ‘trabajo’ sea su directorio de trabajo e inicie el programa como antes: $ cd trabajo $ R 2. D´ las ´rdenes que estime convenientes a R y termine la sesi´n con la orden q(). e o o Bajo Microsoft Windows el procedimiento a seguir es b´sicamente el mismo: Cree una a carpeta o directorio. Ejecute R haciendo doble click en el icono correspondiente. Seleccione New dentro del men´ File para indicar que desea iniciar un nuevo problema (lo que eliminar´ u a todos los objetos definidos dentro del espacio de trabajo) y a continuaci´n seleccione Save o dentro del men´ File para salvar esta imagen en el directorio que acaba de crear. Puede u comenzar ahora los an´lisis y cuando salga de R, ´ste le preguntar´ si desea salvar la imagen a e a en el directorio de trabajo. Para continuar con este an´lisis posteriormente basta con pulsar en el icono de la imagen a salvada, o bien puede ejecutar R y utilizar la opci´n Open dentro del men´ File para o u seleccionar y abrir la imagen salvada. 1.6 Una sesi´n inicial o Se recomienda a los lectores que deseen ver c´mo funciona R que realicen la sesi´n inicial o o dada en el Apendice A [Ejemplo de sesion], p´gina 84. a 1.7 Ayuda sobre funciones y capacidades R contiene una ayuda similar a la orden man de UNIX. Para obtener informaci´n sobre o una funci´n concreta, por ejemplo solve, la orden es o > help(solve) Una forma alternativa es > ?solve Con las funciones especificadas por caracteres especiales, el argumento deber´ ir entre a comillas, para transformarlo en una ”cadena de caracteres”: > help("[[") Podr´ utilizar tanto comillas simples como dobles, y cada una de ellas puede utilizarse a dentro de la otra, como en la frase "Dijo ’Hola y adi´s’ y se march´". En estas notas o o utilizaremos dobles comillas. En muchas versiones de R puede acceder a la ayuda escrita en formato html, escribiendo > help.start() que ejecuta un lector Web (Netscape en UNIX) para leer estas p´ginas como hipertextos. a En UNIX, las peticiones de ayuda posteriores se envir´n al sistema de ayuda basado en a html.
  • 11. Cap´ ıtulo 1: Introducci´n y Preliminares o 5 Las versiones de Microsoft Windows de R poseen otros sistemas de ayuda opcionales. Utilice > ?help para obtener detalles adicionales. ´ 1.8 Ordenes de R. May´ sculas y min´ sculas u u T´cnicamente hablando, R es un lenguaje de expresiones con una sintaxis muy simple. e Consecuente con sus or´ ıgenes en UNIX, distingue entre may´sculas y min´sculas, de tal u u modo que A y a son s´ ımbolos distintos y se referir´n, por tanto, a objetos distintos. a Las ´rdenes elementales consisten en expresiones o en asignaciones. Si una orden consiste o en una expresi´n, se eval´a, se imprime y su valor se pierde. Una asignaci´n, por el contrario, o u o eval´a una expresi´n, no la imprime y guarda su valor en una variable. u o Las ´rdenes se separan mediante punto y coma, (‘;’), o mediante un cambio de l´ o ınea. Si al terminar la l´ınea, la orden no est´ sint´cticamente completa, R mostrar´ un signo de a a a continuaci´n, por ejemplo o + en la l´ ınea siguiente y las sucesivas y continuar´ leyendo hasta que la orden est´ a e sint´cticamente completa. El signo de continuaci´n puede ser modificado f´cilmente. En a o a estas notas omitiremos generalmente el s´ ımbolo de continuaci´n y lo indicaremos mediante o un sangrado. 1.9 Recuperaci´n y correcci´n de ´rdenes previas o o o Bajo muchas versiones de UNIX, R permite recuperar y ejecutar ´rdenes previas. Las o flechas verticales del teclado puede utilizarse para recorrer el historial de ´rdenes. Cuando o haya recuperado una orden con este procedimiento, puede utilizar las flechas horizontales para desplazarse por ella, puede eliminar caracteres con la tecla DEL , o a˜adir nuevos ca- n racteres. M´s adelante se dar´n mayores detalles, v´ase Apendice C [El editor de ordenes], a a e p´gina 93. a La recuperaci´n y edici´n en UNIX pueden ser f´cilmente adaptadas. Para ello debe o o a buscar en el manual de UNIX la informaci´n sobre readline. o Tambi´n puede utilizar el editor de textos emacs para trabajar m´s c´modamente de e a o modo interactivo con R, mediante ESS.1 1.10 Ejecuci´n de ´rdenes desde un archivo y redirecci´n de o o o la salida Si tiene ´rdenes almacenadas en un archivo del sistema operativo, por ejemplo o ´rdenes.R, en el directorio de trabajo, trabajo, puede ejecutarlas dentro de una sesi´n o o de R con la orden > source("´rdenes.R") o En la versi´n de Microsoft Windows, Source tambi´n est´ disponible dentro del men´ o e a u File. Por otra parte, la orden sink, como por ejemplo en 1 Acr´nimo en ingl´s de Emacs Speaks Statistics. o e
  • 12. Cap´ ıtulo 1: Introducci´n y Preliminares o 6 > sink("resultado.lis") enviar´ el resto de la salida, en vez de a la pantalla, al archivo del sistema operativo, a resultado.lis, dentro del directorio de trabajo. La orden > sink() devuelve la salida de nuevo a la pantalla. Si utiliza nombres absolutos de archivo en vez de nombres relativos, los resultados se almacena´n en ellos, independientemente del directorio de trabajo. a 1.11 Almacenamiento y eliminaci´n de objetos o Las entidades que R crea y manipula se denominan objetos. Estos pueden ser de mu- chos tipos: Variables, Variables indexadas, Cadenas de caracteres, Funciones, etc. Incluso estructuras m´s complejas construidas a partir de otras m´s sencillas. a a Durante una sesi´n de trabajo con R los objetos que se crean se almacenan por nombre o (Discutiremos este proceso en la siguiente secci´n). La orden o > objects() se puede utilizar para obtener los nombres de los objetos almacenados en R. Esta funci´n o es equivalente a la funci´n ls(). La colecci´n de objetos almacenados en cada momento se o o denomina espacio de trabajo (workspace). Para eliminar objetos puede utilizar la orden rm, por ejemplo: > rm(x, y, z, tinta, chatarra, temporal, barra) Los objetos creados durante una sesi´n de R pueden almacenarse en un archivo para su o uso posterior. Al finalizar la sesi´n, R pregunta si desea hacerlo. En caso afirmativo todos o los objetos se almacenan en el archivo ‘.RData’2 en el directorio de trabajo. En la siguiente ocasi´n que ejecute R, se recuperar´n los objetos de este archivo as´ como o a ı el historial de ´rdenes. o Es recomendable que utilice un directorio de trabajo diferente para cada problema que analice con R. Es muy com´n crear objetos con los nombres x e y, por ejemplo. Estos u nombres tienen sentido dentro de un an´lisis concreto, pero es muy dif´ dilucidar su a ıcil significado cuando se han realizado varios an´lisis en el mismo directorio. a 2 El punto inicial del nombre de este archivo indica que es invisible en UNIX.
  • 13. Cap´ ıtulo 2: C´lculos sencillos. N´meros y vectores a u 7 2 C´lculos sencillos. N´ meros y vectores a u 2.1 Vectores (num´ricos). Asignaci´n e o R utiliza diferentes estructuras de datos. La estructura m´s simple es el vector, que es a una colecci´n ordenada de n´meros. Para crear un vector, por ejemplo x, consistente en o u cinco n´meros, por ejemplo 10.4, 5.6, 3.1, 6.4 y 21.7, use la orden u > x <- c(10.4, 5.6, 3.1, 6.4, 21.7) Esta es una asignaci´n en la que se utiliza la funci´n c() que, en este contexto, puede o o tener un n´mero arbitrario de vectores como argumento y cuyo valor es el vector obtenido u mediante la concatenaci´n de todos ellos.1 o Un n´mero, por s´ mismo, se considera un vector de longitud uno. u ı Advierta que el operador de asignaci´n, (‘<-’), no es el operador habitual, ‘=’, que se o reserva para otro prop´sito, sino que consiste en dos caracteres, ‘<’ (‘menor que’) y ‘-’ o (‘gui´n’), que obligatoriamente deben ir unidos y ’apuntan’ hacia el objeto que recibe el o valor de la expresi´n.2 o La asignaci´n puede realizarse tambi´n mediante la funci´n assign(). Una forma equi- o e o valente de realizar la asignaci´n anterior es o > assign("x", c(10.4, 5.6, 3.1, 6.4, 21.7)) El operador usual, <-, puede interpretarse como una abreviatura de la funci´n assign(). o Las asignaciones pueden realizarse tambi´n con una flecha apuntando a la derecha, rea- e lizando el cambio obvio en la asignaci´n. Por tanto, tambi´n podr´ escribirse o e ıa > c(10.4, 5.6, 3.1, 6.4, 21.7) -> x Si una expresi´n se utiliza como una orden por s´ misma, su valor se imprime y se pierde 3 . o ı As´ pues, la orden ı > 1/x simplemente imprime los inversos de los cinco valores anteriores en la pantalla (por supuesto, el valor de x no se modifica). Si a continuaci´n hace la asignaci´n o o > y <- c(x, 0, x) crear´ un vector, y, con 11 elementos, consistentes en dos copias de x con un cero entre a ambas. 1 Con argumentos diferentes, por ejemplo listas, la acci´n de c() puede ser diferente. Vea Secci´n 6.2.1 o o [Concatenacion de listas], p´gina 29. a 2 El s´ımbolo de subrayado, ‘_’, es un sin´nimo del operador de asignaci´n, pero no aconsejamos su uti- o o lizaci´n ya que produce un c´digo menos legible. o o 3 Aunque, de hecho, se almacena en .Last.value hasta que se ejecute otra orden.
  • 14. Cap´ ıtulo 2: C´lculos sencillos. N´meros y vectores a u 8 2.2 Aritm´tica vectorial e Los vectores pueden usarse en expresiones aritm´ticas, en cuyo caso las operaciones e se realizan elemento a elemento. Dos vectores que se utilizan en la misma expresi´n no o tienen por qu´ ser de la misma longitud. Si no lo son, el resultado ser´ un vector de la e a longitud del m´s largo, y el m´s corto ser´ reciclado, repiti´ndolo tantas veces como sea a a a e necesario (puede que no un n´mero exacto de veces) hasta que coincida con el m´s largo. u a En particular, cualquier constante ser´ simplemente repetida. De este modo, y siendo x e a y los vectores antes definidos, la orden > v <- 2*x + y + 1 genera un nuevo vector, v, de longitud 11, construido sumando, elemento a elemento, el vector 2*x repetido 2.2 veces, el vector y, y el n´mero 1 repetido 11 veces. u Los operadores aritm´ticos elementales son los habituales +, -, *, / y ^ para elevar e a una potencia. Adem´s est´n disponibles las funciones log, exp, sin, cos, tan, sqrt, a a bien conocidas. Existen muchas m´s funciones, entre otras, las siguientes: max y min que a seleccionan respectivamente el mayor y el menor elemento de un vector; range cuyo valor es el vector de longitud dos, c(min(x), max(x)); length(x) que es el n´mero de elementos u o longitud de x; sum(x) que es la suma de todos los elementos de x; y prod(x) que es el producto de todos ellos. Dos funciones estad´ ısticas son mean(x), que calcula la media, esto es, sum(x)/length(x) y var(x) que calcula la cuasi-varianza, esto es, sum((x-mean(x))^2)/(length(x)-1) Si el argumento de var() es una matriz n × p, el resultado es la matriz de cuasi- covarianzas p×p correspondiente a interpretar las filas como vectores muestrales p-variantes. Para ordenar un vector dispone de la funci´n sort(x) que devuelve un vector del mismo o tama˜o que x con los elementos ordenados en orden creciente. Tambi´n dispone de order() n e y de sort.list(), que produce la permutaci´n del vector que corresponde a la ordenaci´n. o o Advierta que max y min seleccionan el mayor y el menor valor de sus argumentos, incluso aunque estos sean varios vectores. Las funciones paralelas pmax y pmin devuelven un vector (de la misma longitud del argumento m´s largo) que contiene en cada elemento el mayor y a menor elemento de dicha posici´n de entre todos los vectores de entrada. o En la mayor´ de los casos, el usuario no debe preocuparse de si los “n´meros” de un vec- ıa u tor num´rico son enteros, reales o incluso complejos. Los c´lculos se realizan internamente e a como n´meros de doble precisi´n, reales o complejos seg´n el caso. u o u Para trabajar con n´meros complejos, debe indicar expl´ u ıcitamente la parte compleja. As´ ı sqrt(-17) devuelve el resultado NaN y un mensaje de advertencia, pero sqrt(-17+0i) realiza correctamente el c´lculo de la ra´ cuadrada de este n´mero complejo. a ız u
  • 15. Cap´ ıtulo 2: C´lculos sencillos. N´meros y vectores a u 9 2.3 Generaci´n de sucesiones o En R existen varias funciones para generar sucesiones num´ricas. Por ejemplo, 1:30 e es el vector c(1,2, ...,29,30). El operador ’dos puntos’ tiene m´xima prioridad en una a expresi´n, as´ por ejemplo, 2*1:15 es el vector c(2,4,6, ...,28,30). Escriba n <- 10 y o ı, compare las sucesiones 1:n-1 y 1:(n-1). La forma 30:1 permite construir una sucesi´n descendente. o La funci´n seq() permite generar sucesiones m´s complejas. Dispone de cinco argu- o a mentos, aunque no se utilizan todos simult´neamente. Si se dan los dos primeros indican el a comienzo y el final de la sucesi´n, y si son los unicos argumentos, el resultado coincide con o ´ el operador ’dos puntos’, esto es, seq(2,10) coincide con 2:10. Los argumentos de seq(), y de muchas funciones de R, pueden darse adem´s de por a posici´n, por nombre, en cuyo caso, el orden en que aparecen es irrelevante. En esta o funci´n los dos primeros argumentos se pueden dar por nombre mediante from=valor-inicial o y to=valor-final; por tanto seq(1,30), seq(from=1, to=30) y seq(to=30, from=1) son formas equivalentes a 1:30. Los dos siguientes argumentos de seq() son by=valor y length=valor, y especifican el ’paso’ y ’longitud’ de la sucesi´n respectivamente. Si no se suministra ninguno, el valor o predeterminado es by=1 y length se calcula. Por ejemplo > seq(-5, 5, by=.2) -> s3 genera el vector c(-5.0, -4.8, -4.6, ..., 4.6, 4.8, 5.0) y lo almacena en s3 . Simi- larmente > s4 <- seq(length=51, from=-5, by=.2) genera los mismos valores y los almacena en s4. El quinto argumento de esta funci´n es along=vector, y si se usa debe ser el unico o ´ argumento, ya que crea una sucesi´n 1, 2, ..., length(vector), o la sucesi´n vac´ si el o o ıa vector es vac´ (lo que puede ocurrir). ıo Una funci´n relacionada con seq es rep(), que permite duplicar un objeto de formas o diversas. Su forma m´s sencilla es a > s5 <- rep(x, times=5) que coloca cinco copias de x, una tras otra, y las almacena en s5. 2.4 Vectores l´gicos o R no solo maneja vectores num´ricos, sino tambi´n l´gicos. Los elementos de un vector e e o l´gico s´lo pueden tomar dos valores: FALSE (falso) y TRUE (verdadero). Estos valores se o o representan tambi´n por F y T. e Los vectores l´gicos aparecen al utilizar condiciones. Por ejemplo, o > temp <- x > 13 almacena en temp un vector de la misma longitud de x y cuyos valores ser´n, respectiva- a mente, T o F de acuerdo a que los elementos de x cumplan o no la condici´n indicada: ser o mayores que 13.
  • 16. Cap´ ıtulo 2: C´lculos sencillos. N´meros y vectores a u 10 Los operadores l´gicos son < (menor), <= (menor o igual), > (mayor), >= (mayor o igual), o == (igual), y != (distinto). Adem´s, si c1 y c2 son expresiones l´gicas, entonces c1&c2 es a o su intersecci´n (“conjunci´n”), c1|c2 es su uni´n (“disyunci´n”) y !c1 es la negaci´n de o o o o o c1. Los vectores l´gicos pueden utilizarse en expresiones aritm´ticas, en cuyo caso se trans- o e forman primero en vectores num´ricos, de tal modo que F se transforma en 0 y T en 1. Sin e embargo hay casos en que un vector l´gico y su correspondiente num´rico no son equiva- o e lentes, como puede ver a continuaci´n. o 2.5 Valores faltantes En ocasiones puede que no todas las componentes de un vector sean conocidas. Cuando falta un elemento, lo que se denomina ’valor faltante’4 , se le asigna un valor especial, NA5 . En general, casi cualquier operaci´n donde intervenga un valor NA da por resultado NA. La o justificaci´n es sencilla: Si no se puede especificar completamente la operaci´n, el resultado o o no podr´ ser conocido, y por tanto no estar´ disponible. a a La funci´n is.na(x) crea un vector l´gico del tama˜o de x cuyos elementos s´lo valdr´n o o n o a T si el elemento correspondiente de x es NA, y F en caso contrario. > z <- c(1:3,NA); ind <- is.na(z) N´tese que la expresi´n l´gica x == NA es distinta de is.na(x) puesto que NA no es o o o realmente un valor, sino un indicador de una cantidad que no est´ disponible. Por tanto a x == NA es un vector de la misma longitud de x con todos sus elementos NA puesto que la expresi´n l´gica es incompleta. o o Adem´s hay una segunda clase de valores “faltantes”, producidos por el c´lculo. Son los a a 6 llamados valores NaN . Este tipo de dato no existe en S, y por tanto se confunden con NA en S-Plus. Ejemplos de NaN son > 0/0 o > Inf - Inf En resumen, is.na(xx) es TRUE tanto para los valores NA como para los NaN. Para diferenciar estos ultimos existe la funci´n is.nan(xx) que s´lo toma el valor TRUE para ´ o o valores NaN. 2.6 Vectores de caracteres Las cadenas de caracteres, o frases, tambi´n son utilizadas en R, por ejemplo, para e etiquetar gr´ficos. Una cadena de caracteres se construye escribiendo entre comillas la a sucesi´n de caracteres que la define, por ejemplo, "Altura" o "Resultados de la tercera o iteraci´n". o Los vectores de caracteres pueden concatenarse en un vector mediante la funci´n c(). o 4 En la literatura estad´ ıstica inglesa, “missing value” 5 Acr´nimo en ingl´s de “Not Available”, no disponible. o e 6 Acr´nimo en ingl´s de “Not a Number”, esto es, “No es un n´mero”. o e u
  • 17. Cap´ ıtulo 2: C´lculos sencillos. N´meros y vectores a u 11 Por otra parte, la funci´n paste() une todos los vectores de caracteres que se le sumi- o nistran y construye una sola cadena de caracteres. Tambi´n admite argumentos num´ricos, e e que convierte inmediatamente en cadenas de caracteres. En su forma predeterminada, en la cadena final, cada argumento original se separa del siguiente por un espacio en blanco, aunque ello puede cambiarse utilizando el argumento sep="cadena", que sustituye el espacio en blanco por cadena, la cual podr´ ser incluso vac´ ıa ıa. Por ejemplo, > labs <- paste(c("X","Y"), 1:10, sep="") almacena, en labs, el vector de caracteres c("X1", "Y2", "X3", "Y4", "X5", "Y6", "X7", "Y8", "X9", "Y10") Recuerde que al tener c("X", "Y") solo dos elementos, deber´ repetirse 5 veces para a 7 obtener la longitud del vector 1:10. 2.7 Vectores de ´ ındices. Selecci´n y modificaci´n de o o subvectores Puede seleccionar un subvector de un vector a˜adiendo al nombre del mismo un vector n de ´ ındices entre corchetes, [ y ]. En general podr´ obtener un subvector de cualquier a expresi´n cuyo resultado sea un vector, sin m´s que a˜adirle un vector de ´ o a n ındices entre corchetes. Los vectores de ´ ındices pueden ser de cuatro tipos distintos: 1. Un vector l´gico. En este caso el vector de ´ o ındices debe tener la misma longitud que el vector al que refiere. S´lo se seleccionar´n los elementos correspondientes a valores o a T del vector de ´ ındices y se omitir´ el resto. Por ejemplo, a > y <- x[!is.na(x)] almacena en y los valores no-faltantes de x, en el mismo orden. Si x tiene valores faltantes, el vector y ser´ m´s corto que x. An´logamente, a a a > (x+1)[(!is.na(x)) & x>0] -> z almacena en z los elementos del vector x+1 para los que el correspondiente elemento de x es no-faltante y positivo. 2. Un vector de n´meros naturales positivos. En este caso los elementos del vector de u ´ ındices deben pertenecer al conjunto {1, 2, . . . , length(x)}. El resultado es un vector formado por los elementos del vector referido que corresponden a estos ´ ındices y en el orden en que aparecen en el vector de ´ ındices. El vector de ´ ındices puede tener cualquier longitud y el resultado ser´ de esa misma longitud. Por ejemplo, x[6] es el a sexto elemento de x, y > x[1:10] es el vector formado por los diez primeros elementos de x, (supuesto que length(x) no es menor que 10). Por otra parte, 7 paste(..., collapse=ss) permite colapsar los argumentos en una sola cadena de caracteres separ´ndolos a mediante ss. Adem´s existen otras ´rdenes de manipulaci´n de caracteres. como sub y substring. Puede a o o encontrar su descripci´n en la ayuda del programa. o
  • 18. Cap´ ıtulo 2: C´lculos sencillos. N´meros y vectores a u 12 > c("x","y")[rep(c(1,2,2,1), times=4)] crea un vector de caracteres de longitud 16 formado por "x", "y", "y", "x" repetido cuatro veces. 3. Un vector de n´meros naturales negativos. En este caso, los ´ u ındices indican los ele- mentos del vector referido que deben excluirse. As´ pues, ı > y <- x[-(1:5)] almacena en el vector y todos los elementos de x excepto los cinco primeros (suponiendo que x tiene al menos cinco elementos). 4. Un vector de caracteres. Esta opci´n solo puede realizarse si el vector posee el atributo o names (nombres) para identificar sus componentes, en cuyo caso se comportar´ de modo a similar al punto 2. > fruta <- c(5, 10, 1, 20) > names(fruta) <- c("naranja", "pl´tano", "manzana", "pera") a > postre <- fruta[c("manzana","naranja")] La ventaja en este caso es que los nombres son a menudo m´s f´ciles de recordar que a a los ´ ındices num´ricos.Esta opci´n es especialmente util al tratar de la estructura de e o ´ “hoja de datos” (data frame) que veremos posteriormente. La variable de almacenamiento tambi´n puede ser indexada, en cuyo caso la asignaci´n e o se realiza solamente sobre los elementos referidos. La expresi´n debe ser de la forma o vector[vector de ´ındices] ya que la utilizaci´n de una expresi´n arbitraria en vez del nom- o o bre de un vector no tiene mucho sentido. El vector asignado debe ser de la misma longitud que el vector de ´ındices y, en el caso de un vector de ´ındices l´gico, debe ser de la misma longitud del vector que indexa. Por o ejemplo, > x[is.na(x)] <- 0 sustituye cada valor faltante de x por un cero. Por otra parte, > y[y < 0] <- -y[y < 0] equivale8 a > y <- abs(y) 2.8 Clases de objetos Los vectores son el tipo b´sico de objeto en R, pero existen m´s tipos que veremos de a a modo formal posteriormente. • Las matrices o, m´s generalmente, variables indexadas (Arrays) son generalizaciones a multidimensionales de los vectores. De hecho, son vectores indexados por dos o m´sa ındices y que se imprimen de modo especial. V´ase Cap´ ´ e ıtulo 5 [Matrices y variables indexadas], p´gina 20. a • Los factores sirven para representar datos categ´ricos. V´ase Cap´ o e ıtulo 4 [Factores], p´gina 17. a 8 Tenga en cuenta que abs() no se comporta correctamente con n´meros complejos, en ellos deber´ usar u ıa Mod().
  • 19. Cap´ ıtulo 2: C´lculos sencillos. N´meros y vectores a u 13 • Las listas son una forma generalizada de vector en las cuales los elementos no tienen por qu´ ser del mismo tipo y a menudo son a su vez vectores o listas. Las listas e permiten devolver los resultados de los c´lculos estad´ a ısticos de un modo conveniente. V´ase Secci´n 6.1 [Listas], p´gina 28. e o a • Las hojas de datos (data frames) son estructuras similares a una matriz, en que cada columna puede ser de un tipo distinto a las otras. Las hojas de datos son apropiadas para describir ‘matrices de datos’ donde cada fila representa a un individuo y cada columna una variable, cuyas variables pueden ser num´ricas o categ´ricas. Muchos e o experimentos se describen muy apropiadamente con hojas de datos: los tratamientos son categ´ricos pero la respuesta es num´rica. V´ase Secci´n 6.3 [Hojas de datos], o e e o p´gina 29. a • Las funciones son tambi´n objetos de R que pueden almacenarse en el espacio de e trabajo, lo que permite extender las capacidades de R f´cilmente. V´ase Cap´ a e ıtulo 10 [Escritura de funciones], p´gina 46. a
  • 20. Cap´ ıtulo 3: Objetos: Modos y atributos 14 3 Objetos: Modos y atributos 3.1 Atributos intr´ ınsecos: modo y longitud Las entidades que manipula R se conocen con el nombre de objetos. Por ejemplo, los vectores de n´meros, reales o complejos, los vectores l´gicos o los vectores de caracteres. u o Este tipo de objetos se denominan estructuras ‘at´micas’ puesto que todos sus elementos son o del mismo tipo o modo, bien sea numeric 1 (num´rico), complex (complejo), logical (l´gico) e o o character (car´cter). a Los elementos de un vector deben ser todos del mismo modo y ´ste ser´ el modo del e a vector. Esto es, un vector ser´, en su totalidad, de modo logical, numeric, complex o a character. La unica excepci´n a esta regla es que cualquiera de ellos puede contener el valor ´ o NA. Debe tener en cuenta que un vector puede ser vac´ pero pese a ello tendr´ un modo. ıo, a As´ el vector de caracteres vac´ aparece como character(0) y el vector num´rico vac´ ı, ıo e ıo aparece como numeric(0). R tambi´n maneja objetos denominados listas que son del modo list (lista) y que con- e sisten en sucesiones de objetos, cada uno de los cuales puede ser de un modo distinto. Las listas se denominan estructuras ‘recursivas’ puesto que sus componentes pueden ser asimismo listas. Existen otras estructuras recursivas que corresponden a los modos function (funci´n) y o expression (expresi´n). El modo function est´ formado por las funciones que constituyen R, o a unidas a las funciones escritas por cada usuario, y que discutiremos m´s adelante. El modo a expression corresponde a una parte avanzada de R que no trataremos aqu´ excepto en lo ı, m´ınimo necesario para el tratamiento de f´rmulas en la descripci´n de modelos estad´ o o ısticos. Con el modo de un objeto designamos el tipo b´sico de sus constituyentes fundamentales. a Es un caso especial de un atributo de un objeto. Los atributos de un objeto suministran informaci´n espec´ o ıfica sobre el propio objeto. Otro atributo de un objeto es su longitud. Las funciones mode(objeto) y length(objeto) se pueden utilizar para obtener el modo y longitud de cualquier estructura. Por ejemplo, si z es un vector complejo de longitud 100, entonces mode(z) es la cadena "complex", y length(z) es 100. R realiza cambios de modo cada vez que se le indica o es necesario (y tambi´n en algunas e ocasiones en que no parece que no lo es). Por ejemplo, si escribe > z <- 0:9 y a continuaci´n escribe o > digitos <- as.character(z) el vector digitos ser´ el vector de caracteres ("0", "1", "2", ..., "9"). Si a continua- a ci´n aplica un nuevo cambio de modo o > d <- as.integer(digitos) R reconstruir´ el vector num´rico de nuevo y, en este caso, d y z coinciden.2 Existe una a e colecci´n completa de funciones de la forma as.lo-que-sea(), tanto para forzar el cambio de o 1 El modo num´rico consiste realmente en dos modos distintos, integer (entero) y double (doble precisi´n). e o 2 En general, al forzar el cambio de num´rico a car´cter y de nuevo a num´rico, no se obtienen los mismos e a e resultados, debido, entre otros, a los errores de redondeo.
  • 21. Cap´ ıtulo 3: Objetos: Modos y atributos 15 modo, como para asignar un atributo a un objeto que carece de ´l. Es aconsejable consultar e la ayuda para familiarizarse con estas funciones. 3.2 Modificaci´n de la longitud de un objeto o Un objeto, aunque est´ “vac´ tiene modo. Por ejemplo, e ıo”, > v <- numeric() almacena en v una estructura vac´ de vector num´rico. Del mismo modo, character() es ıa e un vector de caracteres vac´ y lo mismo ocurre con otros tipos. Una vez creado un objeto ıo, con un tama˜o cualquiera, pueden a˜adirse nuevos elementos sin m´s que asignarlos a un n n a ´ ındice que est´ fuera del rango previo.Por ejemplo, e > v[3] <- 17 transforma v en un vector de longitud 3, (cuyas dos primeras componentes ser´n NA). Esta a regla se aplica a cualquier estructura, siempre que los nuevos elementos sean compatibles con el modo inicial de la estructura. Este ajuste autom´tico de la longitud de un objeto se utiliza a menudo, por ejemplo en la a funci´n scan() para entrada de datos. (V´ase Secci´n 7.2 [La funcion scan()], p´gina 34.) o e o a An´logamente, puede reducirse la longitud de un objeto sin m´s que realizar una nueva a a asignaci´n. Si, por ejemplo, alfa es un objeto de longitud 10, entonces o > alfa <- alfa[2 * 1:5] lo transforma en un objeto de longitud 5 formado por los elementos de posici´n par del o objeto inicial. 3.3 Obtenci´n y modificaci´n de atributos o o La funci´n attributes(objeto) proporciona una lista de todos los atributos no o intr´ ınsecos definidos para el objeto en ese momento. La funci´n attr(objeto, nombre) o puede usarse para seleccionar un atributo espec´ ıfico. Estas funciones no se utilizan habitualmente, sino que se reservan para la creaci´n de un nuevo atributo con fines o espec´ıficos, por ejemplo, para asociar una fecha de creaci´n o un operador con un objeto o de R. Sin embargo, es un concepto muy importante que no debe olvidar. La asignaci´n o eliminaci´n de atributos de un objeto debe realizarse con precauci´n, ya o o o que los atributos forman parte del sistema de objetos utilizados en R. Cuando se utiliza en la parte que recibe la asignaci´n, puede usarse para asociar un o nuevo atributo al objeto o para cambiar uno existente. Por ejemplo, > attr(z,"dim") <- c(10,10) permite tratar z como si fuese una matriz de 10 × 10. 3.4 Clases de objetos Cada objeto pertenece a una clase, y ello permite utilizar en R programaci´n dirigida a o objetos. Por ejemplo, si un objeto pertenece a la clase "data.frame", se imprimir´ de un modo a especial; cuando le aplique la funci´n plot() ´sta mostrar´ un gr´fico de un tipo especial; o e a a
  • 22. Cap´ ıtulo 3: Objetos: Modos y atributos 16 y otras funciones gen´ricas, como summary(), producir´n un resultado especial; todo ello e a en funci´n de la pertenencia a dicha clase. o Para eliminar temporalmente los efectos de la clase puede utilizar la funci´n unclass(). o Por ejemplo, si invierno pertenece a la clase "data.frame", entonces > invierno escribe el objeto en la forma de la clase, parecida a una matriz, en tanto que > unclass(invierno) lo imprime como una lista ordinaria. S´lo debe utilizar esta funci´n en situaciones muy o o concretas, como, por ejemplo, si hace pruebas para comprender el concepto de clase y de funci´n gen´rica. o e Las clases y las funciones gen´ricas ser´n tratadas muy brevemente en la Secci´n 10.9 e a o [Orientacion a objetos], p´gina 54. a
  • 23. Cap´ ıtulo 4: Factores Nominales y Ordinales 17 4 Factores Nominales y Ordinales Un factor es un vector utilizado para especificar una clasificaci´n discreta de los elemen- o tos de otro vector de igual longitud. En R existen factores nominales y factores ordinales. 4.1 Un ejemplo espec´ ıfico Suponga que dispone de una muestra de 30 personas de Australia1 de tal modo que su estado o territorio se especifica mediante un vector de caracteres con las abreviaturas de los mismos: > estado <- c("tas", "sa", "qld", "nsw", "nsw", "nt", "wa", "wa", "qld", "vic", "nsw", "vic", "qld", "qld", "sa", "tas", "sa", "nt", "wa", "vic", "qld", "nsw", "nsw", "wa", "sa", "act", "nsw", "vic", "vic", "act") Recuerde que, para un vector de caracteres, la palabra “ordenado” indica que est´ en a orden alfab´tico. e Un factor se crea utilizando la funci´n factor(): o > FactorEstado <- factor(estado) La funci´n print() trata a los factores de un modo distinto al de los vectores ordinarios: o > FactorEstado [1] tas sa qld nsw nsw nt wa wa qld vic nsw vic qld qld sa [16] tas sa nt wa vic qld nsw nsw wa sa act nsw vic vic act Levels: act nsw nt qld sa tas vic wa Puede utilizar la funci´n levels() para ver los niveles de un factor: o > levels(FactorEstado) [1] "act" "nsw" "nt" "qld" "sa" "tas" "vic" "wa" 4.2 La funci´n tapply(). Variables desastradas (ragged o arrays) Como continuaci´n del ejemplo anterior, suponga que disponemos en otro vector de los o ingresos de las mismas personas (medidos con unas unidades apropiadas) > ingresos <- c(60, 49, 40, 61, 64, 60, 59, 54, 62, 69, 70, 42, 56, 61, 61, 61, 58, 51, 48, 65, 49, 49, 41, 48, 52, 46, 59, 46, 58, 43) Para calcular la media muestral para cada estado podemos usar la funci´n tapply(): o > MediaIngresos <- tapply(ingresos, FactorEstado, mean) que devuelve el vector de medias con las componentes etiquetadas con los niveles: 1 Para quienes no conocen la estructura administrativa de Australia, existen ocho estados y territorios en la misma: Australian Capital Territory, New South Wales, Northern Territory, Queensland, South Australia, Tasmania, Victoria, y Western Australia; y sus correspondientes abreviaturas son: act, nsw, nt, qld, sa, tas, vic, y wa.
  • 24. Cap´ ıtulo 4: Factores Nominales y Ordinales 18 > MediaIngresos act nsw nt qld sa tas vic wa 44.500 57.333 55.500 53.600 55.000 60.500 56.000 52.250 La funci´n tapply() aplica una funci´n, en este ejemplo la funci´n mean(), a cada grupo o o o de componentes del primer argumento, en este ejemplo ingresos, definidos por los niveles del segundo argumento, en este ejemplo FactorEstado, como si cada grupo fuese un vector por s´ solo. El resultado es una estructura cuya longitud es el n´mero de niveles del factor. ı u Puede consultar la ayuda para obtener m´s detalles. a Suponga que ahora desea calcular las desviaciones t´ ıpicas de las medias de ingresos por estados. Para ello es necesario escribir una funci´n en R que calcule la desviaci´n t´ o o ıpica de un vector. Aunque a´n no se ha explicado en este texto c´mo escribir funciones2 , puede u o admitir que existe la funci´n var() que calcula la varianza muestral o cuasi-varianza, y que o la funci´n buscada puede construirse con la asignaci´n: o o > StdErr <- function(x) sqrt(var(x)/length(x)) Ahora puede calcular los valores buscados mediante > ErrorTipicoIngresos <- tapply(ingresos, FactorEstado, StdErr) con el siguiente resultado: > ErrorTipicoIngresos act nsw nt qld sa tas vic wa 1.500000 4.310195 4.500000 4.106093 2.738613 0.500000 5.244044 2.657536 Como ejercicio puede calcular el intervalo de confianza al 95% de la media de ingresos por estados. Para ello puede utilizar la funci´n tapply(), la funci´n length() para calcular los o o tama˜os muestrales, y la funci´n qt() para encontrar los percentiles de las distribuciones t n o de Student correspondientes. La funci´n tapply() puede utilizarse para aplicar una funci´n a un vector indexado por o o diferentes categor´ simult´neamente. Por ejemplo, para dividir la muestra tanto por el ıas a estado como por el sexo. Los elementos del vector se dividir´n en grupos correspondientes a a las distintas categor´ y se aplicar´ la funci´n a cada uno de dichos grupos. El resultado ıas a o es una variable indexada etiquetada con los niveles de cada categor´ ıa. 3 La combinaci´n de un vector con un factor para etiquetarlo, es un ejemplo de lo que se o llama variable indexada desastrada (ragged array) puesto que los tama˜os de las subclases n son posiblemente irregulares. Cuando estos tama˜os son iguales la indexaci´n puede hacerse n o impl´ıcitamente y adem´s m´s eficientemente, como veremos a continuaci´n. a a o 4.3 Factores ordinales Los niveles de los factores se almacenan en orden alfab´tico, o en el orden en que se e especificaron en la funci´n factor si ello se hizo expl´ o ıcitamente. A veces existe una ordenaci´n natural en los niveles de un factor, orden que deseamos o tener en cuenta en los an´lisis estad´ a ısticos. La funci´n ordered() crea este tipo de factores o y su uso es id´ntico al de la funci´n factor. Los factores creados por la funci´n factor los e o o denominaremos nominales o simplemente factores cuando no haya lugar a confusi´n, y los o 2 La escritura de funciones ser´ tratada en Cap´ a ıtulo 10 [Escritura de funciones], p´gina 46. a 3 En general de una variable indexada
  • 25. Cap´ ıtulo 4: Factores Nominales y Ordinales 19 creados por la funci´n ordered() los denominaremos ordinales. En la mayor´ de los casos o ıa la unica diferencia entre ambos tipos de factores consiste en que los ordinales se imprimen ´ indicando el orden de los niveles. Sin embargo los contrastes generados por los dos tipos de factores al ajustar Modelos lineales, son diferentes.
  • 26. Cap´ ıtulo 5: Variables indexadas. Matrices 20 5 Variables indexadas. Matrices 5.1 Variables indexadas (Arrays) Una variable indexada (array) es una colecci´n de datos, por ejemplo num´ricos, inde- o e xada por varios ´ ındices. R permite crear y manipular variables indexadas en general y en particular, matrices. Un vector de dimensiones es un vector de n´meros enteros positivos. Si su longitud es k u entonces la variable indexada correspondiente es k–dimensional. Los elementos del vector de dimensiones indican los l´ ımites superiores de los k ´ ındices. Los l´ımites inferiores siempre valen 1. Un vector puede transformarse en una variable indexada cuando se asigna un vector de dimensiones al atributo dim. Supongamos, por ejemplo, que z es un vector de 1500 elementos. La asignaci´n o > dim(z) <- c(3,5,100) hace que R considere a z como una variable indexada de dimensi´n 3 × 5 × 100. o Existen otras funciones, como matrix() y array(), que permiten asignaciones m´s a sencillas y naturales, como se ver´ en la Secci´n 5.4 [La funcion array()], p´gina 22. a o a Los elementos del vector pasan a formar parte de la variable indexada siguiendo la regla1 de que el primer ´ ındice es el que se mueve m´s r´pido y el ultimo es el m´s lento. a a ´ a Por ejemplo, si se define una variable indexada, a, con vector de dimensiones c(3,4,2), la variable indexada tendr´ 3×4×2 = 24 elementos que se formar´n a partir de los elementos a a originales en el orden a[1,1,1], a[2,1,1], ..., a[2,4,2], a[3,4,2]. 5.2 Elementos de una variable indexada Un elemento de una variable indexada puede referirse dando el nombre de la variable y, entre corchetes, los ´ ındices que lo refieren, separados por comas. En general, puede referir una parte de una variable indexada mediante una sucesi´n de o vectores ´ındices, teniendo en cuenta que si un vector ´ındice es vac´ equivale a utilizar todo ıo, el rango de valores para dicho ´ ındice. As´ en el ejemplo anterior, a[2,,] es una variable indexada 4×2, con vector de dimensi´n ı, o c(4,2) y sus elementos son c(a[2,1,1], a[2,2,1], a[2,3,1], a[2,4,1], a[2,1,2], a[2,2,2], a[2,3,2], a[2,4,2]) en ese orden. A su vez, a[,,] equivale a la variable completa, que coincide con omitir completamente los ´ ındices y utilizar simplemente a. Para cualquier variable indexada, por ejemplo Z, el vector de dimensi´n puede referirse o expl´ıcitamente mediante dim(Z) (en cualquiera de las dos partes de una asignaci´n). o Asimismo, si especifica una variable indexada con un solo ´ ındice o vector ´ ındice, s´lo o se utilizan los elementos correspondientes del vector de datos, y el vector de dimensi´n se o ignora. En caso de que el ´ ındice no sea un vector, sino a su vez una variable indexada, el tratamiento es distinto, como ahora veremos. 1 Esta regla es la que se utiliza en el lenguaje Fortran
  • 27. Cap´ ıtulo 5: Variables indexadas. Matrices 21 5.3 Uso de variables indexadas como ´ ındices Una variable indexada puede utilizar no s´lo un vector de ´ o ındices, sino incluso una variable indexada de ´ındices, tanto para asignar un vector a una colecci´n irregular de o elementos de una variable indexada como para extraer una colecci´n irregular de elementos. o Veamos un ejemplo sobre una matriz, que es una variable indexada con dos ´ ındices. Puede construirse un ´ındice matricial consistente en dos columnas y varias filas. Los ele- mentos del ´ ındice matricial son los ´ ındices fila y columna para construir la matriz de ´ ındices. Supongamos que X es una variable indexada 4 × 5 y que desea hacer lo siguiente: • Extraer los elementos X[1,3], X[2,2] y X[3,1] con una estructura de vector, y • Reemplazar dichos elementos de X con ceros. ındices de 3 × 2 como en el siguiente ejemplo. Para ello puede utilizar una matriz de ´ > x <- array(1:20,dim=c(4,5)) # Genera una variable indexada (4 × 5). > x [,1] [,2] [,3] [,4] [,5] [1,] 1 5 9 13 17 [2,] 2 6 10 14 18 [3,] 3 7 11 15 19 [4,] 4 8 12 16 20 > i <- array(c(1:3,3:1),dim=c(3,2)) > i ındices (3 × 2). # i es una matriz de ´ [,1] [,2] [1,] 1 3 [2,] 2 2 [3,] 3 1 > x[i] # Extrae los elementos. [1] 9 6 3 > x[i] <- 0 # Sustituye los elementos por ceros. > x [,1] [,2] [,3] [,4] [,5] [1,] 1 5 0 13 17 [2,] 2 0 10 14 18 [3,] 0 7 11 15 19 [4,] 4 8 12 16 20 > Un ejemplo algo m´s complejo consiste en generar la matriz de dise˜o de un dise˜o en a n n bloques definido por dos factores, bloques (niveles b) y variedades (niveles v), siendo el n´mero de parcelas n. Puede hacerlo del siguiente modo: u > Xb <- matrix(0, n, b) > Xv <- matrix(0, n, v) > ib <- cbind(1:n, bloques) > iv <- cbind(1:n, variedades) > Xb[ib] <- 1 > Xv[iv] <- 1 > X <- cbind(Xb, Xv) Adem´s, puede construir la matriz de incidencia, N, mediante a
  • 28. Cap´ ıtulo 5: Variables indexadas. Matrices 22 > N <- crossprod(Xb, Xv) Tambi´n puede construirla directamente mediante la funci´n table(): e o > N <- table(bloques, variedades) 5.4 La funci´n array() o Una variable indexada no s´lo puede construirse modificando el atributo dim de un o vector, sino tambi´n directamente mediante la funci´n array, que tiene la forma e o > Z <- array(vector de datos,vector de dimensiones) Por ejemplo, si el vector h contiene 24 n´meros (o incluso menos), la orden u > Z <- array(h, dim=c(3,4,2)) usa h para almacenar en Z una variable indexada de dimensi´n 3 × 4 × 2. Si el tama˜o de o n h es exactamente 24, el resultado coincide con el de > dim(Z) <- c(3,4,2) Sin embargo, si h es m´s corto de 24, sus valores se repiten desde el principio tantas veces a como sea necesario para obtener 24 elementos. (v´ase Secci´n 5.4.1 [Reciclado], p´gina 22). e o a El caso extremo, muy com´n, corresponde a un vector de longitud 1, como en este ejemplo u > Z <- array(0, c(3,4,2)) en que Z es una variable indexada compuesta enteramente de ceros. Adem´s, dim(Z), el vector de dimensiones, es el vector c(3,4,2), Z[1:24], es un vector a de datos que coincide con h, y tanto Z[], con ´ ındice vac´ como Z, sin ´ ıo, ındices, son la variable indexada con estructura de variable indexada. Las variables indexadas pueden utilizarse en expresiones aritm´ticas y el resultado es una e variable indexada formada a partir de las operaciones elemento a elemento de los vectores subyacentes. Los atributos dim de los operandos deben ser iguales en general y coincidir´n a con el vector de dimensiones del resultado. As´ pues, si A, B y C son variables indexadas ı similares, entonces > D <- 2*A*B + C + 1 almacena en D una variable indexada similar, cuyo vector de datos es el resultado de las operaciones indicadas sobre los vectores de datos subyacentes a A, B y C. Las reglas exactas correspondientes a los c´lculos en que se mezclan variables indexadas y vectores deben ser a estudiadas con detenimiento. 5.4.1 Operaciones con variables indexadas y vectores. Reciclado. Cuando se realizan operaciones que mezclan variables indexadas y vectores, se siguen los siguientes criterios: • La expresi´n se analiza de izquierda a derecha. o • Si un vector es m´s corto que otro, se extiende repitiendo sus elementos (lo que se a denomina reciclado) hasta alcanzar el tama˜o del vector m´s largo. n a • Si s´lo hay variables indexadas y vectores m´s cortos, las variables indexadas deben o a tener el mismo atributo dim, o se producir´ un error. a • Si hay un vector m´s largo que una variable indexada anterior, se produce un mensaje a de error.