ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

765 views
603 views

Published on

ENFOQUES Y DISEÑOS
METODOLOGICOS PARA LA
EVALUACION

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
765
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
21
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

  1. 1. Ministerio de Planificación Nacional y Política Económica 1   CAPITULO 5: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION    
  2. 2. MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO 2   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA   Apartado 5.1: Enfoques metodológicos Material 5.1.1: Validez y confiabilidad   Basado  en:  Martínez  M.,  Miguel  (2006):  Validez  y  confiabilidad  en  la  investigación  cualitativa.  PARADIGMA   No.  27,  pp.  7-­‐33.  Con  contenidos  adicionales  y  modificados  por  parte  de  la  AES.   Validez y confiabilidad en las investigaciones evaluativas   La  dificultad  relacionada  con  la  validez  y  confiabilidad  de  los  resultados  en  las  investigaciones  evaluativas   que  utilizan  métodos  y  técnicas  de  orientación  cuantitativa  y/o  cualitativa  será  tratada  en  este  apartado   debido  a  la  importancia  que  tiene  en  la  evaluación.     La validez y confiabilidad en la investigación cuantitativa   En  la  investigación  cuantitativa  que  tiene  su  origen  en  el  positivismo  tradicional,  se  distinguen  diferentes   tipos  de  validez:  validez  de  construcción,  validez  interna,  validez  externa.  Todas  tratan  de  verificar  si  en   realidad   medimos   lo   que   nos   proponemos   medir.   Igualmente,   se   busca   determinar   un   buen   nivel   de   confiabilidad,  es  decir,  la  posibilidad  de  repetir  la  misma  investigación  con  idénticos  resultados.       La  validez  de  construcciones  hipotéticas  (de  ‘constructos’),  que  es  la  más  importante,  trata  de  establecer   una  medida  operacional  para  los  conceptos  usados.  Por  ejemplo,  un  instrumento  para  medir  la  inteligencia   debe  medir  la  inteligencia,  y  no  la  memoria,  lo  cual  requiere  a)  un  entendimiento  consensuado  y  explícito   acerca  de  lo  que  se  entiende  por  inteligencia  (a  diferencia  de  la  memoria)  y  b)  un  instrumento  que  logre   medir   un   conjunto   de   variables   que   efectivamente   reflejen   dicho   concepto.   Al   tratar   solamente   con   variables  que  representan  hechos  directamente  observables,  sería  sencillo  lograr  la  validez,  sinembargo,  la   “validez  de  constructos”  llega  a  ser  un  desafío  cuando  hablamos  precisamente  de  conceptos  complejos  y  no   directamente   medibles,   como   podría   ser   el   caso   de   variables   como   la   motivación,   calidad   de   servicio   al   cliente,  y  más  aún  en  cuanto  a  variables  que,  por  ejemplo,  estén  relacionado  con  actitudes,  sentimientos   etc.     La   validez   interna   está   relacionada   específicamente   con   el   establecimiento   o   búsqueda   de   una   relación   causal  o  explicativa;  es  decir,  si  el  evento  X  lleva  al  evento  Y;  excluyendo  la  posibilidad  de  que  sea  causado   por  el  evento  Z.  La  validez  interna  es  maximizada  mediante  diseños  experimentales  o  cuasi-­‐experimentales  y   analiza   internamente   el   estudio   cuestionando   si   las   relaciones   causales   encontradas   son   válidas   en   el   contexto  del  estudio,  lo  cual  no  necesariamente  significaría  que  deben  ser  válidas  para  otras  unidades  que   no  son  las  investigadas.       La   validez   externa,   por   el   otro   lado   trata   de   verificar   si   los   resultados   de   un   determinado   estudio   son   generalizables   más   allá   de   los   linderos   del   mismo.   La   validez   externa   responde   a   la   pregunta:   Lo   que   encontré  en  el  estudio  ¿a  qué  otras  personas,  grupos,  contextos  o  situaciones  se  aplica?.  Algunos  autores  se   refieren   a   este   tipo   de   validez   con   el   nombre   de   validez   de   contenido,   pues   la   definen   como   la   representatividad  o  adecuación  muestral  del  contenido  que  se  mide  con  el  contenido  del  universo  del  cual   es  extraída  (Kerlinger,  1981a,  p.  322).    
  3. 3. Ministerio de Planificación Nacional y Política Económica 3   Es  importante  mencionar  que  la  validez  interna  y  externa  suelen  enconctarse  en  cierto  conflicto.  La  validez   interna  es  maximizada  cuando  se  logra  eliminar  todas  las  variables  confusoras  y  crear  un  ambiente  en  que   solamente  estén  presentes  las  variables  de  interés  que  representan  la  relación  causal.  Esto  suele  ser  el  caso   en  los  llamados  experimentos  de  laboratorio.  La  validez  externa,  por  el  otro  lado,  requiere  que  las  variables   de  interés  se  midan  en  su  contexto  natural  para  que  se  pueda  inferir  el  resultado  del  estudio  más  allá  de  los   límites   del   mismo.   Para   medir,   por   ejemplo,   el   efecto   de   un   programa   televisivo   didáctico   sobre   una   determinada   área   de   aprendizaje,   uno   podría   fácilmente   crear   una   situación   de   laboratorio   donde   los   jóvenes   se   expongan   al   programa   en   un   ambiente   perfectamente   controlado   y   con   mínimas   influencias   externas  (maximizando  la  validez  interna).  Pero  aunque  se  logre  medir  un  efecto  de  aprendizaje  positivo,   ¿este  mismo  efecto  se  daría  en  los  jóvenes  que  lo  miren  en  su  casa,  tomando  en  cuenta  todos  los  factores   que  puedan  disminuir  la  atención  y  el  por  ende,  la  asimilación  de  la  información?  (problema  de  la  validez   externa).   Finalmente,   la   confiabilidad   tiene   por   objeto   asegurarse   que   un   investigador,   siguiendo   los   mismos   procedimientos  descritos  por  otro  investigador  anterior  y  conduciendo  el  mismo  estudio,  puede  llegar  a  los   mismos   resultados   y   conclusiones.   Nótese   que   se   trata   de   rehacer   el   mismo   estudio,   no   una   réplica   del   mismo.     En   la   investigación   cuantitativa,   la   validez   (interna   y   externa)   se   asocia   a   las   respectivas   estrategias   de   investigación  (experimentales,  cuasi-­‐experimentales  o  no  experimentales;  de  campo  o  de  laboratorio)  que   son  tratadas  en  el  capítulo  5  del  Manual  Gerencial  para  el  diseño  y  ejecución  de  Evaluaciones  Estratégicas  de   Gobierno.  La  confiabilidad  es  alcanzada  sobre  todo  a  través  de  un  máximo  escrutinio  en  la  construcción  y   validación  de  los  instrumentos  para  la  recolección  (capítulo  6  del  mismo  manual)  así  como  de  la  uniformidad   de  la  forma  de  aplicación.         La validez y confiabilidad en la investigación cualitativa   1. La Validez   En  sentido  amplio  y  general,  una  investigación  cualitativa  tendrá  un  alto  nivel  de  “validez”  en  la  medida  en   que  sus  resultados  “reflejen”  una  imagen  lo  más  completa  posible,  clara  y  representativa  de  la  realidad  o   situación  estudiada.     Pero   no   se   tiene   un   solo   tipo   de   conocimiento.   El   positivismo   tradicional   ha   mostrado   ser   eficaz   en   las   ciencias  naturales  donde  produce  un  conocimiento  adecuado  para  tratar  con  el  mundo  físico.  Sin  embargo,   en  las  ciencias  sociales,  el  estudio  de  variables  aisladas,  desligadas  de  realidad  compleja  desde  la  cual  se   tienen  que  comprender,  ha  resultado  demasiado  reduccionista.  La  respuesta  la  dan  distintas  ramas  de  las   ciencias  histórico-­‐hermenéuticas  (ciencias  interpretativas)  que  llevan  a  una  priorización  de  una  metodología   cualitativa   y   un   análisis   interpretativo   (en   lugar   de   estadístico).   Por   esta   vía,   producen   el   conocimiento   interactivo  que  subyace  en    las  relaciones  sociales.       En   las   ciencias   hermenéuticas,   el   desafío   de   la   validez   se   enfrenta   de   una   manera   distinta   positivismo   tradicional   y   la   investigación   cuantitativa.   La   validez   se   aprecia   de   acuerdo   al   nivel   de   su   habilidad   para   producir  relaciones  humanas  con  alto  sentido  de  empatía  y  vinculación.  Una  investigación  tiene  un  alto  nivel   de  validez  si  al  observar  o  apreciar  una  realidad,  se  observa  o  aprecia  esa  realidad  en  sentido  pleno,  y  no   sólo  un  aspecto  o  parte  de  la  misma.     Si  la  confiabilidad  ha  representado  siempre  un  requisito  difícil  para  las  investigaciones  cualitativas,  debido  a   la  naturaleza  peculiar  de  éstas  (imposibilidad  de  repetir,  stricto  sensu,  el  mismo  estudio),  no  ha  ocurrido  lo  
  4. 4. MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO 4   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA   mismo  en  relación  con  la  validez.  Al  contrario,  la  validez  es  la  fuerza  mayor  de  estas  investigaciones.  En   efecto,  la  aseveración  de  los  investigadores  cualitativos  de  que  sus  estudios  poseen  un  alto  nivel  de  validez,   deriva  de  su  modo  de  recoger  la  información  y  de  las  técnicas  de  análisis  que  usan.  Esos  procedimientos  los   inducen  a  relacionarse  intensamente  con  los  sujetos  participantes  en  el  estudio,  a  recoger  los  datos  durante   largos   períodos   de   tiempo,   revisarlos,   compararlos   y   analizarlos   de   manera   continua,   al   adecuar   las   entrevistas  a  las  categorías  empíricas  de  los  participantes  y  no  a  conceptos  abstractos  o  extraños  traídos  de   otro  medio,  a  utilizar  la  observación  participativa  en  los  medios  y  contextos  reales  donde  se  dan  los  hechos   y,   finalmente,   a   incorporar   en   el   proceso   de   análisis   una   continua   actividad   de   realimentación   y   re   evaluación.  Aunque  todo  esto  garantiza  un  alto  nivel  de  validez,  también  la  validez  es  perfectible,  y  será   tanto   mayor   en   la   medida   en   que   se   tengan   en   cuenta   algunos   problemas   y   dificultades   que   se   pueden   presentar  en  la  investigación  cualitativa.     Entre  otros,  para  una  buena  validez  interna,  habrá  que  prestar  especial  atención  a  los  siguientes:     a)  Puede  haber  un  cambio  notable  en  el  ambiente  estudiado  entre  el  principio  y  el  fin  de  la  investigación.  En   este  caso,  habrá  que  recoger  y  cotejar  la  información  en  diferentes  momentos  del  proceso.     b)  Es  necesario  calibrar  bien  hasta  qué  punto  la  realidad  observada  es  una  función  de  la  posición,  el  estatus  y   el  rol  que  el  investigador  ha  asumido  dentro  del  grupo.  Las  situaciones  interactivas  siempre  crean  nuevas   realidades  o  modifican  las  existentes.     c)   La   credibilidad   de   la   información   puede   variar   mucho:   los   informantes   pueden   mentir,   omitir   datos   relevantes   o   tener   una   visión   distorsionada   de   las   cosas.   Será   necesario   contrastarla   con   la   de   otros,   recogerla  en  tiempos  diferentes,  etc.;  conviene,  asimismo,  que  la  muestra  de  informantes  represente  en  la   mejor  forma  posible  los  grupos,  orientaciones  o  posiciones  de  la  población  estudiada,  como  estrategia  para   corregir   distorsiones   perceptivas   y   prejuicios,   aunque   siempre   seguirá   siendo   cierto   que   la   verdad   no   es   producida  por  el  ejercicio  azarístico  y  democrático  en  la  recolección  de  la  información  general,  sino  por  la   información  de  las  personas  más  capacitadas  y  fidedignas.       En   cuanto   a   la   validez   externa,   es   necesario   recordar   que   a   menudo   las   estructuras   de   significado   descubiertas   en   un   grupo   no   son   comparables   con   las   de   otro,   porque   son   específicas   y   propias   de   ese   grupo,  en  esa  situación  y  en  esas  circunstancias,  o  porque  el  segundo  grupo  ha  sido    escogido  en  diferentes   circunstancias  o  a  partir  de  criterios  distintos  y  no  le  son  aplicables  las  conclusiones  obtenidas  en  el  primero.   Por  ende,  las  ciencias  hermenéuticas  suelen  concentrarse  en  la  plena  comprensión  del  caso  (o  los  casos)   estudiado(s),  y  no  asegurar  una  validez  externa.     2. La Confiabilidad   Una  investigación  con  buena  confiabilidad  es  aquella  que  es  estable,  segura,  congruente,  igual  a  sí  misma  en   diferentes  tiempos  y  previsible  para  el  futuro.  También  la  confiabilidad  tiene  dos  caras,  una  interna  y  otra   externa:  hay  confiabilidad  interna  cuando  varios  observadores,  al  estudiar  la  misma  realidad,  concuerdan  en   sus  conclusiones;  hay  confiabilidad  externa  cuando  investigadores  independientes,  al  estudiar  una  realidad   en  tiempos  o  situaciones  diferentes,  llegan  a  los  mismos  resultados.       El  concepto  tradicional  de  “confiabilidad”  externa  implica  que  un  estudio  se  puede  repetir  con  el  mismo   método   sin   alterar   los   resultados,   es   decir,   es   una   medida   de   la   replicabilidad   de   los   resultados   de   la   investigación.  En  las  ciencias  humanas,  dicha  confiabilidad  de  ninguna  manera  se  puede  considerar  como  un   simple   dicotomía   (“un   estudio   es   o   no   es   confiable”)   sino   como   una   característica   gradual   (de   menor   a  
  5. 5. Ministerio de Planificación Nacional y Política Económica 5   mayor)   dado   que   es   prácticamente   imposible   reproducir   las   condiciones   exactas   en   que   “un   comportamiento”  y  su  estudio  tuvieron  lugar.     En  los  estudios  realizados  por  medio  de  investigaciones  cualitativas,  que,  en  general,  están  guiados  por  una   orientación   sistémica,   hermenéutica,   fenomenológica,   etnográfica   y   humanista,   la   confiabilidad   está   orientada  hacia  el  nivel  de  concordancia  interpretativa  entre  diferentes  observadores,  evaluadores  o  jueces   del  mismo  fenómeno,  es  decir,  la  confiabilidad  será,  sobre  todo  interna,  inter-­‐jueces.       Dada  la  naturaleza  particular  de  toda  investigación  cualitativa  y  la  complejidad  de  las  realidades  que  estudia,   no   es   posible   repetir   o   replicar   un   estudio   en   sentido   estricto,   como   se   puede   hacer   en   muchas   investigaciones   experimentales.   Debido   a   ello,   la   confiabilidad   de   estos   estudios   se   logra   usando   otros   procedimientos  rigurosos  y  sistemáticos.       La  confiabilidad  interna  es  muy  importante.  En  efecto,  el  nivel  de  consenso  entre  diferentes  observadores   de   la   misma   realidad   eleva   la   credibilidad   que   merecen   las   estructuras   significativas   descubiertas   en   un   determinado  ambiente,  así  como  la  seguridad  de  que  el  nivel  de  congruencia  de  los  fenómenos  en  estudio   es  fuerte  y  sólido.       Los   investigadores   cualitativos   suelen   utilizar   varias   estrategias   para   reducir   las   amenazas   que   se   le   presentan  a  la  confiabilidad  interna:     a)  Usar  categorías  descriptivas  de  bajo  nivel  de  inferencia,  es  decir,  lo  más  concretas  y  precisas  posible.  Los   datos  son  algo  ya  interpretado  (Hanson,  1977);  por  esto,  es  conveniente  que  estén  cercanos  a  la  realidad   observada:  quién  hizo  qué  cosa  y  en  qué  circunstancias.  Los  comentarios  interpretativos  pueden  añadirse,   eliminarse   o   modificarse   más   tarde.   Además,   la   mayoría   de   los   autores   coinciden   en   señalar   que   los   procedimientos  cualitativos  son  ricos  en  datos  primarios  y  frescos,  que  ofrecen  al  lector  múltiples  ejemplos   extraídos  de  las  notas  de  campo,  y  son,  por  esto,  generalmente  consideradas  como  más  creíbles.       b)   El   mejor   aval   para   la   confiabilidad   interna   de   un   estudio   cualitativo   es   la   presencia   de   varios   investigadores.  El  trabajo  en  equipo,  aunque  es  más  difícil  y  costoso,  garantiza  un  mejor  equilibrio  de  las   observaciones,  los  análisis  y  la  interpretación.       c)  Pedir  la  colaboración  de  los  sujetos  informantes  para  confirmar  la  “objetividad”  de  las  notas  o  apuntes  de   campo.  Asegurarse  de  que  lo  visto  o  registrado  por  el  investigador  coincide  o  es  consistente  con  lo  que  ven  o   dicen  los  sujetos  del  grupo  estudiado.       d)   Utilizar   todos   los   medios   técnicos   disponibles   en   la   actualidad   para   conservar   en   vivo   la   realidad   presenciada:  grabaciones  de  audio  y  de  vídeo,  fotografías,  diapositivas,  etc.  Este  material  permitirá  repetir   las   observaciones   de   realidades   que   son,   de   por   sí,   irrepetibles,   y   que   las   puedan   “presenciar”   otros   observadores  ausentes  en  el  momento  en  que  sucedieron  los  hechos.  Su  aporte  más  valioso  radica  en  que   nos  permiten  volver  a  los  “datos  brutos”  y  poder  categorizarlos  y  conceptualizarlos  de  nuevo.     Para   alcanzar   un   buen   nivel   de   confiabilidad   externa,   se   puede   recurrir,   entre   otras,   a   las   siguientes   estrategias:       a)  Precisar  el  nivel  de  participación  y  la  posición  asumida  por  el  investigador  en  el  grupo  estudiado;  cierta   información  puede  ser  diferente  de  acuerdo  con  el  sexo  de  quien  la  dé  (las  mujeres  pueden  ocultar  ciertos   datos  íntimos  si  el  investigador,  por  ejemplo,  es  de  sexo  masculino);  igual  sucede  si  el  investigador  ha  hecho   amigos  dentro  del  grupo;  éstos  le  darán  informaciones  que  no  les  dan  otros.    
  6. 6. MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO 6   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA     b)  Identificar  claramente  a  los  informantes.  Éstos  pueden  representar  grupos  definidos  y  dar  información   parcial  o  prejuiciada.  Los  miembros  que  simpatizan  y  colaboran  más  con  los  investigadores  pueden  ser,  por   esto  mismo,  miembros  atípicos.  Esta  situación  se  puede  advertir  al  hacer  una  buena  descripción  del  tipo  de   personas  que  han  servido  como  informantes.       c)   Un   tercer   elemento   que   puede   influir   en   los   datos   es   el   contexto   en   que   se   recogen.   Debido   a   ello,   conviene   especificar   el   contexto   físico,   social   e   interpersonal   de   que   se   derivan.   Esto   aumentará   la   replicabilidad  de  los  estudios.       d)   Para   que   sea   posible   una   “cierta   réplica”   es   imprescindible   la   identificación   de   los   supuestos   y   metateorías  que  subyacen  en  la   elección   de   la   terminología   y   los   métodos   de   análisis.   Los   conceptos   de   “cultura”,   “ciencia”,   “método”,   “análisis”,   “dato”,   “codificación”   y   muchos   otros   pueden   diferir   sustancialmente  entre  diferentes  investigadores.       e)   Precisar   los   métodos   de   recolección   de   la   información   y   de   su   análisis,   de   tal   manera   que   otros   investigadores  puedan  servirse  del  reporte  original  como  un  manual  de  operación  para  repetir  el  estudio.  La   replicabilidad  se  vuelve  imposible  sin  una  precisa  identificación  y  cuidadosa  descripción  de  las  estrategias  de   procedimiento.     3. La triangulación para mejorar la validez y la confiabilidad   En   sentido   amplio,   en   las   ciencias   humanas,   también   se   pueden   realizar   varias   “triangulaciones”   que   mejoran   notablemente   los   resultados   de   la   investigación   y   su   validez   y   la   confiabilidad.   De   una   manera   particular,   se   pueden   combinar,   en   diferentes   formas,   técnicas   y   procedimientos   cualitativos   y   cuantitativos.  La  idea  central  es  utilizar  todo  lo  que  se  considere  pertinente,  tenga  relación  y  se  considere   útil.     Más  concretamente,  se  pueden  identificar  varios  tipos  básicos  de  triangulación:     a)   Triangulación   de   métodos   y   técnicas:   que   consiste   en   el   uso   de   múltiples   métodos   o   técnicas   para   estudiar   un   problema   determinado   (por   ejemplo,   el   hacer   un   estudio   panorámico   primero,   con   una   encuesta,  y  después  utilizar  la  observación  participativa  o  una  técnica  de  entrevista).     b)  Triangulación  de  datos:  en  la  cual  se  utiliza  una  variedad  de  datos  para  realizar  el  estudio,  provenientes   de  diferentes  fuentes  de  información.       c)  Triangulación  de  investigadores:  en  la  cual  participan  diferentes  investigadores  o  evaluadores,  quizá  con   formación,  profesión  y  experiencia  también  diferentes.       d)  Triangulación  de  teorías:  que  consiste  en  emplear  varias  perspectivas  para  interpretar  y  darle  estructura   a  un  mismo  conjunto  de  datos  (por  ejemplo,  una  teoría  basada  en  las  técnicas  de  correlación,  análisis  de   varianza,   análisis   de   regresión,   análisis   factorial   o   cluster   analysis   y   otra   que   utilice   la   observación   participativa).     e)  Triangulación  interdisciplinaria:  con  la  cual  se  invocan  múltiples  disciplinas  a  intervenir  en  el  estudio  o   investigación  en  cuestión  (por  ejemplo,  la  biología,  la  psicología,  la  sociología,  la  historia,  la  antropología,   etc.).  
  7. 7. Ministerio de Planificación Nacional y Política Económica 7   Apartado 5.2: Diseños metodológicos cuantitativos Material 5.2.1: Diseños experimentales y cuasi-experimentales   I. Introducción: Sobre el enfoque cuantitativo   Para   la   evaluación   de   efectos   e   impactos,   se   utiliza   el   enfoque   cuantitativo   para   estimar   la   cuantía   del   resultado  de  la  intervención  mediante  el  estableciendo  de  relaciones  causales.       El  enfoque  cuantitativo  es  secuencial,  deductivo,  probatorio  y  analiza  una  realidad  supuestamente  objetiva.   Estas   características   se   fundamentan   en   un   proceso   de   investigación   estructurado,   donde   es   necesario   concluir  una  fase  para  continuar  con  la  siguiente.  La  ilustración  1  muestra  las  fases  del  proceso  cuantitativo:     Ilustración  1.  Enfoque  cuantitativo:  su  proceso       La  evaluación  estratégica  bajo  el  enfoque  cuantitativo  requiere  que  el  problema  de  evaluación  sea  lo  más   concreto  posible,  con  el  fin  de  elaborar  las  preguntas  sobre  cuestiones  específicas.     Cuando  la  intervención  no  tiene  teoría  de  intervención  o  no  está  bien  definida,  el  evaluador  debe  revisar  la   literatura  y  usar  su  experiencia  sobre  el  tema  para  re-­‐elaborar  la  teoría  de  la  intervención.  En  este  enfoque,   el  alcance  de  la  evaluación,  la(s)  hipótesis  y  preguntas  de  evaluación  son  planteadas  antes  de  recolectar  los   datos.     Idea Planteamiento Del Problema Revisión de la Literatura y Desarrollo del Merco teórico Visualización del Alcance Del estudio Elaboración de hipótesis y Definición de variables Desarrollo del Diseño de Investigación Definición y Selección de la muestra Recolección de datos Análisis de los datos Elaboración del reporte de resultados Fase 1 Proceso cuantitativo Fase 2 Fase 3 Fase 4 Fase 5 Fase FaseFaseFaseFase Fuente: Hernández, S. y otros, 2010
  8. 8. MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO 8   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA     La  recolección  de  datos,  se  fundamenta  en  la  medición  de  variables  o  conceptos  contenidos  en  las  hipótesis;   y  se  lleva  a  cabo  utilizando  procedimientos  estandarizados.  Los  datos  se  presentan  mediante  variables  que   serán  analizados  cuantitativamente  (tratándose  de  variables  métricas,  ordinales  o  nominales),  a  través  de   métodos  estadísticos.       Los  datos  recolectados  y  analizados    bajo  el  enfoque  cuantitativo  son  utilizados  para  la  prueba  de  hipótesis   previamente   definidas,   de   manera   que   los   resultados   se   basan   solo   en   las   hipótesis   o   variables   que   se   propusieron  para  ser  analizadas.     El   proceso   de   la   evaluación   se   centra   en   rechazar   o   aceptar   la   hipótesis.   Este   enfoque   busca   el   máximo   control  para  lograr  que  posibles  explicaciones  -­‐distintas  a  la  propuesta  de  la  intervención-­‐  sean  rechazadas  y   aumente   la   confiabilidad   de   los   resultados;   siendo   éstos   lo   más   objetivos   posibles   y   permitan   ser   generalizados  sobre  la  población  de  interés.       Sobre  la  inferencia  causal  y  el  contrafactual     Es  necesario  introducir  dos  conceptos  elementales  para  llevar  a  cabo  evaluaciones  de  impacto  creíbles  y   precisas  dentro  del  enfoque  cuantitativo:  inferencia  causal  y  el  contrafactual.     Inferencia  causal     La  evaluación  de  impacto  trata  de  atribuir  la  causalidad  de  una  intervención  sobre  un  resultado  de  interés,  al   estimar  en  qué  medida  esa  (y  solo  esa)  intervención  ha  contribuido  a  cambiar  un  resultado.  ¿El  programa  de   capacitación   laboral   aumentó   los   ingresos   de   los   jóvenes   de   un   barrio   rural   pobre?;   ¿las   vacunas   disminuyeron  la  mortalidad  infantil?,  ¿el  programa  de  transferencia  monetaria  condicionada  redujo  la  tasa   de  deserción  estudiantil?;  son  preguntas  típicas  sobre  causalidad  presente  en  la  evaluación  de  impacto.     Determinar  la  relación  de  causalidad  entre  una  intervención  y  un  resultado  no  es  sencillo  y  para  ello  se  usan   métodos 1  de  evaluación  de  impacto,  que  descartan  la  posibilidad  de  que  cualquier  factor  diferente  de  la   intervención  en  estudio  explique  el  impacto  observado.       La   interrogante   central   en   la   evaluación   de   resultados   es   cuál   es   el   impacto   o   efecto   causal   de   una   intervención  D  sobre  un  resultado  de  interés  Y;.  La  respuesta  a  la  pregunta  se  obtiene  mediante  la  fórmula   básica  de  la  evaluación  de  impacto:     β  =  (Y  |  D  =  1)  −  (Y  |  D  =  0)      (1)     Según  esta  fórmula,  el  impacto  causal  (β)  de  una  intervención  (D)  sobre  un  resultado  (Y)  es  la  diferencia   entre  el  resultado  (Y)  con  la  intervención  (es  decir,  cuando  D  =  1)  y  el  mismo  resultado  (Y)  sin  la  intervención   (es  decir,  cuando  D  =  0).       Sea  P  un  programa  de  capacitación,  Y  el  ingreso  de  los  jóvenes  de  un  barrio  rural  pobre,  y  α  es  la  diferencia   entre  el  ingreso  del  joven  (Y)  cuando  participa  en  el  programa  (D  =  1)  y  el  ingreso  del  joven  en  ese  mismo   momento,  sino  hubiese  participado  en  el  programa  (D  =  0);  entonces,  es  necesario  medir  el  ingreso  de  la   1 Los métodos de estimación de evaluación de impacto se describen más adelante.
  9. 9. Ministerio de Planificación Nacional y Política Económica 9   misma  persona  en  dos  momentos  (con  o  sin  programa) 2 ,  si  esto  fuese  posible,  la  única  explicación  sobre  la   diferencia   en   el   ingreso   de   ese   individuo   es   el   programa   de   capacitación   laboral,   eliminándose   cualquier   factor  externo  que  pudiera  explicar  también  la  diferencia  en  los  ingresos.  En  este  caso  se  podría  confiar  en   que  la  relación  entre  el  programa  de  capacitación  laboral  y  el  ingreso  es  causal.     La   fórmula   básica   de   la   evaluación   de   impacto   es   válida   a)   para   cualquier   objeto   de   análisis   (individuo,   comunidad,   institución   u   otro)   que   pueda   beneficiarse   o   verse   afectada   por   una   intervención;   y   b)   para   cualquier  resultado  (Y)  que  esté  relacionado  con  la  intervención.  Una  vez  que  se  cuente  con  los  datos  de  los   dos  componentes  esenciales  de  la  fórmula,  el  resultado  (Y)  tanto  con  la  intervención  como  sin  ella,  se  puede   responder  a  cualquier  pregunta  acerca  del  impacto  del  programa.     Contrafactual     “El  contrafactual  es  una  estimación  de  cuál  habría  sido  el  resultado  (Y)  en  las  variables  de  interés  para  un   participante   en   el   programa,   si   este   no   hubiera   tomado   el   programa   (D)”   (Gertler,   Martínez,   Premand,   Rawlings  y  Vermeersch,  2011).       El  impacto  (α)  de  una  intervención  es  la  diferencia  entre  los  resultados  (Y)  del  mismo  individuo  cuando  ha   participado   y   cuando   no   ha   participado   en   la   intervención.   No   obstante,   no   es   posible   medir   al   mismo   individuo  en  situaciones  diferentes  en  el  mismo  momento,  debido  a  que  el  individuo  participa  o  no  en  la   intervención.  Esta  situación,  es  conocida  como  el  “problema  contrafactual”.       El   problema   del   contrafactual   se   puede     resumir   en   la   pregunta   siguiente   ¿cómo   se   mide   los   datos   del   resultado  (Y)  si  el  individuo  que  participó  en  la  intervención  (D  =  1)  no  hubiese  participado  (D  =  0)  en  la   intervención?       El  contrafactual  se  representa  como  el  segundo  término  en  la  fórmula  básica  de  evaluación  (Y  |  D=  0).  Por   definición,  es  no  observable,  por  lo  que  se  debe  estimar.  La  estimación  del  contrafactual  requiere  métodos   para   identificar   los   grupos   de   control   o   comparación 3   válidos   que   reproduzcan   o   imiten   exactamente   el   grupo  de  tratamiento.  Si  no  se  cuenta  con  una  estimación  válida  o  creíble  del  contrafactual,  no  se  puede   conocer  el  impacto  de  una  intervención.     La  evaluación  de  impacto    identifica  a  un  grupo  de  participantes  en  la  intervención  (el  grupo  de  tratamiento)   y  a  un  grupo  de  no  participantes  (el  grupo  de  control  o  comparación)  estadísticamente  idénticos  en  ausencia   de  la  intervención.  Si  se  lograra  que  los  dos  grupos  fueran  absolutamente  iguales,  a  excepción  de  que  uno   de  ellos  participa  en  el  programa  y  el  otro  no,  cualquier  diferencia  en  los  resultados  debería  ser  explicada   por  la  intervención.     Aunque   en   realidad   nunca   existirán   dos   grupos   idénticos   en   todas   sus   características   posiblemente   relevantes,  la  investigación  cuantitativa  propone  distintos  tipos  de  diseños  con  el  fin  de  simular  la  situación   contrafactual  y  de  esta  manera,  determinar  el  “resultado  neto”  de  una  intervención.     2  Es  imposible  medir  el  resultado  de  un  indicador  de  interés  de  una  misma  persona  en  dos  momentos  diferentes,  ya  que,   no  se  sabe  cuál  sería  el  resultado  del  indicador  si  la  persona  no  participó  en  la  intervención.   3   Se   le   llama   grupo   de   control   cuando   el   diseño   es   experimental   y   grupo   de   comparación   cuando   el   diseño   es   no   experimental
  10. 10. MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO 10   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA   Por  basarse  en  la  existencia  de  grupos  de  control  o  grupos  de  comparación    -­‐  supuestamente  con  suficiente   parecido  al  grupo  de  intervención  -­‐    los  diseños  más  poderosos  para  la  determinación  del  “resultado  neto”   son  los  llamados  diseños  experimentales  y  cuasi-­‐experimentales.     II. Diseño experimental   El   diseño   experimental   también   es   conocido   con   los   nombres   de   “Diseño   de   controles   aleatorios 4 ”/   “experimentos  aleatorios  (sociales) 5 ”,  “experimento  social  controlado 6 ”  y  “modelo  experimental”. 7     Una  evaluación  con  diseño  experimental  es  una  valoración  lo  más  objetiva  posible  de  los  resultados  de  una   intervención  que  se  caracteriza  principalmente  por  el  mecanismo  de  selección  al  azar  de  los  beneficiarios  y   no  beneficiarios,  así  como  un  absoluto  control  de  la  intervención  y  sus  respectivas  modificaciones.       En  este  tipo  de  diseños  la  intervención  y  sus  respectivas  modificaciones  son  planificadas  por  el  planificador  o   evaluador;   los   factores   externos   (crisis   económica,   alza   en   el   precio   internacional   del   petróleo,   desastres   naturales,  otros)  que  pueden  incidir  sobre  los  resultados  de  la  intervención  son  controlados  o  manipulados   por  el  evaluador.  Evidentemente,  esto  no  quiere  decir  que  los  factores  externos  son  eliminados  (lo  cual  sería   imposible  en  el  mundo  social)  sino  que  los  grupos  se  conforman  de  tal  manera  que  los  factores  externos   afecten  al  grupo  de  beneficiarios  como  al  grupo  de  no  beneficiarios  de  la  misma  manera.     La  ilustración  2,  muestra  las  dos  etapas  del  mecanismo  de  selección  de  las  personas  que  participaran  en  la   intervención   y   aquellas   que   no   participaran.   La   primera   etapa   consiste   en   obtener   una   muestra   al   azar   (aleatoria)  de  los  beneficiarios  potenciales.  Una  vez  obtenido  esa  muestra,  procede  la  segunda  etapa,  que   radica  en  asignar  al  azar  quienes  participaran  y  quienes  no  participaran  de  la  intervención.     Por  ejemplo,  supóngase  la  siguiente  situación  hipotética:  Para  una  población  de  1000  mujeres  pobres  jefas   de  hogar  en  cierta  provincia,  el  Gobierno  realiza  un  proyecto  de  transferencia  monetaria;  el  administrador   del  proyecto  asigna  un  número  del  uno  al  mil  a  cada  mujer,  y  posteriormente,  de  un  bolsa  que  contiene   papelitos  con  cifras  del  uno  al  mil  saca  al  azar  (como  especie  de  lotería)  una  muestra  de  500  papelitos,  los   cuales   corresponden   a   una   muestra   de   500   mujeres   que   son   potenciales   beneficiarias.   A   partir   de   esa   muestra,   el   administrador   asigna   al   azar   las   mujeres   que   participaran   y   que   no   participaran   de   la   intervención.  Nótese,  que  las  mujeres  no  eligen  si  participar  o  no,  es  el  administrador  es  quien  asigna  al  azar   la  participación.       La   importancia   de   asignar   al   azar   quien   participa   y   quien   no   en   una   intervención   es   hacer   grupos   comparables  entre  sí  que  no  se  distinguen  por  otro  factor  a  excepción  de  la  variabilidad  estadística.  Todas   las   personas   poseen   características   observables   y   características   no   observables 8   diferentes.   El   proceso   aleatorio  facilita  la  comparabilidad  de  los  grupos,  ya  que  asigna  una  probabilidad  igual  a  cada  uno  de  los   beneficiarios  potenciales,  con  lo  cual  se  asegura  de  distribuir  equivalentemente  (en  términos  estadísticos)   las  características  observables  y  no  observables  entre  ambos  grupos.  Al  grupo  de  individuos  no  participantes   se  les  llama  grupo  de  control  porque  son  el  parámetro  de  comparación  del  grupo  de  participantes,  a  estos   4 Gertler,  et  al  (2011).   5  Bernal  y  Peña  (2011).   6  Ídem.   7  Stockmann  (2009).   8  Las  características  o  variables  no  observables  son  aquellas  que  existen  y  que  se  registran,  las  características  o  variables   no  observables  son    aquellas  que  no  existen  o  no  se  cuenta  con  un  registro  de  las  mismas  (Bernal  y  Peña,  2011:18).
  11. 11. Ministerio de Planificación Nacional y Política Económica 11   últimos  se  les  conoce  como  grupo  de  tratamiento  o  intervención,  porque  son  quienes  reciben  el  tratamiento   o  la  intervención,  tal  y  como  aparece  en  la  ilustración  2.         Ilustración  2.  Diseño  experimental                                         La  primera  etapa  del  diseño  experimental  es  una  condición  necesaria  para  posibilitar  la  validez  externa  de  la   evaluación,  es  decir  que  aporta  información  acerca  de  la  posibilidad  de  extrapolar  el  resultado  de  la  muestra   a  la  población  de  interés.  Sin  embargo,  existen  otros  desafíos  para  la  validez  externa  que  están  relacionados   con  el  carácter  “artificial”  del  experimento  (véase  el  siguiente  apartado  sobre  experimentos  de  laboratorio   vs.  experimentos  de  campo).  La  segunda  etapa    garantiza  la  comparabilidad  del  grupo  de  intervención  con  el   grupo   de   control   maximizando   de   esta   manera   la   validez   interna,   esto   es,   el   grado   de   certeza   de   que   cualquier  diferencia  encontrada  entre  los  dos  se  debe  solo  al  hecho  de  participar  o  no  en  la  intervención  que   se  evalúa,  controlando  así  la  incidencia  de  otras  factores  externos  que  estén  asociadas  con  la  variable  de   resultado  o  interés  y  la  participación  en  la  intervención  pública.  Si  esto  se  cumple,  entonces  el  impacto  de  la   intervención   es   el   resultado   de   restar   los   promedios   de   las   variables   de   resultados   entre   ambos   grupos   (Bernal  y  Peña,  2011:  40,  l).     I.1   Tipos  de  experimentos     I.1.1   Plan  Experimental  Solomon  de  Cuatro  Grupos   Una  debilidad  del  diseño  sencillo  de  dos  grupos  (con  medición  antes  y  después  de  la  intervención)  es  la   dificultad  de  controlar  por  factores  reactivos  de  la  medición.  Si  bien  una  medición  antes  de  la  medición  es   importante  para  registrar  diferencias  entre  ambos  grupos  debido  a  errores  aleatorios,  esta  misma  medición   puede  influir  en  el  resultado.  Cuando  en  el  caso  de  un  curso  de  capacitación,  por  ejemplo,  se  realiza  un   examen   de   entrada   y   uno   ex-­‐post,   el   grupo   de   control   ya   queda   familiarizado   con   los   requerimientos.   Aunque  ellos  no  participen  en  la  intervención,  es  posible  que  terminen  mejor  preparados  para  el  examen  ex-­‐ pos  que  otras  personas  que  no  han  sido  parte  del  estudio.     Fuente: Elaboración propia con base a CEPAL (2005) Muestra Población Control Intervención o tratamiento Resultado Resultado Presente Futuro Selección al azar La evaluación compara ambos resultados 1° Etapa 2° Etapa Selección al azar
  12. 12. MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO 12   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA   Al  contar  con  esta  amenaza  para  la  validez  del  estudio,  el  diseño  descrito  se  amplía  mediante  el  llamado   “Plan   Experimental   Solomon   de   Cuatro   Grupos”   (Ilustración   3)   con   dos   grupos   adicionales   (un   grupo   experimental   y   otro   de   control),   en   los   cuales   solamente   se   realiza   una   medición   posterior   (para   una   descripción   del   diseño,   véase   Bortz   y   Döring   2002:   539f.).   Por   este   medio   se   pretende   controlar   adicionalmente  el  efecto  reactivo  de  la  medición.       Ilustración  3.  Plan  Experimental  Solomon  de  Cuatro  Grupos                                             I.1.2   Experimentos  de  laboratorio  y  experimentos  de  campo     En  el  contexto  de  la  evaluación  se  hallan  dos  tipos  de  experimentos:     • Experimento  de  laboratorio.  Son  aquellos  experimentos  donde  la  intervención  se  lleva  a  cabo  en  un   entorno   “artificial”   controlado;   donde   se   controlan   o   manipulan   los   factores   externos   de   la   intervención;   el   ambiente   y   el   desarrollo   de   la   misma;   así   como   el   comportamiento   del   grupo   intervenido   y   el   grupo   de   control.   Bajo   condiciones   controladas,   la   influencia   y   presencia   de   factores  externos  a  la  intervención  es  mínima,  lo  que  permite  estudiar  las  relaciones  “puras”  de   causa   –   efecto.   Este   tipo   de   experimentos   maximiza   la   validez   interna   de   los   resultados,   sin   embargo,  en  el  contexto  de  la  evaluación  de  intervenciones  públicas,  muy  raras  veces  es  aplicable,   dado   que   las   intervenciones   tienen   lugar   en   un   entorno   social   natural   y   complejo.   Aunque   en   Fuente: Elaboración propia con base a CEPAL (2005) Muestra Población Medición ex ante Medición ex postSelección al azar Grupo de control I (ex ante) Grupo de intervención I (ex ante) Grupo de intervención I (ex pos) Grupo de control I (ex post) Grupo de intervención II Grupo de control II
  13. 13. Ministerio de Planificación Nacional y Política Económica 13   algunos  casos  fuera  posible  aislar  la  intervención  bajo  condiciones  de  “laboratorio”,  es  muy  posible   que  los  efectos  observados  en  condiciones  artificiales  no  se  dejaran  extrapolar  al  contexto  natural   de  la  intervención  (problema  de  la  validez  externa).     • Experimento  de  campo.  Son  aquellos  experimentos  donde  “la  intervención  se  realiza  en  un  entono   real”,  por  lo  tanto,  no  se  controlan  o  manipulan  los  efectos  externos  que  pueden  incidir  sobre  la   intervención  y  el  comportamiento  del  grupo  de  intervención  y  control.  Bajo  estas  circunstancias,  la   relación  causa  –efecto  se  estudia  en  el  contexto  real  de  la  intervención;  lo  cual  permite  maximizar   la  validez  externa.  Debido  a  que  este  tipo  de  experimento  se  estudia  en  el  ámbito  real,  es  que  su   uso  es  común  en  las  evaluaciones  de  intervenciones  públicas.   I.1.2   Aleatorización  individual  y  de  conglomerado     En  ocasiones,  la  participación  en  una  intervención  se  puede  realizar  al  azar  sea  a  nivel  individual  o  a  nivel  de   conglomerado;   esto   según   las   razones   éticas   o   prácticas   con   las   que   la   intervención   permita   hacer   la   asignación  aleatoria.     • “Aleatorización  a  nivel    individual.”    Se  lleva  a  cabo  asignando  de  manera  aleatoria  la  participación   en  la  intervención  a  nivel  individual  (por  ejemplo:  personas,  hogares,  empresas).  En  este  caso,  de  la   lista  de  elegibles,  se  asignan  al  azar  a  aquellas  personas,  hogares  u  empresas  que  participarán  en  la   intervención  como  también  a  aquellos  que  serán  parte  del  grupo  de  control.     • “Aleatorización  a  nivel  de  conglomerados.”  La  asignación  de  los  participantes  en  la  intervención  se   hace  a  nivel  de  conglomerados  (por  ejemplo:  comunidades,  distritos).  Generalmente,  esta  variante   del  diseño  se  aplica  cuando  la  intervención  permea  a  todo  un  subgrupo  de  la  población.  Este  tipo   de  aleatorización  se  realiza  principalmente  cuando  existen  a)  razones  éticas:  no  se  puede  negar  el   acceso   a   los   beneficios   de   la   intervención   a   cierto   número   de   personas   u   hogares   de   la   misma   comunidad,  por  ejemplo,  un  barrio  que  presenta  la  problemática  de  niños  y  niñas  desnutridas,  sise   realiza  una  intervención  para  mejorar  la  nutrición  de  este  subgrupo  de  la  población,  la  intervención   no   será   ética   si,   entrega   alimentos   solo   a   aquel   grupo   de   niños   y   niñas   que   fueron   asignadas   a   participar  en  la  intervención  y  a  su  vez  forman  el  grupo  de  intervención,  mientras  se  le  priva  de   alimentos  a  aquellos  niños  y  niñas  que  no  tuvieron  la  suerte  de  que  sus  nombres  saliera  dentro  del   grupo   de   intervención,   sino   que   les   corresponde   ser   parte   del   grupo   de   control;   b)   razones   prácticas:  en  ocasiones  las  restricciones  logísticas,  presupuestarias  y  de  la  capacidad  operativa  de  la   intervención   imposibilitan   que   los   beneficios   de   la   misma   afecten   al   mismo   momento   a   toda   la   población,  debido  a  que  la  intervención  se  realiza  primero  en  algunos  subgrupos  de  la  población  y   luego  se  lleva  a  cabo  a  los  restantes  subgrupos,  esto  significa  que  se  pospone  la  entrada  de  algunos   subgrupos   a   la   intervención,   y   así   se   garantiza   la   existencia   de   grupos   de   control;   c)   existe   una   interacción   entre   los   beneficiados   y   los   no   beneficiados   lo   cual   puede   llevar,   por   ejemplo,   a   la   posibilidad  de  que  los  beneficios  permeen  de  un  grupo  a  otro:  esto  implica  que  a  la  hora  de  evaluar   la  intervención  se  puede  concluir  erróneamente  sobre  los  efectos  (o  sea:  la  carencia  de  efectos)  de   la  intervención.       En  resumen,  la  deseabilidad  de  un  tipo  u  otro  de  aleatorización  depende  del  tipo  de  preguntas  de  interés  en   la  evaluación,  consideraciones  políticas  y  éticas,  restricciones  logísticas  y  existencia  de  externalidades,  entre   otras  (Bernal  y  Peña,  2011:).     I.2   ¿Cuándo  se  aplica  diseño  experimental    en  una  evaluación?  
  14. 14. MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO 14   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA     Para  la  aplicación  o  uso  de  este  diseño  se  debe  tener  en  cuenta  las  siguientes  características:     • La   evaluación   mediante   este   diseño   es   aplicable   únicamente   cuando   se   prevé   el   diseño   de   la   evaluación  en  el  momento  de  planificación  de  la  intervención.     • El   mecanismo   de   selección   de   los   beneficiarios   de   la   intervención   es   aleatoria   (grupo   de   intervención  aleatorio).     • El  mecanismo  de  selección  del  grupo  de  control  es  aleatoria.     • En  cuanto  a  la  disponibilidad  de  los  datos  para  un  buen  diseño  experimental,  se  requiere  que  los   datos  hayan  sido  capturados  antes  y  después  de  la  intervención  tanto  para  el  grupo  de  intervención   como  el  grupo  de  control,  así  como  la  cantidad  de  veces  que  sea  necesario  o  recomendable  entre   esos  dos  momentos.       • El  diseño  experimental  se  aplica  solamente  cuando  la  cobertura  de  la  intervención  es  parcial.  La   aleatoriedad  como  mecanismo  de  acceso,  raras  veces  (o  mejor  dicho:  prácticamente  nunca)  es  el   mecanismo  más  funcional  desde  el  punto  de  vista  de  la  teoría  de  cambio  subyacente.  Por  eso,  el   diseño   experimental   requiere,   en   cierta   medida,   que   la   intervención   se   diseñe   en   función   de   su   evaluabilidad  (y  no  vice-­‐versa)  lo  cual  podría  ser  justificable  en  algunos  casos  de  proyectos  piloto   que  se  evalúan  a  pequeña  escala,  antes  de  que  la  intervención  se  introduzca  para  una  población   objetivo  más  amplia.     I.3   Modelos  de  estimación  del  diseño  experimental     Los   modelos   de   estimación   son   herramientas   estadísticas   y   econométricas   utilizadas   para   estimar   los   resultados  de  una  intervención  a  partir  de  relaciones  causales;  para  ello,  los  modelos  se  nutren  de  muchas   variables  representadas  numéricamente  y  varios  supuestos  sobre  las  mismas.  En  el  caso  de  las  evaluaciones,       la  variable  que  representa  el  resultado  de  la  intervención  en  el  modelo  de  estimación  se  le  conoce  como   variable  de  resultado.       I.3.1   Modelo  de  diferencias  sencillo     La  aleatorización  de  los  grupos  asegura  que  las  características  entre  el  grupo  de  intervención  y  el  grupo  de   control  sean  idénticas.  Esto  implica  dos    aspectos  importantes:       • Que  en  ausencia  de  la  intervención,  el  valor  de  la  variable  de  resultado  sea  idéntico  entre  ambos   grupos,  permitiendo  entonces  que  el  grupo  de  control  sea  un  buen  contrafactual;       • Que  después  de  la  intervención,  el  valor  de  la  variable  de  resultado  del  grupo  de  intervención  y   grupo  de  control  difiera  únicamente  por  motivos  de  la  exposición  a  la  intervención,  y  no  a  otras   características  o  variables  observables  o  no  observables  que  generan  el  sesgo  de  selección.     Dado  que  bajo  el  diseño  experimental  se  puede  contar  un  buen  contrafactual  y  el  sesgo  de  selección  es   controlado  o  resuelto,  la  estimación  del  resultado  de  la  intervención  es  relativamente  fácil  y  no  implica  uso   de  técnicas  econométricas  complejas  en  comparación  con  los  modelos  de  otros  diseños.    
  15. 15. Ministerio de Planificación Nacional y Política Económica 15   El   resultado   de   la   intervención   bajo   el   modelo   de   diferencias   –en   forma   general-­‐   se   estima   como   la   diferencia 9  de  medias  (promedios)  en  la  variable  de  resultado  entre  el  grupo  de  intervención  y  el  grupo  de   control.   La   diferencia   de   medias   se   puede   calcular   con   un   el   modelo   de   estimación   lineal   de   Mínimos   Cuadrado  Ordinarios  (MCO)  10 :       Yi  =  β0  +  β1Di  +  ui      (1)     Donde       Yi  representa  la  variable  de  resultado  para  el  individuo  i,   Di  representa  una  variable  binaria,  que  toma  el  valor  de  1  si  el  individuo  i  participa  en  la  intervención  y  0  si  el   individuo  i  es  elegible  pero  no  participa  en  la  intervención,   β1    representa  el  estimador  de  diferencias.  Es  el  efecto  de  la  intervención;   ui    es  el  término  error  de  la  regresión  que  recoge  las  variables  observadas  y  no  observadas  del  individuo  i,   aparte  de  Di,  que  afectan  el  resultado.     II.3.2   Variantes  del  modelo  de  diferencias  11     1. “El estimador de diferencias con regresores adicionales” o con variables explicativas adicionales   Esta  variante  del  modelo  de  diferencias,  agrega  una(s)  variable(s)  explicativa(s)  adicional(es)  al  modelo  de   regresión  (1).  Las  variables  explicativas  son  aquellas  variables  que  explican  en  alguna  medida  la  variable  de   resultado.       Supóngase,  que  existe  un  programa  sobre  capacitación  en  el  idioma  inglés  para  mujeres  jefas  de  hogar  y  se   desea  evaluar  el  impacto  de  ese  programa.  Se  tiene  datos  tanto  para  las  mujeres  del  grupo  de  intervención  y   control  sobre  el  salario  (variable  de  resultado),  si  participó  o  no  en  la  intervención  (variable  que  indica  si  la   mujer  está  dentro  del  grupo  de  intervención  o  control)  y  además  el  nivel  de  escolaridad  (variable  explicativa   adicional).  La  ecuación  2  representa  tal  situación:     Yi  =  β0  +  β1Di  +  γ1X1  +  ui      (2)     Donde,       Yi    representa  la  variable  de  resultado  para  la  mujer  i  (salario),   Di    indica  si  la  mujer  jefa  de  hogar  participó  (D  i  =  1)  o  no  en  la  capacitación  (D  i  =  0),   X1      variable  explicativa  adicional  que  representa  el  nivel  de  escolaridad  de  la  mujer  jefa  de  hogar    i  que  está   presente   antes   de   la   intervención.     X1   no   es   afectada   por   la   intervención   pero   contribuye   determinar   la   variable  de  resultado,   β1    representa  el  estimador  de  diferencias  con  variables  explicativas  adicionales  (el  efecto  del  programa),   γ1,K     representa   el   estimador   de     la   contribución   del   nivel   de   escolaridad   (   variable   adicional)   al   salario   (variable  de  resultado)  además    del  programa.     9  La  diferencia  es  el  “resultado  de  la  operación  de  restar”,  según  el  DRAE.   10   Véase   Gujarati   (2004)   para   una   información   detallada   sobre   el   modelo   de   estimación   de   MCO   y   sus   respectivos   supuestos.   11  Para  un  mayor  detalle,  véase  Bernal  y  Peña  (2011).
  16. 16. MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO 16   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA   El   estimador   de   diferencias   con   regresores   adicionales   es   insesgado,   consistente   y   más   eficiente   que   el   estimador  de  diferencias  propuesto  en    la  ecuación  (1),  ya  que  al  agregar  más  variables  en  la  ecuación,  se   mejora  la  precisión  con  que  se  estiman  los  resultados  (Bernal  y  Peña,  2011:).  Para  llevar  a  cabo  estimaciones   bajo   esta   variante   se   requiere   que   la   base   de   datos   contenga   datos   sobre   las   variables   explicativas   adicionales  para  el  grupo  de  intervención  y  el  grupo  de  control.         2. “El estimador de diferencias con efectos heterogéneos”   Si  dentro  de  los  grupos  de  análisis  existen  subgrupos,  es  posible  que  los  efectos  de  la  intervención  difieran   entre   los   individuos   o   subgrupos,   por   lo   tanto,   los   resultados   de   la   intervención   puede   variar   para   cada   subgrupo,  según  el  valor  de  una  determinada  variable  explicativa.  Como  ejemplo,  supóngase  que  se  desea   saber  si  la  mejora  en  el  salario  como  resultado  de  una  intervención  es  más  eficiente  en  las  mujeres  y  los   hombres  (ambos  grupos  recibieron  la  misma  intervención).  En  este  caso,  X  es  la  variable  sexo,  y  toma  el   valor  1  si  es  mujer  o  0  si  es  hombre.     Para  captar  si  existen  diferencias  en  los  resultados,  la  ecuación  de  regresión  incluye  la  interacción  entre  la   variable  que  indica  la  participación  del  individuo  i  en  la  intervención  Di,  y  la  variable  explicativa  Xi:       Yi  =  β0  +  β1Di  +  β2Xi+  β3  DiXi+  ui      (3)       Donde,       Yi    es  la  variable  de  resultado  para  el  individuo  i  (salario),   Di    es  la  variable  que  indica  si  el  individuo  participó  o  no  en  la  intervención,   Xi    es  una  variable  explicativa  adicional  (sexo),   DiXi  es  la  interacción  entre  la  variable  que  indica  la  participación  en  la  intervención  y  la  variable  explicativa   de  interés,  es  decir,  la  interacción  entre  la  intervención  y  el  sexo  de  la  persona.   β1    representa  el  estimador  de  diferencias,     β3  representa  el  efecto  diferencial  de  la  intervención  sobre  las  mujeres.  β3  >  0  mide  qué  tanto  mejor  es  la   intervención  sobre  las  mujeres  con  respecto  a  los  hombres.     Si  a  la  hora  de  estimar  la  ecuación,  el  estimador  de  la  interacción  β3    es  mayor  a  0  indica  que  los  salarios  de   las  mujeres  mejoraron  más  que  los  de  los  hombres.     I.4   Fortalezas  y  debilidades  de  los  diseños  experimentales     I.4.1   Fortalezas   • Es   fácil   entender   la   lógica   de   un   diseño   experimental   (asigna   al   azar   los   participantes   de   una   intervención).       • Las  técnicas  para  el  cálculo  del  impacto  son  sencillas,  por  lo  tanto,  los  resultados  son  transparentes   para  políticos,  diseñadores  de  intervenciones  y  población  general  (Bernal  y  Peña,  2011:).     • Es  el  diseño  que  permite  el  uso  de  modelos  de  estimaciones  que  arrojan  estimaciones  más  precisas   o  confiables.    
  17. 17. Ministerio de Planificación Nacional y Política Económica 17   • Los  resultados  de  la  evaluación  no  son  fácilmente  manipulables,  es  decir,  no  se  requiere  del  uso  de   otras  técnicas  estadísticas  –fuera  del  modelo  de  diferencias-­‐  para  estimar  los  resultados.  Con  eso  se   diferencia   de   otras   técnicas   estadísticas,   que   se   basan   en   conceptos   más   complejos   donde   las   variables  pueden  modelarse  en  cierta  medida  a    conveniencia.     • La  asignación  al  azar  minimiza  los  sesgos  sistemáticos  de  selección  entre  el  grupo  de  tratamiento  y   control.   Si   bien   sigue   expuesto   a   un   error   por   variabilidad   aleatorio,   este   puede   ser   estimado   mediante   cálculos   estadísticos   (a   diferencia   de   los   sesgos   sistemáticos   que   pueden   pasar   desapercibidos).     • Los   diseños   de   experimentos   de   campo   maximizan   la   validez   externa   de   los   resultados   de   una   evaluación,  y  los  experimentos  de  laboratorio  maximizan  la  validez  interna.     • Si  la  muestra  es  lo  suficientemente  grande  se  asegura  la  validez  interna  de  la  evaluación  de  impacto   (cualquier  diferencia  entre  el  grupo  de  tratamiento  y  control  después  de  la  intervención  puede  ser   atribuida   a   la   intervención).   Esto   ocurre   porque   se   minimiza   o   controla   la   influencia   de   factores   externos.     I.4.2   Limitaciones  del  diseño  experimental     Aunque  es  indiscutible  que    -­‐  en  teoría  -­‐    el  diseño  experimental  es  el  diseño  más  poderoso  para  determinar   el  “resultado  neto”  de  una  intervención,  desgraciadamente  existen  restricciones  o  limitaciones  que  suelen   dificultar  y  muchas  veces  incluso  imposibilitar,  la  aplicación  de  este  diseño  en  la  evaluación:     • Mecanismo  de  selección  de  la  intervención  incongruente  con  los  requerimientos  de  un  diseño   experimental:  La  gran  mayoría  de  las  intervenciones  se  caracterizan  por  mecanismos  de  selección   distintas   a   la   aleatorización.   Mecanismos   frecuentes   son,   por   ejemplo,   la   auto-­‐selección   (solo   participa   quién   quiere   participar,   por   ejemplo   en   una   oferta   de   capacitación   de   participación   voluntaria),   o   reglas   definidas   de   acceso   (por   ejemplo,   acceso   por   altas   calificaciones   en   un   programa  de  beca,  acceso  por  bajo  nivel  de  ingreso  a  una  prestación  monetaria).  En  estos  casos,  un   diseño  experimental  “puro”  ya  no  es  aplicable.     • Otros   problemas   en   la   aleatorización.   Si   no   se   puede   asegurar   una   exitosa   aleatorización,   la   inferencia   estadística   que   se   realice   sobre   los   resultados   de   la   evaluación   no   es   válida   para   la   población  de  estudio  (Bernal  y  Peña,  2011,  ),  debido  a  que  los  resultados  reflejan  tanto  el  impacto   de  la  intervención  como  el  efecto  en  la  falla  en  la  aleatorización.  Entre  algunos  ejemplos  de  fallas   en   la   aleatorización   están:   a)   Cambios   en   el   comportamiento   de   los   grupos   observados,   por   ejemplo,  si  el  grupo  de  intervención  sabe  que  participa  de  un  experimento  y  está  siendo  observado   por  el  evaluador,  puede  cambiar  su  comportamiento  (efecto  experimental  o  Hawthorne),  lo  mismo   puede  suceder  en  el  grupo  de  control  (Efecto  John  Henry);  b)  Tamaño  de  la  muestra  pequeña,  una   muestra  pequeña  (puede  deberse  al  alto  costo  de  un  diseño  experimental  social)  afecta  la  precisión   de  los  resultados  y  no  garantiza  el  supuesto  de  independencia  condicional 12 ;  c)  El  no  cumplimiento   del   protocolo   de   tratamiento,   y   la   pérdida   de   muestra,   i)   introducen   correlación   entre   el   tratamiento   y   el   término   error   ,   ii)   el   tratamiento   o   la   intervención   no   es   asignado   de   manera   completamente  aleatoria,  sino  que  se  basa  en  características  o  preferencias  de  los  individuos,  lo   que  puede  implicar,  que  las  personas  asignadas  al  grupo  de  intervención  decidan  no  participar  o   12  El  supuesto  de  independencia  condicional  implica  que  la  variable  de  resultado  en  ausencia  de  la  intervención  debería   ser  idéntica  para  el  grupo  de  intervención  como  para  el  grupo  de  control.  
  18. 18. MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO 18   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA   bien  personas  del  grupo  de  control  participen  en  la  intervención,  lo  que  genera  sesgos  de  selección,   y  por  lo  tanto,  las  técnicas  descritas  para  este  diseño  no  son  aptas  para  para  estimar  los  resultados   de  la  intervención  (Ídem)..     • Discusiones  de  tipo  ético/político.  Restringir  la  participación  de  personas  que  cumplen  con  todas   las  condiciones  de  acceso  a  una  intervención  e  igualmente  vulnerable  que  el  grupo  intervenido,   genera   discusiones   de   tipo   moral,   especialmente,   si   el   motivo   es   para   contar   con   un   grupo   de   control.   Es   decir,   la   investigación   “abusa”   de   un   grupo   vulnerable   para   generar   un   insumo   al   estudio,  privándolo  a  la  vez  del  beneficio  que  podría  ofrecer  la  intervención.  Dependiendo  del  tipo   de  bien  o  servicio  que  se  ofrece,  impedir  el  acceso  a  los  beneficios  del  programa  podría  hasta  poner   en  peligro  la  salud  de  esas  personas  o  incluso  su  vida.     • Incumplimiento  (non-­‐compliance    en  inglés).  Durante  el  experimento,  los  individuos  en    los  grupos   de   intervención   o   control   podrían   cambiar   determinadas   características   que   los   identifican,   por   ejemplo,  algunos  agentes  que  fueron  seleccionados  para  el  grupo  de  intervención,  pueden  terminar   no   recibiéndola   o   ellos   mismos   podrían   no   estar   interesados   en   la   intervención;   de   manera   alternativa,   los   agentes   que   fueron   designados   al   grupo   de   control   terminan   participando   en   la   intervención.    Este  problema  invalidaría  o  contaminaría  la  medición  del  impacto  de  la  evaluación,   pues  un  agente  se  analiza  dentro  del  grupo  de  intervención  cuando  en  la  realidad  no  recibió  ningún   beneficio  o  bien,  un  agente  del  grupo  de  control  si  recibió  los  beneficios  de  la  intervención.       • Dificultad   de   controlar   por   efecto   placebo.   “El   efecto   placebo   es   la   relación   positiva   entre   la   respuesta  de  la  unidad  al  tratamiento  y  las  expectativas  de  la  unidad  acerca  de  estar  expuesta  al   tratamiento”  (Rossi,  2011).  Un  ejemplo  sencillo  de  cuando  se  controla  por  el  placebo,  es  cuando  un   medicamento  se  le  otorga  a  un  paciente  que  pertenece  al  grupo  tratado  y  se  le  otorga  un  placebo   (medicamento   que   no   tiene   efecto   sobre   la   salud)   a   un   paciente   del   grupo   de   control.   Ambos   pacientes  tienen  expectativas  positivas  sobre  su  recuperación,  pero  no  saben  a  cuál  de  ellos  se  le   dio  el  medicamento  y  a  cual  el  placebo.  En  ciencias  sociales  es  difícil  controlar  por  efecto  placebo,   ya  que,  las  personas  tienen  el  conocimiento  de  que  están  siendo  o  no  tratadas.       • Desgaste  de  la  muestra  (attrition  en  inglés).  Algunas  unidades  desaparecen  de  la  muestra  en  algún   punto  del  tiempo  entre  la  encuesta  de  línea  de  base  y  la  encuesta  final.  Esto  tiene  implicaciones  en   la   estimación   del   resultado,   pues   ya   no   existe   el   valor   de   una   o   las   variables   de   cierto   (s)   individuo(s).   El   desgaste   de   la   muestra   no   tiene   mayores   implicaciones   cuando   a)   una   cantidad   suficiente   de   personas   permanece   en   el   estudio   para   que   se   puedan   generar   resultados   estadísticamente   significativos,   y   b)   el   desgaste   no   es   causado   por   un   factor   sistemático   que   interactúa   con   la   variable   de   impacto.   Por   ejemplo,   en   un   programa   de   capacitación   se   podría   observar  que  solamente  los  más  motivados  y  ágiles  concluyan  el  programa  –  es  decir  aquellos  que   de   todas   maneras   hubieran   alcanzado   mejores   resultados   que   el   promedio   de   la   población   de   interés.  Desgraciadamente,  este  sesgo  no  es  la  excepción  sino  la  regla.     • Externalidades   o   efecto   derrame   (spillovers   en   inglés)   y   “efectos   de   equilibrio   general”.   Las   externalidades  son  los  efectos  externos  previstos  o  no  por  la  intervención,  esto  implica  que  algunos   individuos  que  no  reciben  la  intervención  pueden  beneficiarse  del  hecho  que  otros  individuos  estén   siendo  intervenidas.  Lo  que  puede  verse  como  un  efecto  secundario  sumamente  positivo  desde  el   punto  de  vista  de  los  gestores  de  la  intervención,  le  crea  dificultades  metodológicas  al  evaluador   dado  que  su  supuesto  grupo  de  control  queda  “contaminado”.  (Bernal  y  Peña,  2011,).      
  19. 19. Ministerio de Planificación Nacional y Política Económica 19     I.4.3   Posible  abordaje  de  las  limitaciones       Para  asegurar  la  aleatorización  de  la  muestra  se  puede  permitir  el  ingreso  de  agentes  del  grupo  de  control  a   la  intervención  en  una  etapa  posterior,  una  vez  que  se  ha  diseñado  y  se  ha  iniciado  la  evaluación.  Con  esta   técnica,  la  selección  aleatoria  determina  cuándo  el  beneficiario  calificado  recibe  la  intervención  y  no  si  lo   recibe.  Esto  permite  abordar  preguntas  con  respecto  al  tiempo  necesario  para  que  la  intervención  sea  eficaz   para  lograr  su  propósito.       El  método  de  Variables  Instrumentales  puede  utilizarse  para  solucionar  el  problema  de  non  compliance.  En   el   caso   del   problema   de   attrition,   se   recomienda   chequear   el   balance   de   las   características   en   el   grupo   afectado   por   la   desaparición   de   las   unidades   muestrales.   Para   disminuir   el   problema   asociado   al   efecto   derrame,  es  aconsejable  realizar  la  aleatorización  a  nivel  de  grupo  y  no  en  forma  individual,  por  ejemplo:  un   programa  de  educación  donde  se  otorga  libros  de  enseñanza  básica  por  cantones,  así  el  cantón  de  control   puede  estar  alejado  del  cantón  de  intervención,  atenuando  el  efecto  derrame.     II. Diseños cuasi-experimentales   Una  evaluación  con  diseño  cuasi  experimental  es  una  valoración  de  los  resultados  de  una  intervención  que   se   diferencia   del   experimento   “puro”   en   que   el   mecanismo   de   selección   de   los   beneficiarios   y   no   beneficiarios  no  es  al  azar.  Sin  embargo,  las  condiciones  de  la  intervención  tienen  algún  grado  de  control.   Siempre   que   se   logra   optimizar   dicho   control,   los   diseños   cuasi-­‐experimentales   pueden   -­‐   según   Bernal   y   Peña  (2011),    adquirir  un  alto  grado  de  validez  interna  “como  si  fuera”  un  diseño  experimental  (aleatorio).     Comúnmente,   las   condiciones   de   la   intervención   evaluada   mediante   el   diseño   cuasi-­‐experimental   se   desarrollan  en  un  contexto  real  o  natural,  es  decir,  suele  aplicarse  cuando  los  planificadores  o  evaluadores   de  la  intervención  no  controlan  la  totalidad  de  los  factores  externos  que  pueden  incidir  en  el  mecanismo  de   selección  de  los  intervenidos.  Sin  embargo,  existe  la  posibilidad  de  identificar  variables  relacionadas  con  el   acceso  a  la  intervención  que  permiten  formar  grupos  de  comparación  y  ejercer  algún  grado  de  control  sobre   los  factores  externos.     En  algunos  (pocos)  casos  el  objeto  evaluado  está  relacionado  con  un  evento  fortuito  que  asignó  al  azar  al   grupo   de   tratamiento.   En   este   caso,   la   evaluación   de   resultados   utilizaría   el   mismo   instrumental   metodológico   del   diseño   experimental 13   o   el   modelo   de   diferencias-­‐en-­‐diferencias   (véase   apartado   II.3),   siempre  y  cuando  se  disponga  de  una  base  de  datos  longitudinales:     Por  ejemplo,  Card  (1990) 14  citado  en  Bernal  y  Peña  (2011)  realizó  un  estudio  que  consistió  en  determinar  si   el  incremento  en  el  flujo  inmigratorio  (cubano)  disminuyó  los  salarios  de  las  zonas  receptoras 15  (Miami).  El   evento  fortuito  que  genera  una  asignación  al  tratamiento  (inmigración)  que  “podría  parecer  aleatoria”  para   conocer  el  impacto  de  la  inmigración  sobre  los  salarios  es  el  cambio  inesperado  en  la  ley  migratoria,  la  cual   eliminó  las  restricciones  inmigratorias  de  Cuba,  con  lo  cual,  125  000  cubanos  llegaran  a  Estados  Unidos  entre   mayo  y  septiembre  de  1980,    de  los  cuales,  aproximadamente  el  50%  se  quedaron  en  Miami;  lo  que  a  su  vez   provocó  que  la  oferta  laboral  aumentará  alrededor  del  7%    en  este  Estado.   13  El  diseño  experimental  utiliza  el  modelo  de  diferencias.  Para  más  detalle,  véase  página  ZZZ  Cuál  página???   14  Para  un  mayor  conocimiento  sobre  este  estudio  se  puede  referir  a  Card,  D.  (1990).  The  impact  of  the  Mariel  Boat  Lift   on  the  Miami  Labor  Market.  Industrial  and  Labor  Relations  Reviews,  43  (2),  245-­‐257.     15  Según  la  teoría  económica,  un  aumento  en  la  oferta  laboral  debido  al  flujo  de  inmigrantes  provocaría  un  descenso  en   los  salarios  de  la  localidad  receptora  de  inmigrantes.

×