CALIDAD DE REDES Y SERVICIOS      DE TELECOMUNICACIONESFrancisco Apablaza M.PRESENTACIÓNEl tema ha sido siempre conflictiv...
INTRODUCCIÓNEl establecimiento de calidad operacional de las redes y servicios, dice relación con loscriterios de diseño d...
Aspectos Generales de la Calidad Técnica                           de las Redes y los ServiciosUno de los aspectos de la c...
Teoría de la Confiabilidad Es la probabilidad que se presente una falla en un intervalo de tiempo definido,excluyendo las ...
Si se considera que, el tiempo hasta que se presente una falla, es una variable aleatoriaX, que puede tomar cualquier valo...
Así, en general, la Función de Confiabilidad ó Fiabilidad es del tipo:                             R(t) = exp [ -  t(t) ...
donde, θ = 1/ = MTBF es la característica tasa de edad-a-falla (ello supone un MTBFdistinto según la edad del sistema) y ...
En situaciones reales, los sistemas o redes son complejos, es decir, constan de múltiplescomponentes constitutivos, en cuy...
FUENTE               DISCO                  CPU                     PODER             MTBF=200.000         MTBF=150.000   ...
Teoría de la Disponibilidad Si bien se puede usar estimadores probabilísticos para la disponibilidad, es más común elacerc...
f.12Si son distribuciones exponenciales para las variables aleatorias de que NO falle elsistema con tasa o intensidad de f...
Definiciones:Tiempo Medio a la Falla {MTTF}, es el tiempo medio que transcurre hasta que tienelugar el primer fallo en un ...
simplemente como el porcentaje de tiempo, con relación a un determinado periodo deobservación en que un elemento, red o si...
En el diagrama de la figura Nº8 se muestra un sistema que consta de 21 elementosindividuales e independientes, en cuanto a...
tiempo está utilizable?. Ambos conceptos son iguales en el mundo ideal en que no hayfallas ni intervalos de tiempo fuera d...
Confiabilidad, Disponibilidad y MantenibilidadComo ya se ha mencionado, confiabilidad y disponibilidad van de la mano de l...
mantenimiento. En el lenguaje común se usa indistintamentamente el términomantenimiento o mantención, a pesar que éste últ...
   cambios a tiempo en el sistema, cambios a un diseño de hardware, a las           operaciones, u otras situaciones.Un b...
Estas formas de mantenimiento, sin duda, son una orientación de clasificación según suoportunidad en el tiempo, la mantenc...
Los tiempos de reparación de un equipo caracterizan la mantenibilidad y, el tiempopromedio para reparar (MTTR) se define c...
En dispositivos mecánicos, grupos generadores, bancos de batería existe un desgaste yenvejecimiento inherente, por lo tant...
Criterios de Riesgo y CostosAnalizado desde la perspectiva de los costos, los gastos (OPEX) propios de unmantenimiento pre...
La estructura de costos, en términos generales considera como Costo global = Costointervención + Costo de falla + Costo al...
Análisis FMECAOtra útil técnica para la eliminación de las características de diseño deficientes, es elanálisis de los mod...
El autor del “El Arte de Mantener” (ref9) recomienda los siguientes criterios para definir elnivel de criticidad:En una re...
modelos de Markov, hacer la simulaciones y obtener resultados de fallas posibles ydocumentarlas, así se podrá reducir los ...
Aplicaciones y Análisis Estadístico de EventosDe lo estudiado anteriormente, se ha visto que una red o sistema, tiene unco...
(a) Como los fenómenos de funcionamiento de los equipos se relacionan con procesos    aleatorios, éstos por su propia natu...
Por lo tanto, el Análisis de Pareto es una técnica que separa los "pocos vitales" de los"muchos triviales". Una Gráfica Pa...
Diagramas de IshikawaOtra útil metodología se le debe a Ishikawa, Kaoru Ishikawa quién nació en Japón en1915 y murió en 19...
En general los aportes de Kaoru Ishikawa, establecen las herramientas básicas para laadministración de la calidad:1. La ca...
Estadísticas de Disponibilidad en Redes de TelecomunicacionesLa problemática de un operador de redes de telecomunicaciones...
En la figura Nº 19 se describe en forma mas detallada las distintas redes y tecnologíasque forman parte de las instalacion...
Sistemas de energía o poderComenzando por un Modelo de Cálculo para instalaciones de energía paratelecomunicaciones, la re...
El objetivo de confiabilidad de todo el sistema, es el resultante en la carga, enconsecuencia en el calculo intervienen al...
Se deduce que el elemento 7, a pesar de presentar una alta tasa de fallas (200 eventos),pero por tener MTTR muy bajo, su d...
Apuntes confiabilidad y disponibilidad de redes ss
Apuntes confiabilidad y disponibilidad de redes ss
Apuntes confiabilidad y disponibilidad de redes ss
Apuntes confiabilidad y disponibilidad de redes ss
Apuntes confiabilidad y disponibilidad de redes ss
Apuntes confiabilidad y disponibilidad de redes ss
Apuntes confiabilidad y disponibilidad de redes ss
Apuntes confiabilidad y disponibilidad de redes ss
Apuntes confiabilidad y disponibilidad de redes ss
Apuntes confiabilidad y disponibilidad de redes ss
Apuntes confiabilidad y disponibilidad de redes ss
Apuntes confiabilidad y disponibilidad de redes ss
Apuntes confiabilidad y disponibilidad de redes ss
Apuntes confiabilidad y disponibilidad de redes ss
Apuntes confiabilidad y disponibilidad de redes ss
Apuntes confiabilidad y disponibilidad de redes ss
Apuntes confiabilidad y disponibilidad de redes ss
Upcoming SlideShare
Loading in...5
×

Apuntes confiabilidad y disponibilidad de redes ss

6,208

Published on

Se reunen las bases teòricas para el anàlisis de confiabilidad y disponibilidad de redes y servicios de telecomunicaciones, incluyendo algunos ejemplos practicos de estudios estadìsticos reales.

(este documento reemplazó a uno anterior que estaba erróneamente cargado incompleto)

Published in: Education
0 Comments
7 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
6,208
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
0
Comments
0
Likes
7
Embeds 0
No embeds

No notes for slide

Transcript of "Apuntes confiabilidad y disponibilidad de redes ss"

  1. 1. CALIDAD DE REDES Y SERVICIOS DE TELECOMUNICACIONESFrancisco Apablaza M.PRESENTACIÓNEl tema ha sido siempre conflictivo y a la vez apasionante,conflictivo por las múltiples interpretaciones que se dan a losconceptos al llevarlos a la praxis, por como se manejan lasestadísticas, así como al pobre conocimiento formal que existesobre esta importante área de la ingeniería, en comparación conlos sectores mineros, de la construcción o de la mecánica.Apasionante, por integrar conceptos estadísticos, deprobabilidades y de tecnología, como por el impacto que puedegenerar en una mejora continua, en la excelencia operacional deuna red de telecomunicaciones y sus servicios y su relación conlos costos e ingresos. Esto es lo que ha motivado preparar estosapuntes (ello significa que no todo lo expuesto es original ycorresponde más que nada a un material recopilado yexperiencias), que se espera sirvan de base para estudiar masprofundamente estas materias y sean una modesta contribuciónpara formalización y aplicación en el análisis de la calidad de lasredes de telecomunicaciones. 1|
  2. 2. INTRODUCCIÓNEl establecimiento de calidad operacional de las redes y servicios, dice relación con loscriterios de diseño de las redes, la disponibilidad de RRHH y técnicos calificados, losprocedimientos de operación y mantenimiento, como así de las situaciones particularesdel medio en que se encuentren desplegados los recursos de redes y servicios, todo locual redunda, evidentemente, en los costos en que pueda incurrirse para conseguir unacalidad deseada.Se alcanzarán distintas calidades operacionales de las redes respaldadas con respectode aquellas que no disponen de recursos de respaldo, o de repuestos en sitio. De igualmodo debe tenerse en cuenta que distintas tecnologías pueden otorgar calidadesdiferenciadas, como puede ser el caso de un circuito vía fibra óptica con relación a unopor radio.Es preciso establecer claros criterios de definición y medición de índices o indicadores dedesempeño, que aunque no sean de una precisión absoluta, permitirán observar, en lamedida que se mantengan las definiciones por un largo periodo, los comportamientos ytambién deducir criterios de mantenimiento, diseño, e instalación que redunden enmejorías de los mismos índices.Se presentan en estos apuntes los fundamentos y consideraciones prácticas relativas alos distintos aspectos relativos a disponibilidad, confiabilidad y SLA (Service LevelAgreement) de redes de telecomunicaciones. Aunque sin duda, son conceptos aplicablesa otras disciplinas, como redes de energía, o procesos industriales. Siempre debe tenersepresente, que se trata de análisis de sistemas estocásticos, lo que conlleva que sontemas a tratar con un profundo conocimiento de los fundamentos probabilísticos como porbases de datos confiables de interpretación estadística.Es imprescindible refrescar los conceptos de estadistica descriptiva, así como los deprobabilidades, ya que son fundamentales para la comprensión de los conceptos deconfiabilidad, como para los análisis de disponibilidad, no obstante su importancia, no seconsidera afrontarlos en este documento.Los temas tratados se han organizado en:- Aspectos Generales de la Calidad Técnica de las Redes y los Servicios .........3- Teoría de la Confiabilidad .........4- Teoría de la Disponibilidad .......10- Confiabilidad, Disponibilidad y Mantenibilidad .......16- Criterios de Riesgo y Costos .......22- Aplicaciones y Análisis Estadístico de Eventos .......27- Estadísticas de Disponibilidad en Redes de Telecomunicaciones .......32- Calidad, SLA, Disponibilidad de Servicios .......46- Conclusión .......50- Referencias .......51- Anexo: ejercicios 2|
  3. 3. Aspectos Generales de la Calidad Técnica de las Redes y los ServiciosUno de los aspectos de la calidad son las definiciones técnicas de fidelidad de las señalesde telecomunicaciones, tales como ruidos, tasas de errores, distorsiones, etc., muchos delos cuales están sujetos a una sensibilidad subjetiva, sin embargo, hoy, por lapreponderancia de los datos, también hay una serie de parámetros de calidad, tales comoerrores, pérdidas, retardos y otros.La calidad como continuidad operativa de las redes y por ende de los servicios, es quizás,el enfoque más importante a la hora de establecer medidas de dicha calidad frente alcliente y a la vez, él mas complicado de definir por su condición de variable aleatoria y delas expectativas del cliente.Típicamente se habla de confiabilidad ó fiabilidad (Reliability), performance, disponibilidad(Availability), MTBF, MTTR, etc., sin embargo, el gran dilema es establecer la definiciónde estos parámetros y llevarlos a mediciones prácticas y hacer un buen uso ycomprensión de ellos.Es importante llegar a definir criterios para delimitar entre condiciones de degradación, deintermitencia y de indisponibilidad, que son todos grados de un deterioro y degradacióndel servicio de telecomunicaciones.Se constata que no es usual que reúnan bajo un mismo objetivo los conceptos de calidad,mejora continua, mantenibilidad y confiabilidad-disponibilidad. Hay que crear concienciaque la confiabilidad comienza por la calidad de la ingeniería de diseño y construcción delas redes.No es menos cierto que las administraciones encargadas de la operación y mantención deredes y sistemas, realizan todas o algunas de las acciones que acá se comentarán, yasea en forma consciente, metódica, y sistemática, o en forma intuitiva. Las distintastécnicas que se desarrollan, no hacen otra cosa que formalizar el conocimiento y laexperiencia.A continuación se procurará introducir a los conceptos más básicos de estos temas, a daralgunas definiciones, que quizás no sean las más canónicas, pero que buscan llevarlas aaplicaciones reales que puedan ser medidas. Es importante contemplar, que cualquierade los índices o indicadores de desempeño, deben estar sustentados en un mecanismode medición automatizado, de registros sistemáticos y de buena calidad. 3|
  4. 4. Teoría de la Confiabilidad Es la probabilidad que se presente una falla en un intervalo de tiempo definido,excluyendo las interrupciones producto de intervenciones programadas. Dice relación conel intervalo de tiempo que el elemento o sistema está libre de falla. Se dice, también, de laprobabilidad de sobrevivir correctamente en funciones una vez que comienza a operar. Sepropone como índice de confiabilidad a definir por año, dependiendo de la topología ytecnología de la red, correspondiendo a una estimación teórica que se convierte en lareferencia objetivo.Típicamente se ha descrito, para equipos y sistemas, que la confiabilidad esperada,obedece a una tendencia de fallas que sigue un comportamiento en el tiempo, en unafunción que se le denomina la curva de la bañera, la cual es una gráfica que representalos incidentes de falla durante el período de vida útil. Se llama así porque tiene la formauna bañera. En ella se pueden apreciar tres etapas: (t) Tasa de Fallas Mayor mantenimiento Mortalidad Temprana Vida Útil Envejecimiento Tiempo de Vida Figura Nº1a) Fallas iniciales: esta etapa se caracteriza por tener una elevada tasa de fallas quedesciende rápidamente con el tiempo. Estas fallas pueden deberse a diferentes razonescomo equipos defectuosos, instalaciones incorrectas, errores de diseño del equipo,desconocimiento del equipo por parte de los operadores o desconocimiento delprocedimiento adecuado (mortalidad infantil).b) Fallas normales: etapa con una tasa de errores menor y constante. Las fallas no seproducen debido a causas inherentes al equipo, sino por causas aleatorias externas.Estas causas pueden ser accidentes fortuitos, mala operación, condiciones inadecuadas uotros.c) Fallas de desgaste: etapa caracterizada por una tasa de desperfectos rápidamentecreciente. Las fallas se producen por desgaste natural del equipo debido al transcurso deltiempo: cumple su vida útil como activo.Pocos son los modelos de confiabilidad que se han desarrollado para hacer estimacionesde confiabilidad, quizá los más clásicos sean los desarrollados para radio propagación, enque un sistema de radio enlace puede deteriorarse, en cuanto a una variabilidad de laatenuación en el medio de propagación, por condiciones atmosféricas, lo que se conocecomo desvanecimiento (fading) y modelos de probabilidad de desvanecimiento deRayleigh, como así también la probabilidad de atenuación por lluvia con otros modelospredictivos. 4|
  5. 5. Si se considera que, el tiempo hasta que se presente una falla, es una variable aleatoriaX, que puede tomar cualquier valor real T entre 0 e ∞. Siendo F(t) la función dedistribución y f(t) la función de densidad de X, se tiene que: f.1 donde F(0) = 0 y F(∞) = 1F(t) corresponde a la probabilidad de que el dispositivo falle antes o en el instante t (X < t).La probabilidad complementaria corresponde a la probabilidad de que el fallo se produzcadespués de t y es la función de confiabilidad R(t). Se supone que inicialmente eldispositivo funciona correctamente, por tanto, R(0) = 1 y que cuando el tiempo tiende ainfinito, la probabilidad de funcionamiento es nula.Si tenemos un dispositivo que está funcionando correctamente en un instante de tiempodeterminado t, la probabilidad de que falle en t + Δt es una probabilidad condicionada quese expresa: f.2La tasa media de fallo en el intervalo (t , t + Δt) queda definida como Z(t, Δt) y se obtienedividiendo el valor anterior por la longitud del intervalo: f.3El límite de Z(t + Δt), cuando t tiende a cero, es la tasa instantánea de falla o tasa de fallaen t: f.4que indica que la tasa de fallas es la densidad de probabilidad de falla en t condicionada ano haber fallado antes de t. La confiabilidad de un sistema se puede calcular a partir de sutasa de fallas. Si suponemos que el sistema falla, siguiendo una distribución exponencial,la tasa de fallas para un instante t es una constante denominada . 5|
  6. 6. Así, en general, la Función de Confiabilidad ó Fiabilidad es del tipo: R(t) = exp [ -  t(t) dt ] f.5es su Distribución de Probabilidades y  = ƒ(independiente de t)es la tasa de fallas porunidad de tiempo (típicamente por miles o millones de horas de funcionamiento), otambién, la expresión conocida como la ecuación de Lusser, que es la forma más simplede estimar, como una distribución exponencial, para describir fallas aleatorias: R=e- (τ) = e- (τ/θ) = e- N f.6donde, θ = 1/ = MTBF (Tiempo Medio entre Fallas), y T es el tiempo de observación otiempo de misión (1 semana, 1 mes, 1 año, o lo deseado) y N es el Nº de fallas durante eltiempo de observación T. Notar que este intervalo de tiempo, si bien es teóricamentediscrecional, en situaciones practicas debe ser un tiempo suficientemente largo para quetenga un buen sentido estadístico, es recomendable 1 año.Entonces, la Función de Confiabilidad R(T) es la probabilidad que un sistema, puesto enservicio en el instante t = 0, todavía se encuentre en funcionamiento en el tiempo T. Si segrafica, es posible observar que R baja constantemente al aumentar el tiempo. El efectodel mantenimiento en un tiempo dado, es elevar nuevamente la función de confiabilidad.Las curvas de confiabilidad son del tipo que se muestran en la figura: Figura Nº2En forma más generalizada, se ha propuesto la formula de Weibull, R=e- (τ/θ)^β f.7 6|
  7. 7. donde, θ = 1/ = MTBF es la característica tasa de edad-a-falla (ello supone un MTBFdistinto según la edad del sistema) y β el factor Weibull de forma (pendiente), el quedefine el “modo” y etapa de la vida del sistema, así si: β < 1, implica el modo de mortalidad infantil, β = 1, corresponde al modo posibilidad de falla, y β > 1, modo de mayor certeza de falla Figura Nº3En la figura Nº 3 se grafica para varios valores del parámetro β, valores que dicen relacióncon las tres fases de la curva de la bañera, que es el resultado de un gráfico compuesto.En la mayor parte de los casos de análisis, puede bastar comenzar con el modeloexponencial simple, y obtener resultados suficientemente válidos para modelar laconfiabilidad de un sistema. Notar que si el valor del MTBF es largo, con relación altiempo de misión o operatividad, entonces se tendrá una buena condición deconfiabilidad, con pocas posibilidades de falla, por el contrario si éste es corto o similar adicho intervalo, entonces una alta posibilidad de falla se prevé, siendo una situación noconfiable. Función de Confiabilidad X = ¿cuál será el instante de falla? 1,20000000 R(0)= 1 "certeza de No falla" 1,00000000 0,80000000 Probabilidad R1 R(t)= e^(-λt) 0,60000000 R2 R3 0,40000000 R(∞ )= 0 "certeza de No falla" 0,20000000 prob. de falla =< t t= ? confiabilidad = prob. de NO falla > t 0,00000000 0 10000 20000 30000 40000 50000 60000 70000 80000 90000 1E+05 1E+05 1E+05 1E+05 1E+05 2E+05 2E+05 Horas Figura Nº4En la figura se grafica la función confiabilidad para MTBF = 50.000 (R1), 150.000 (R2) y300.000 (R3) y β= 1 7|
  8. 8. En situaciones reales, los sistemas o redes son complejos, es decir, constan de múltiplescomponentes constitutivos, en cuyos casos para determinar su confiabilidad pareceevidente, que ella depende de la confiabilidad de cada una de sus partes, y éstas puedenser un punto simple de fallas, o ser un elemento con redundancia. Para su análisis seconsidera un diagrama en bloques como el de la figura Nº5, así a modo de ejemplo, éstees un sistema con puntos simples de falla y la confiabilidad total deberá ser menor que ladel eslabón más débil. FUENTE DISCO CPU PODER MTBF=200.000 MTBF=150.000 MTBF=50.000 Figura Nº5Calculando la confiabilidad para 10.000 Hrs desde la ecuación f.6, se tieneindividualmente un R(t) = R(10.000) = 0,8187; 0,9512 y 0,9355 respectivamente, y para elsistema total, se calcula como la probabilidad de que uno u otro de los elementos falle: RT(t) = P[E1 ∩ E2 ∩ E3] RT(t) = P(E1) * P(E2) * P(E3) RT(t) = R1 * R2 * R3En general, para N componentes, RT(t) = f.8Para el caso analizado: RT(t) = RFP (t) * RD(t) * RCPU(t) = 0.7286Esto es, existe la probabilidad de un 72,86% de que el sistema no caiga en falla antes delas 10.000 Hrs. Y si se calcula lo mismo para 50.000 Hrs, esta probabilidad cae a un20,53%, lo que evidentemente tiene lógica, pues a mas tiempo un mayor envejecimiento,y por lo tanto es más probable que algún elemento falle.De este mismo ejemplo, el componente menos confiable es la fuente de poder, enconsecuencia, para mejorar la confiabilidad del sistema, se puede contemplar colocarredundancia de ésta, tal como se muestra en la figura Nº 6. 8|
  9. 9. FUENTE DISCO CPU PODER MTBF=200.000 MTBF=150.000 MTBF=50.000 FUENTE PODER MTBF=50.000 Figura Nº6En este caso la confiabilidad total del sistema, tiene un cálculo más complejo, ya queprimero deberá calcularse la confiabilidad del subsistema redundante, como laprobabilidad de que fallen simultáneamente uno y otro dispositivo: R FPR(10000) =1- [1- RFP (t) )*(1- RFP(t)] = 0.9672 f.9Y para el sistema completo con un elemento con redundancia para la confiabilidad de las10.000 Hrs. es: RT(t) = RFPR (t) * RD(t) * RCPU(t) = 0.8606Lográndose una mejor confiabilidad, con respecto al 72,86% del sistema sin redundanciade fuente de poder. Lo mismo para 50.000 Hrs sube desde 20,53% a 33,51% suconfiabilidad. Si se desease una confiabilidad aún mayor, deberá aumentar lossubsistemas redundantes.Bajo este concepto, se ha desarrollado RAID (Redundant Array of Inexpensive Disks)para el almacenamiento seguro de grandes bases de datos. 9|
  10. 10. Teoría de la Disponibilidad Si bien se puede usar estimadores probabilísticos para la disponibilidad, es más común elacercamiento a través de una medida estadística en un intervalo de tiempo y bajocondiciones de medición objetivas por elemento de red o servicio. El intervalo de tiempodebiera ser el mes-calendario y el periodo de 12 meses previos (año móvil o fijo), demodo que permita ver la tendencia del sistema y así poder tomar medidas operacionales.La disponibilidad también se le conoce como el “uptime” y la condición antónima es laIndisponibilidad (Outage).Se define un Tiempo de funcionamiento MT(R), el cual corresponde al tiempo en que laconfiabilidad del sistema cae por debajo de un nivel R dado. Se utiliza en sistemas noreparables o en sistemas que tienen un tiempo fijo entre sucesivos mantenimientos.La relación entre R(t) y MT(R) viene dada por la ecuación: R(MT(R)) = R y MT(R(t)) = tSuponiendo también que el dispositivo tiene una distribución de fallas del tipoexponencial, con tasa de fallas , y es posible calcular el tiempo de funcionamiento como: MT(R) = t en el momento en que R(t) = R, se tiene: t R(t ) e  RAplicando logaritmos para obtener t en función de : f.10La Disponibilidad A(t) de un componente o sistema, es la probabilidad de que estéfuncionando en un instante de tiempo t determinado. A(t) se refiere a la disponibilidadinstantánea, que en el caso de un sistema no reparable coincide con la confiabilidad. Sipor el contrario el sistema se puede reparar, éste puede fallar antes de t, pero puede serreparado, de modo que en t esté funcionando correctamente. Para este tipo de sistemasse cumple que A(t) > R(t).Definiendo el coeficiente de disponibilidad media en el intervalo (t1,t2) , como el valormedio de la disponibilidad instantánea, esto es: f.11Y si se expresa el coeficiente de disponibilidad asintótica o estabilizada, entonces se estáhablando del límite de la función de disponibilidad instantánea, cuando t→∞, entonces:En cuyo caso, la disponibilidad estimada o proyectada, viene a ser 10|
  11. 11. f.12Si son distribuciones exponenciales para las variables aleatorias de que NO falle elsistema con tasa o intensidad de fallas , y que con tasa μ como tasa de mantenibilidad orecuperación, entonces el coeficiente de disponibilidad asintótica es: A = μ / (+μ) f.13Para modelar el sistema, se recurre a un diagrama de estados binario, un estado encondición de operatividad normal y otro en situación de falla. El sistema puede estar enuno de los dos estados, y transita de uno a otro con una frecuencia media fm= 1/Tm ,siendo Tm el ciclo medio operacional. La probabilidad de transición desde el estado deoperación a fuera de servicio es 1/m, mientras que a la inversa, es 1/r. En la figura Nº 7 semuestra gráficamente. _ Ciclo medio T MTBF Diagrama de Estados En Operación m1 m2 m3 _ _ 1/r 1/m En falla r1 r2 r3 T1 T2 T3 Figura Nº 7Se definen los siguientes parámetros típicos, que caracterizan típicamente elcomportamiento en estado estacionario del sistema: MTTF (Mean Time To Failure), MTTR(Mean Time To Repair) y MTBF (Mean Time Between Failure), siendo _ _ MTTF = m MTTR = r MTBF = MTTF + MTTRDados los estados “en operación” y “en falla”, se define la Disponibilidad (Availability) eIndisponibilidad (Outage ó Unavailability), que corresponde a: A + U = 1, donde, _ _ _ _ A = m / T = m/(m + r) = MTTF / (MTTF + MTTR) f.14 _ _ _ _ f.15 U = r / T = r / (m + r) = MTTR / (MTTF +MTTR)dado que MTTR << MTTF, suele usarse indistintamente, MTTF = MTBF 11|
  12. 12. Definiciones:Tiempo Medio a la Falla {MTTF}, es el tiempo medio que transcurre hasta que tienelugar el primer fallo en un conjunto de sistemas idénticos libres de fallo. f.16 ∞Tiempo Medio de MTTF  0 R(t) dt Reparación {MTTR}, es eltiempo medio que se tarda en reparar orestaurar un sistema o equipo que ha fallado. Como este parámetro es difícil de medir,normalmente se estima desde la experiencia o desde la estadística histórica,considerando los tiempos de traslado, diagnóstico y ubicación de repuestos para podercalcular la capacidad de reparación.Tiempo Medio entre Fallas {MTBF}, corresponde al tiempo medio entre fallasconsecutivas en un sistema reparable. Este parámetro vale aproximadamente la suma delos dos anteriores. MTBF = MTTR + MTTF f.17Recordemos que se podrá estimar la predicción de la confiabilidad a partir del MTBFmediante la ley o ecuación de Lusser {f.6}. Así, como ejemplo, la probabilidad de que unequipo trabaje sin fallar por un tiempo T, si el MTBF es 250.000Hrs y la expectativa deltiempo de operación es de 5 años (43.800 Hrs), entonces, / R(T) = e--(T MTBF) = e--(43800/250000) = 0,8393Esto significa que con un 83,93% de probabilidad el equipo no falle antes de 5 años. Elparámetro base del MTBF lo entregan en general los fabricantes, quienes hacen pruebasde laboratorio, con envejecimiento acelerado (ver ref.12) y condiciones operacionales desimulación de las condiciones ambientales de humedad y temperatura. Cuando existemedición estadística operacional, esta cifra podrá deducirse de mediciones prácticas.Hay casos en que en vez del MTBF, se define el FIT Hrs (Failure in Time) = 109 / MTBF,unidad para expresar la tasa de fallas esperada de elementos electrónicos y también desistemas ópticos, y que viene a ser 1 FIT igual a 1 falla por 109 horas (1 vez en alrededorde 114.155 años).Para la evaluación del MTBF, considerando el funcionamiento de un equipo o elementode red, durante un determinado intervalo T, en el que ocurren n ( n>1) defectos o eventos,el tiempo medio entre fallas es definido como: MTBF = T/(n-1) f.18En general no existe un solo equipo o elemento de red, por lo que la expresión semodifica a: MTBF = N * T/(n-1) f.19La disponibilidad (Availability) puede determinarse 12|
  13. 13. simplemente como el porcentaje de tiempo, con relación a un determinado periodo deobservación en que un elemento, red o sistema, permanece en condiciones operacionalesde cursar tráfico. Esta disponibilidad, real o medida, se puede calcular como: A = (1 - Ti/To) 100% f.20Donde: To = periodo de observación considerado Ti = sumatoria de los tiempos de interrupción en el periodo de observación.Disponibilidad multicomponentesEn el mundo real, los sistemas, las redes (múltiples nodos), los equipos están constituidospor múltiples componentes (tarjetas), como ya se insinuó en los casos de los ejemplos delas figuras Nº 5 y 6. Sin embargo, en estos casos cada componente es parte funcional deltotal del equipo o sistema.Existen otras situaciones en que se desea determinar una disponibilidad de sistemas oredes, tales como pueden ser, un múltiplex en una ruta que tiene múltiples canales ocircuitos entre dos puntos, en consecuencia su disponibilidad debe analizarse como lacontribución de cada uno de ellos a la disponibilidad total del sistema.Hay mas de una opción para definir la manera de calcular, debido a que los conceptos deconfiabilidad y disponibilidad dicen relación a la operatividad de UN equipo, sistema omáquina, Sin embargo, para redes multinodos o para equipos, en que, aunque sepresenten fallas, no significa que se pierda la funcionalidad total de sus servicios, ese esel caso de un multiplex, una central o un router o un conjunto de ellos como parte denodos interconectados de red. Pueden fallar algunas puertas de acceso y no la totalidad,puede fallar un nodo, pero no toda la red. En consecuencia, se definen criterios de cálculoque toman en cuenta la capacidad total instalada y la parcialidad de las fallas. Hayoperadores que definen la indisponibilidad del sistema completo cuando se presenta laindisponibilidad de un porcentaje de sus servicios (p. Ej. Un 30% de sus rutas, ancho debanda o puertas). Tout Eq N Eventos >>> Acumulado 1 1 1 1 0 1 0 1 + $$$ 0 1 2 2 1 - $$$ 0 1 0 1 0 1 0 1 1 3 4 1 0 1 0 1 4 4 1 0 1 0 1 0 1 3 3 1 0 1 0 1 0 1 0 Tot Eq= 21 To To Tout= 14 Hrs Figura Nº 8 13|
  14. 14. En el diagrama de la figura Nº8 se muestra un sistema que consta de 21 elementosindividuales e independientes, en cuanto a su operatividad, esto es que la falla de uno deellos, no afecta la correcta funcionalidad del resto. Es evidente que la disponibilidad decada uno de los 5 elementos fallados es aproximadamente 99,9% (3 nueves) y del restoes de un 100%.Una primera opción para determinar la disponibilidad del conjunto de elementoscomponentes de este sistema, puede ser la disponibilidad promedio: A = (1 - Tim/To) 100 % f.21 Tim = (N tn) / NDonde: Tim = tiempo medio de interrupción de los elementos considerados N = número de elementos considerados N tn = sumatoria de los tiempos de interrupción del elemento 1 al NAsí, para este caso el resultado es una disponibilidad de 99,992% (4 nueves) para latotalidad del sistema y no 99,84% si se calculase de acuerdo a f.20.Una segunda opción de calculo es: A = ((Tos - Ti) / Tos )100% f.22 Tos = To* N, periodo de observación considerado para todos los elementos (Tos -NTi) = tiempo total sin interrupción de servicio en el periodo de observación.En cuyo caso da una cifra levemente diferente de 99,907% para la disponibilidad delmismo sistema.Como tercera opción de calculo, se puede calcular como: A= ( Td +  Td -  Ti) / Tos Nd Ni Ni f.23siendo, NdTd : total de tiempos sin falla (Td) de equipos que no fallaron (Nd) NiTd : total de tiempos sin falla (Td) de equipos que fallaron (Ni) NiTi : total de tiempos con fallas (Ti) de equipos que fallaron (Ni)resultando en este caso una disponibilidad del sistema de 99,954%.En todos estos casos se toma en cuenta la base total instalada, cuando fallan sóloalgunos de los componentes del conjunto. De las tres opciones se recomienda la primerade ellas, por ser la más canónica.Es importante aclarar que conceptualmente la Confiabilidad NO ES IGUAL a laDisponibilidad, la primera corresponde a ¿en cuánto tiempo aparecerá una falla?, ya quedice relación al tiempo “libre de fallas” y el segundo concepto dice relación con cómo seutiliza o aprovecha operacionalmente en el tiempo, un dispositivo o sistema: ¿cuánto 14|
  15. 15. tiempo está utilizable?. Ambos conceptos son iguales en el mundo ideal en que no hayfallas ni intervalos de tiempo fuera de servicio.Siendo, A(t) la función de probabilidad de disponibilidad y U(t) la función de probabilidadde fallar, éstas son funciones complementarias del sistema, ya que la suma de susvalores en un determinado instante t es igual a 1, es decir, de certeza de que el sistemaestará en uno de los dos estados posibles. 15|
  16. 16. Confiabilidad, Disponibilidad y MantenibilidadComo ya se ha mencionado, confiabilidad y disponibilidad van de la mano de lamantenibilidad, la cual es el proceso de recuperación desde un estado de falla y extensióno aseguramiento de la vida útil del activo. DISPONIBILIDAD CONFIABILIDAD MANTENIBILIDAD Figura Nº9El mantenimiento se puede clasificar en distintos tipos, según sus objetivos. Desde elpunto de vista de la confiabilidad, ésta tiene por objeto recuperar o asegurar laoperatividad del sistema, esto se consigue en forma preventiva o correctiva.Preventivamente, conociendo las perspectivas de probabilidad de falla, a medida que seacerca el instante de tiempo predicho por las curvas de confiabilidad, debiera aplicarse elmantenimiento para no caer imprevistamente en una indisponibilidad. Obviamente unmantenimiento correctivo, que corrige una imperfección, que ha llevado a un equipo osistema a no prestar adecuadamente los servicios esperados de él, está recuperando sunueva puesta en servicio, es decir, es un nuevo to para las curvas de confiabilidad, perocon nueva pendiente o factor Weibull, debido a que seguramente persistirán algunascondiciones de envejecimiento.Desde el punto de vista de las estadísticas de disponibilidad, se excluyen los eventos deinterrupción programada por mantenimiento, ya que una intervención bien programada yplanificada, evitará la interrupción de servicios, o bien, podrá acordar con los usuarios untiempo de interrupción controlado.La mantenibilidad se define también como “la probabilidad de que un equipo que hafallado pueda ser reparado dentro de un período de tiempo dado”. Existen equipos cuyaoperación es continua a lo largo del tiempo, por lo tanto, si el equipo está fuera de servicioes la falla, pero si el proceso de operación indica que el equipo está sujeto a un intervalode tiempo prefijado (o eventual, como un grupo electrógeno de respaldo) defuncionamiento y de “descanso”, entonces, en estos intervalos, cuando el sistema estáapagado, se le puede efectuar el mantenimiento preventivo o programado y se consideraque falla sólo cuando se requiere de su servicio y no funciona.La mantenibilidad se interpreta etimológicamente como la acción de mantener y conservarlos sistemas. Cuando se habla de sistemas continuos, una acción es el trabajo efectuadopara corregir o reparar una falla.Generalizando, mantenimiento es el conjunto de todas las acciones que tienden a reponerlas condiciones operativas iniciales del sistema, el mantenimiento aumenta ladisponibilidad del sistema, pero requiere accesibilidad del sistema para permitir el 16|
  17. 17. mantenimiento. En el lenguaje común se usa indistintamentamente el términomantenimiento o mantención, a pesar que éste último no lo reconoce la RAE.La Posibilidad de Mantenimiento, es la aptitud de un dispositivo, en condicionesespecificadas de uso, a ser conservado o repuesto en un estado, en el cual puedaefectuar las funciones requeridas, cuando el mantenimiento se efectúa en condicionespreestablecidas y usando los procedimientos y medios descritos. Se mide mediante latasa de reparabilidad μ. MTTR = 1 / μ f.29Mantención Centrada en Confiabilidad = RCMOtro concepto y estrategia que se ha incorporado con relación al mantenimiento es el quese conoce como RCM (Reliability Centered Maintenance) o Mantenimiento Centrado en laConfiabilidad. Esta metodología se originó en la industria aeronáutica y dice relación conuna estrategia diferente de planificar el mantenimiento, su relación con el aseguramientode los activos, toma de conciencia en qué, cuándo y cómo se debe realizar las accionesde mantenimiento, con el objetivo de controlar los costos, para enfocarse en las funcionesmás importantes de los sistemas, y evitando o quitando acciones de mantenimiento queno son estrictamente necesarias. Se mencionó previamente que el mantenimientorecuperaba las proyecciones de confiabilidad, pero ello implica tener absoluta claridad enconocer el estado en que se encuentra el activo a intervenir una vez qué se requiere larecuperación, para que él cumpla con las funciones que se espera pueda desarrollar.Se dice que el proceso RCM formula algunas preguntas antes de intervenir:¿hay un entendimiento de que la gran mayoría de los fallas no están necesariamentevinculadas a la edad de los activos? Recordar que el modelo de confiabilidad se basa, enque una acción de mantención obedece a un modelo "sin memoria" exponencial dedistribución de probabilidad, es decir, el cual se reinicia como si fuese To.¿es necesario cambiar los esfuerzos para predecir la esperanza de vida del activo, atratar de gestionar el proceso de fallas?¿existe una comprensión de la diferencia entre los requisitos de un activo, desde laperspectiva del usuario, y el diseño y la fiabilidad de los mismos al proyectarlos?  ¿se comprende cabalmente la importancia de la gestión de activos en su condición operacional? a menudo denominada condición de supervisión, de mantenimiento y condición de mantenimiento predictivo.  ¿se ha vinculado los niveles tolerables de riesgo con el desarrollo de estrategias de mantenimiento?  ¿se entienden las cuatro tareas básicas de mantenimiento de rutina? RCM ofrece cuatro opciones entre las estrategias de gestión del riesgo:  condición de las tareas de mantenimiento,  restauración programada o descartar las tareas de mantenimiento,  tareas de mantenimiento como búsqueda de potenciales fallas y 17|
  18. 18.  cambios a tiempo en el sistema, cambios a un diseño de hardware, a las operaciones, u otras situaciones.Un buen modelo analítico de confiabilidad y disponibilidad, puede ser útil para condicionarcontratos para tareas de externalización del mantenimiento, lo mismo que paracompromisos con los clientes. Existen estudios en que se procura demostrar que unabuena métrica de los resultados de la mantenibilidad llevan a una reducción de costos encontratistas.La mantenibilidad no es sólo cuestión de calidad o de costos, sino también de seguridad,cuando se trata por ejemplo, de máquinas de transporte o de máquinas de salud. Losriesgos en que puede incurrirse por una mantenibilidad mal planificada pueden costarvidas, ya sea por accidentes debidos a fallas mecánicas, o por no disponer de buenosdiagnósticos en instituciones de salud, casos en que pudieron evitarse si existe una buenaplanificación del mantenimiento.Asegurar la confiabilidad de un equipo o sistema, por lo general va unida a la redundanciaen espacio y tiempo, es decir, que se opere desde sitios diferentes y alejados entre sí yque funcionen simultáneamente e indistintamente para ejercer la función para la cualestán destinados. Asegurar los niveles de confiabilidad que hoy son expectativa, del tipo“4 nueves” (99,99% = indisponibilidad de 52 minutos/año) o de “5 nueves” (99,999% =indisponibilidad de 5 minutos/año), los que se exigen tan fácilmente a la O&M de redes yservicios, requeriría excesivos costos de implementación en mejoras en instalaciones ycomplejos refuerzos en recursos humanos y de repuestos. Adicionalmente, con lasmejoras tecnológicas, de remotización de la gestión y configuración, los automatismos deredundancias, no resuelven el hecho de que la intervención de recursos humanoscalificados para reparar un desperfecto, los que siempre consumen mucho tiempo, encomparación a las escalas de tiempo que significa la disponibilidad esperada. Por todo loanterior, debe existir una tendencia al mantenimiento proactivo que trate de evitar la falla.Tipos de MantenimientoSiempre que se formaliza el estudio de alguna área del conocimiento, se intentanclasificaciones, así se encuentra una taxonomía del mantenimiento o mantención, segúnse puede ver en el diagrama de la próxima figura. Mantención Mantención Mantención post falla pre falla Mantención Mantención Mantención Mantención Mantención Correctiva Proactiva Preventiva Predictiva Proactiva Figura Nº10 18|
  19. 19. Estas formas de mantenimiento, sin duda, son una orientación de clasificación según suoportunidad en el tiempo, la mantención preventiva es sistemática y programada; lapredictiva está centrada en la condición de operatividad del elemento, mientras lamantención proactiva está para evitar la aparición o recurrencia de las fallas, y lamantención correctiva viene luego de una falla, y es la mas comúnmente ejercida porrazones obvias, y a la vez la que exige un nivel de estrés mayor.Mantenimiento correctivo: tipo tradicional, es la acción de mantenimiento (reparación) quese efectúa después de la aparición de la falla. El tiempo de reparación puede ser largoporque está ligado a la individualización y diagnóstico de la falla. Afecta a este tiempotambién la existencia de repuestos insitu, como así los tiempos de traslado, sobre todo entelecomunicaciones, en que existe una gran dispersión geográfica de las instalaciones.Conociendo lamda (la tasa de fallas), puede realizarse un dimensionamiento del stock derepuestos de almacén (sí lamda es elevado se necesitan muchos repuestos).El diagnóstico es un conjunto de técnicas aptas para evaluar el estado de un sistema ytambién prever que pueda surgir la falla. Es la etapa crítica para la restitución del sistemafallado. Requiere de personal con mucha experiencia, con habilidades de deducción,rapidez de interrelacionar experiencias anteriores y toma de decisiones acertadas. Es útilpredisponer de técnicas de diagnósis de falla para reduce tiempos y costos demantenimiento, pero agrega costos de sensores, transductores, sistemas de supervisón ygestión remota de las configuraciones, y software de sistemas expertos, que ayudan a laauto diagnosis (redes neuronales, tests estadísticos, etc.).Mantenimiento preventivo: el componente es sustituido antes de que falle, cuando seprevé que está entrando en periodo de fallas por desgaste. La acción de mantenimientoes efectuada en tiempos prefijados (time-based maintenance), se aprovechan losmomentos en los que no se requiere la disponibilidad del sistema, su tiempo de activaciónes de duración inferior, respecto del mantenimiento correctivo. La disponibilidad crece, acondición de que se logre, con un buen control de calidad, utilizar para la sustitucióndispositivos con tasa de falla constante o estable (es decir privados de fallas infantiles).En electrónica de telecomunicaciones es complejo ejercer este tipo de mantención puesen envejecimiento o desgaste no es tan manifiesto como en dispositivos mecánicos.La definición de los objetivos del mantenimiento, debiera definirse en la etapa deproyecto, así como la elección del tipo de mantenimiento (correctivo o preventivo) paraestablecer la condición óptima para alcanzar los niveles de confiabilidad preestablecida enel diseño. Es necesario poder determinar los tiempos requeridos en horas hombre, paracada una de las fases de mantenimiento, lo mismo que el desarrollo de la documentacióntécnica que incluya el plan logístico de intervención.Con el tiempo, la estrategia de mantenimiento ha evolucionado, se propende al mínimocosto de reparación, máxima disponibilidad operativa, mínimo costo de usuario. Se pasade mantenimiento basado en tiempo, a mantenimiento basado en condición, esto es enprevenir, más que en reparar. 19|
  20. 20. Los tiempos de reparación de un equipo caracterizan la mantenibilidad y, el tiempopromedio para reparar (MTTR) se define como el total de horas inoperables dividido entreel número de acciones de mantenimiento.Los tiempos para reparar dependen generalmente de la duración de las actividades de:  El enfriamiento del equipo (no aplica en algunos casos)  Administrativas (si las hay, como obtención de permisos de acceso o de viáticos)  Traslados al sitio siniestrado (si corresponde)  Ubicación y diagnóstico de la falla  Espera de los materiales y repuestos  Reemplazo de componentes dañados  Calentamiento del equipo (no aplica en algunos casos)  Reinicio, reconfiguraciónLos tiempos requeridos para el enfriamiento, el calentamiento y los trámitesadministrativos son, generalmente, constantes pero la sumatoria de los tiempos para laubicación de la falla, espera de los repuestos y reemplazo de los componentes, tienen uncomportamiento aleatorio sujeto a toda la estructura logística, al entrenamiento delpersonal, al tipo de falla, etc. Sin embargo, el tiempo de duración de la falla es lasumatoria de los tiempos parciales antes mencionados. En algunos sistemas hay untiempo implícito en el intervalo de falla, el cual incrementa la duración de la misma y sedefine como “tiempo muerto”, en donde aún cuando se ha presentado la falla, no hayconocimiento de ella por falta de reporte; por lo general, ocurre con equipos que seencuentran ubicados en lugares distantes o en zonas aisladas de los grupos de trabajo.Causas de fallasEnumerar causas, nunca va a ser exhaustivo, por la diversidad de tecnologías y desituaciones. Sólo a modo de ejemplo se comentan algunos casos.En transformadores de sistemas de distribución eléctrica, la falla es en general unapérdida de aislamiento, sobrecalentamiento, sobre tensiones, envejecimiento (térmico,eléctrico, mecánico, ambiental), y también proyecto o construcción inadecuados.Los interruptores, fallan por problemas de perdida de aislamiento, sobre tensiones,sobrecalentamiento, envejecimiento, malfuncionamiento del relé de control, o problemasde circuitos auxiliares, y por problemas mecánicos, como rotura de piezas en movimientoo estáticas.Las líneas aéreas de media tensión, fallan componentes como terminales, tensores,juntas, aisladores, postes.Los cables, ya sean de energía o de telecomunicaciones, sufren de rotura mecánica engran proporción, por situaciones exógenas a la operación, por intervenciones de terceros.Aunque también en este caso hay deterioro y envejecimiento, como condiciones adversasambientales.Para los aisladores es la descarga superficial, rotura mecánica, contaminación,envejecimiento (poliméricos) y actos vandálicos. 20|
  21. 21. En dispositivos mecánicos, grupos generadores, bancos de batería existe un desgaste yenvejecimiento inherente, por lo tanto la prevención es absolutamente necesaria. Lomismo en partes como antenas y torres, que están sujetas a las condiciones ambientales.Si bien en la electrónica, es difícil predecir probabilidades de falla y la mantenibilidadpreventiva no es totalmente efectiva, pero si en algunos aspectos que sí los afectan, enespecial a las condiciones ambientales. También aplican bien algunas accionesproactivas operacionales, ya que se puede alcanzar una indisponibilidad por falta deancho de banda o falta de capacidad de procesamiento para cursar y procesar el tráficodemandante.Una de las principales preocupaciones para asegurar una buena confiabilidad de losequipos de telecomunicaciones, debe ser el tener bajo control las condicionesambientales de los recintos de instalación. Los equipos disipan altas temperaturas que deno correctamente evacuadas, por malas condiciones de filtros, insuficiente separación deracks y inadecuadas condiciones de enfriamiento, llevan a un calentamiento del equipo,mas allá de las correctas condiciones operacionales de la circuitería electrónica. CONSUMO DE POTENCIA FLUJO AIRE ESPACIO Figura Nº11Para terminar con estos conceptos de mantenibilidad, digamos que ésta, estáestrechamente vinculada con los conceptos de calidad, de mejora continua, de kaizen, deanálisis de Pareto, árboles de causa efecto de Ishikawa, temas que se recomiendainvestigar. 21|
  22. 22. Criterios de Riesgo y CostosAnalizado desde la perspectiva de los costos, los gastos (OPEX) propios de unmantenimiento preventivo, redundan en un beneficio por evitar indisponibilidades queincurran en el no cumplimiento de los SLA o en pérdidas de tráfico. Costo Costo Total Total Costo Costo CAPEX+OPEX CAPEX+OPEX Pérdidas por Pérdidas por Interrupción Interrupción Confiabilidad % Confiabilidad % 90 90 Óptimo Óptimo 100 100 Figura Nº12Un análisis de probabilidades de disponibilidad (probabilidades de falla y probabilidad deltiempo de recuperación) asociados a costos, permitirá definir estrategias demantenimiento, como puede ser la oportunidad de realizar un mantenimiento correctivo,preventivo o de diagnóstico. Desde estos datos se podrá priorizar acciones e inversiones.Como primera opción un análisis de Pareto podrá ser útil para dedicar mayores esfuerzosen aquellos problemas que tienen más relevancia, detectando “los pocos vitales de losmuchos triviales”, ya que por lo general, el 80% de los resultados totales se originan en el20% de los elementos.De la figura Nº12 se puede deducir que no es cosa de invertir indiscriminadamente, ni deesperar que la confiabilidad de las redes y sistemas sea a toda instancia de “5 nueves”.La indisponibilidad redunda en un daño económico para el usuario final, lo mismo quepara el operador. Si la confiabilidad de los componentes no varia, el daño económicocrece al crecer la complejidad del sistema. El daño económico crece al crecer la tasa defalla de cada uno de los componentes simples.Nuevamente se insiste en que las acciones sobre el proyecto, pueden maximizar laconfiabilidad de un producto industrial, de un sistema, o de una red, en esta fase sealcanza la confiabilidad intrínseca. En las fases sucesivas del ciclo de vida, R disminuye,como consecuencia de apartarse del proyecto inicial durante la producción u operación, opor la puesta en servicio, o por el envejecimiento durante el funcionamiento. El proyectodebe prever todos los aspectos de confiabilidad, con referencia a las prestacionesrequeridas en servicio. Para dispositivos reparables (disponibilidad más que confiabilidad)es necesario tomar en consideración, sobre el proyecto, también todas las acciones quefavorecerán el mantenimiento del producto, sistema o red que se activa para prestarservicios. 22|
  23. 23. La estructura de costos, en términos generales considera como Costo global = Costointervención + Costo de falla + Costo almacenamiento + Costo sobre-intervención. El Costo Intervención (Ci) (por unidad de tiempo = ci) reúne la Mano de obra, los Materiales fungibles, y los Repuestos. El Costo de Falla (Cf) (por unidad de tiempo = cf), tiene los Ingresos no percibidos y los Gastos extras de producción, y la Materia prima no utilizada El Costo de almacenamiento Ca (por unidad de tiempo = ca), toma en cuenta, el Interés financiero por capital detenido, la Mano de obra dedicada a gestión e inventario, los Costos de explotación de edificio (energía, mantención), la Depreciación comercial, etc. Por último, el Costo de sobre-intervención, considera los costos de equipos con mayores costos iniciales, pero menor costo de ciclo de vida (menores costos de mantenimiento, almacenamiento, vida útil mayor, etc).A estos costos debe agregarse aquellos que significan pérdidas de ingresos, por ejemplopor pérdidas de tráfico, o por pago de multas, y otras más intangibles como la pérdida decredibilidad o imagen.Un ejemplo de vínculo de disponibilidad y costos es analizar el impacto que puede teneruna falla, el CAPEX de la inversión necesaria para reducir la probabilidad deindisponibilidad y los potenciales costos de pérdida de ingresos por tráfico perdido o retirode clientes insatifechos.Suponiendo que un conjunto de radio bases celulares, dependen todas ellas de una rutasin respaldo, con una disponibilidad dada y se desea evaluar si una determinadainversión, para duplicar la diversidad de ruta, es necesario valorizar las potencialespérdidas en ingresos. DISPONIBILIDAD PERDIDA Sin Respaldo Sin Respaldo Con Respaldo Con Respaldo Sin Respaldo Sin Respaldo Con Respaldo celda Disp. Ruta Indisp Ruta Disp. Ruta Indisp. Ruta Tráfico Ingreso Traf. - Ingreso 30% Churn - Ingreso US$/año evento/año mins/año evento/año mins/año min/mes (10 meses) US$/año US$/año US$/año BTS1 99,89% 587,5 99,9999% 0,7 14.629 14.629 59 4.389 0,07 BTS2 99,22% 4.089,3 99,9939% 31,8 53.946 53.946 409 16.184 3,18 BTS3 99,83% 887,0 99,9997% 1,5 33.773 33.773 89 10.132 0,15 BTS4 99,83% 887,0 99,9997% 1,5 8.376 8.376 89 2.513 0,15 BTS5 99,83% 887,0 99,9997% 1,5 2.868 2.868 89 860 0,15 BTS6 99,79% 1.126,5 99,9995% 2,4 35.838 35.838 113 10.752 0,24 BTS7 99,83% 887,0 99,9997% 1,5 5.808 5.808 89 1.742 0,15 BTS8 99,88% 647,4 99,9998% 0,8 5.933 5.933 65 1.780 0,08 BTS9 99,89% 587,5 99,9999% 0,7 7.654 7.654 59 2.296 0,07 BTS10 99,89% 587,5 99,9999% 0,7 9.752 9.752 59 2.926 0,07 11.173,9 43,0 178.577 178.577 1.117 53.573 4,30Desde el análisis, la probabilidad de indisponibilidad es de 11.174 minutos por año, quemediante la ruta respaldada se podrían reducir a 43 mins/año. La pérdida de ingresos porcausa de los minutos de tráfico perdidos (bajo el supuesto que afecta a minutos de mayoractividad) es del orden de US$ 1.117, que difícilmente justifiquen cualquier inversión deduplicación de la ruta mencionada. Sin embargo, si se considera la imagen y potencialrenuncia de clientes (churn) por una mala calidad del servicio, la pérdida si puede serconsiderable, que en ejemplo se ha valorizado para un 30% de churn en la zona deservicio de las celdas, en cuyo caso si se puede llegar a justificar una inversión, si sumonto está dentro la evaluación económica del tiempo de retorno. 23|
  24. 24. Análisis FMECAOtra útil técnica para la eliminación de las características de diseño deficientes, es elanálisis de los modos y efectos de fallas (FMEA:Failure Mode and Effects Analysis); oanálisis de modos de fallas y efectos críticos (FMECA: Failure Mode, Effects, andCriticality Analysis). La intención es identificar las áreas o ensambles o partes del todoque es más probable que den lugar a fallas del conjunto.El FMEA define la función como la tarea que realiza un componente --por ejemplo, lafunción de una válvula es abrir y cerrar-- y los modos de falla son las formas en las que elcomponente puede fallar. La válvula fallará en la apertura si se rompe su resorte, perotambién puede tropezar en su guía o mantenerse en posición de abierta por la leva,debido a una rotura en la correa de árbol de levas.La técnica consiste en evaluar tres aspectos del sistema y su operación:  Condiciones anticipadas de operación, y el fallo más probable.  Efecto de fallo en el rendimiento.  Severidad del fallo en el mecanismo.La probabilidad de fallos se evalúa generalmente en una escala de 1 a 10, con lacriticidad aumentando con el valor del número. Esta técnica es útil para evaluarsoluciones alternativas a un problema pero no es fácil de usar con precisión en nuevosdiseños. El FMEA es útil para evaluar si hay en un ensamble un número innecesario decomponentes puesto que la interacción de un ensamble con otro multiplicará los efectosde un fallo. Es igualmente útil para analizar el producto y el equipo que se utiliza paraproducirlo, ayuda en la identificación de los modos de fallo que es probable que causenproblemas de uso del producto. Facilita también, eliminar debilidades o complicacionesexcesivas del diseño, y a identificar los componentes que pueden fallar con mayorprobabilidad. Puede también usarse eficazmente para evaluar las causas de detención enlas máquinas de producción o en nodos de una red.En resumen, el objetivo de un FMECA, cuando se realiza como parte de un proyecto dediseño, es eliminar las potenciales futuras fallas que se presuma con gran severidad yprobabilidad, y para reducir lo más posible, aquellas con la más alta gravedad y/o mayorprobabilidad. Esto permite la clasificación de prioridades, por medio del llamado númerode prioridad de riesgo (RPN). El RPN es el resultado de una multiplicación de laDetectabilidad (D) x Severidad (S) x Ocurrencia (O), cada uno en una escala de 1 a 10. Elmayor RPN es 10x10x10 = 1000, o que significa que este evento de falla no es detectablepor la inspección, es muy grave y la incidencia es casi segura. Si la ocurrencia es muyescasa, éste sería igual a 1 y el RPN reduciría a 100. Por lo tanto, el análisis de criticidadpermite centrarse en los más altos riesgos.Nivel de CriticidadPara definir un nivel de criticidad, usualmente los efectos de la falla se clasifican en: I. Insignificante: el efecto sobre la confiabilidad y/o disponibilidad es mínimo. II. Menor: no afecta la seguridad, pero sí la confiabilidad-disponibilidad. III. Mayor: no afecta la seguridad, pero sí la confiabilidad-disponibilidad de manera importante. IV. Crítica: es afectada la seguridad 24|
  25. 25. El autor del “El Arte de Mantener” (ref9) recomienda los siguientes criterios para definir elnivel de criticidad:En una red de telecomunicaciones podrá analizarse todas las situaciones devulnerabilidad que puedan existir y asociarlas a un nivel de criticidad, para centrar losesfuerzos de mejoras.Una buena ingeniería contemplará desde los inicios de un proyecto, en sus etapa deconcepción y diseños, la confiabilidad esperada y todos los medios para alcanzarla. Sicomo se espera de una red de telecomunicaciones, que presta servicios fundamentalespara la sociedad, una disponibilidad de “5 nueves” debe analizarse de acuerdo a losdistintos criterios que se han desarrollado aquí.Un análisis detallado desde los cimientos (componentes, sistemas y subsistemas) hasta elresultado final de la red implementada, conlleva contemplar una revisión de la arquitecturatotal, definir objetivos de confiabilidad, ejecutar una asignación a las partes. DISPONIBILIDAD RED % INDISPONIBILIDAD NIVEL de minutos/año SISTEMAS MTBF NIVEL de CIRCUITOS horas (tarjetas) TASA FALLAS NIVEL de COMPONENTES FITs Figura Nº13Realizar una evaluación de la arquitectura, identificar deficiencias de diseño, desarrollarlos diagramas en bloque de confiabilidad (técnica RBD: Reliability Block Diagrams)) y 25|
  26. 26. modelos de Markov, hacer la simulaciones y obtener resultados de fallas posibles ydocumentarlas, así se podrá reducir los costos de mantención y reparación, identificandopreviamente posibles problemas de confiabilidad antes que la red entre en operación.Existiendo riesgos y costos involucrados, es necesario poder establecer compromisoscontractuales, a los que se les denomina SLA o OLA, temas que serán tratados en unapartado específico. 26|
  27. 27. Aplicaciones y Análisis Estadístico de EventosDe lo estudiado anteriormente, se ha visto que una red o sistema, tiene uncomportamiento aleatorio en cuanto a sus estados de operación correcta y con fallasoperacionales. Cuando hay historia, se puede analizar los registros de tiempos en uno yotro estado (Disponibilidad real), y desde allí proyectar lo que pueda suceder en el futurode incertidumbre operacional (Disponibilidad proyectada). Incertidumbre OK OUT to t1 t2 t3 t4 t Figura Nº14¿qué significan las cifras? ¿cómo obtener resultados de análisis? ¿qué deducciones sepueden obtener? ¿cómo ayudan a la calidad? Para todo esto, es fundamental disponerde registros y bases de datos con buenas clasificaciones de los eventos, y con igualdetalle del que se desea lograr en los estudios. Si se desea analizar a nivel deconfiabilidad de componentes electrónicos, a nivel de módulos o a nivel de sistemas, esadeberá ser la desagregación de los registros.A fin de conseguir datos confiables, en los sistemas de registro debe evitarse dejar alarbitrio de quien completa el dato, por o tanto lo aconsejable es que previamente sedefinan las tablas de validación del dato. Además, es imprescindible un entrenamientoprofundo que permita la comprensión del fin último de esos datos, como así también delsignificado específico de las clasificaciones.Hay que recordar que la validez estadística, está basada en las tendencias, y para ello lasbases de datos deben disponer de registros históricos de largo tiempo, así los resultadosde análisis serán más cercanos a la realidad. Por la misma razón, debe evitarse cambiarmuy frecuentemente los criterios de medición, o los tipos de clasificación.Los ordenes de magnitud en las mediciones de los parámetros fundamentales dedisponibilidad, suponiendo un instrumento constituido de cuatro elementos, son del tipo:Component MTBF MTTR Availability Downtime Hr Hr % mins/añoTransductor de Entrada 100.000 2 99,998% 10,5118Signal Processor Hardware 10.000 2 99,980% 105,0990Signal Processor Software 2.190 0,0833 99,996% 19,9992Visualizador 100.000 2 99,998% 10,5118En la referencia citada como “Estadística básica aplicada al Mantenimiento” se menciona,que “la recolección de los datos de tiempo y su análisis, para la estimación de los índicesde mantenimiento, acarrean una serie de problemas: 27|
  28. 28. (a) Como los fenómenos de funcionamiento de los equipos se relacionan con procesos aleatorios, éstos por su propia naturaleza generan un alto volumen de información, el cual se incrementa cuando aumenta el número de equipos con las mismas características de operación.(b) La precisión es otro de los factores considerados, debido a que cuando ocurre una falla, no se sabe a cabalidad el momento exacto en el que ocurre y, la exactitud de los índices a obtener depende de la precisión con la cual se recopila la información sobre el tiempo de operación y el tiempo fuera de servicio del sistema.(c) La veracidad de la información va a estar sujeta a la honestidad y habilidad del personal encargado de recolectarla.(d) La información que genera cada equipo requiere del conocimiento de la estadística para el procesamiento de los datos recopilados.(e) Como el volumen de los datos es tan alto y las ecuaciones matemáticas complejas, se requiere del uso de computadoras lo cual implica la contratación de recursos humanos especializados para el manejo de datos y de los programas, así como para la trascripción de la información.(f) Dependiendo de la distancia entre el equipo y el computador, y del tiempo que demora la trascripción de los datos se va a presentar un desfasaje entre los sucesos ocurridos en el equipo y los resultados emitidos por el computador, lo que puede ocasionar una decisión errónea sobre el mantenimiento a seguir; por no ajustarse a la realidad del equipo, ya que éste pudo haber generado otra serie de datos de tiempo.(g) Aunque se utilizan los computadores para calcular los índices de mantenimiento se presenta el inconveniente de la interpretación de los resultados, porque para llegar a la decisión acertada, se deben tener conocimientos de las técnicas de mantenimiento y de los modelos estadísticos.(h) En general, se puede decir que lo sofisticado de la cuantificación de los índices de mantenimiento y su interpretación ha ocasionado, que en determinados niveles gerenciales, tengan una aplicación restringida, por lo tanto, existe una incertidumbre en la toma de decisiones que distorsiona la utilización óptima de los recursos humanos y el control de inventarios de repuestos.Se entiende por parámetros de mantenimiento, a una cantidad que está sujeta orestringida a determinados valores que pueden ser, en una situación especial, una seriehistórica que describa las características o el comportamiento de un equipo.(sic)”El análisis de datos en este campo, no es sólo sacar resultados de tendencia, sinotambién deducir conclusiones y recomendar acciones de mejoras. Para ello lasmetodologías de Pareto e Ishikawa son clásicas.Diagramas de ParetoWilfredo Pareto (1848-1923) economista italiano, realizó un estudio sobre la riqueza y lapobreza, descubriendo que el 20% de las personas controlaba el 80% de la riqueza enItalia. Pareto observó muchas otras distribuciones similares en su estudio.A principios de los años 50, el Dr. Joseph Juran descubrió la evidenciapara la regla del "80-20" en una gran variedad de situaciones. En particular, el fenómenoparecía existir, sin excepción, en problemas relacionados con la calidad. Una expresióncomún de la regla 80/20 es que "el 80% de nuestro negocio proviene del 20% de nuestrosclientes." 28|
  29. 29. Por lo tanto, el Análisis de Pareto es una técnica que separa los "pocos vitales" de los"muchos triviales". Una Gráfica Pareto es utilizada para separar gráficamente los aspectossignificativos de un problema desde los triviales de manera que se pueda tomar unadecisión y se sepa dónde dirigir sus esfuerzos para mejorar.El Diagrama de Pareto consiste en un gráfico de barras similar al histograma que seconjuga con una ojiva o curva de tipo creciente y que representa en forma decreciente elgrado de importancia o peso que tienen los diferentes factores que afectan a un proceso,operación o resultado. Análisis de Pareto 80 120% 70 Pocos Vitales 100% 60 80% 50 Cantidad 40 60% Muchos Triviales 30 40% 20 20% 10 0 0% D A C F E G B H Tipo Evento Figura Nº15La tabla de frecuencias de los eventos (clasificados desde A a H) y su aporte porcentualse ordena en forma descendente y se calcula el porcentaje acumulado. El resultado se leutiliza para, Identificar y analizar un producto o servicio para mejorar la calidad. Cuando existe la necesidad de llamar la atención a los problemas o causas de una forma sistemática. Al analizar las diferentes agrupaciones de datos (ejemplo: por producto, por segmento del mercado, área geográfica, etc.) Al buscar las causas principales de los problemas y establecer la prioridad de las soluciones. Al evaluar los resultados de los cambios efectuados a un proceso (antes y después).En casos típicos, los pocos vitales (pasos, servicios, ítems, problemas, causas) sonresponsables por la mayor parte en el impacto negativo sobre la calidad. Un equipo deanálisis puede utilizar la Gráfica de Pareto para varios propósitos para: lograr mejoras,analizar las causas, estudiar resultados, planear una mejora continua, demostrar queprogreso se ha logrado de un "antes y después". 29|
  30. 30. Diagramas de IshikawaOtra útil metodología se le debe a Ishikawa, Kaoru Ishikawa quién nació en Japón en1915 y murió en 1989. Ishikawa fue un gran teórico de la administración de empresas y unexperto en control de calidad. Ishikawa se incorporó a la ISO en 1960 y, desde 1977, fueel presidente de la delegación del Japón. Fue además presidente del Instituto deTecnología Musashi de Japón. De los muchos aportes que hizo Ishikawa en susnumerosos libros sobre control de calidad, se destaca el conocido diagrama de causa-efecto, o mejor conocido como el diagrama de espina de pescado, por la forma que éstetiene. Un ejemplo: Figura Nº16La manera de obtener comienza por decidir cuál va a ser la característica de calidad quese va a analizar. Por ejemplo, en un caso de un determinado producto, podría ser el pesodel frasco lleno, la densidad del producto, el porcentaje de aceite, etc. Se traza una flechagruesa que representa el proceso y a la derecha se escribe la característica de calidad.Se indican los factores causales más importantes y generales que puedan generar lafluctuación de la característica de calidad, trazando flechas secundarias hacia la principal.Por ejemplo: Materias Primas, Equipos, Operarios, Método de Medición, etc. Para unamejor visualización, cada una de las características debe tener una ponderación decuánto pesa en proceso y un desglose de las causas que pueden contribuir cada unoprevias. Figura Nº17 30|
  31. 31. En general los aportes de Kaoru Ishikawa, establecen las herramientas básicas para laadministración de la calidad:1. La calidad empieza con la educación y termina con la educación. Sistema humano,dado que para que se tenga la cultura de calidad se tiene que tener un ambiente decultura en las personas y esto se da por medio de la educación.2. El primer paso en la calidad es conocer las necesidades de los clientes. Elposicionamiento en el mercado, se debe a que uno necesita saber las necesidades de losclientes para poder satisfacerlas y así cumplir con los estándares de calidad.3. El estado ideal del control de calidad ocurre cuando ya no es necesaria la inspección.Se debe controlar el proceso de la calidad para que en un futuro no se presentendefectos.4. Eliminar la causa raíz y no los síntomas. Planeación estratégica, se debe a que unodebe tener un enfoque total del sistema para poder así definir las políticas correctas de lacalidad.5. El control de calidad es responsabilidad de todos los trabajadores y en todas las áreas.Se necesita que toda la empresa trabaje junta, es decir, se integre para que puedan teneréxito los procesos de la calidad.6. No confundir los medios con los objetivos. Debe haber un buen líder para que lleve a laempresa a cumplir todos los objetivos, que son la búsqueda de la calidad.7. Ponga la calidad en primer término y dirija su vista a las utilidades a largo plazo. Mejorade la calidad, por que se tiene que tener a la calidad como primer término.8. La mercadotecnia es la entrada y salida de la calidad. El posicionamiento de mercado,es muy importante saber que le gusta al cliente y que no.9. La gerencia superior no debe mostrar enfado cuando sus subordinados les presentenhechos. Se debe tener en cuenta que lo que se busca es la calidad, así que cualquierqueja se debe tomar en cuenta para intentar mejorar y así alcanzar la calidad.10. El 95% de los problemas de una empresa se pueden resolver con simplesherramientas de análisis y de solución de problemas. La planeación estratégica, siemprese tiene que analizar en el lugar donde se trabaja para así poder resolver los problemasque puedan presentarse. 31|
  32. 32. Estadísticas de Disponibilidad en Redes de TelecomunicacionesLa problemática de un operador de redes de telecomunicaciones es que su producto esun intangible, en la forma de servicios, y su fábrica (que opera 7*24) son las redes, queestán constituidas por múltiples nodos que forman redes de mucha diversidad, entecnologías y origen de fabricación. En consecuencia la complejidad del registro deeventos es igualmente compleja e implicará análisis de calidad tanto para redes comopara servicios.Las redes de telecomunicaciones están estratificadas y se considera que hay sistemas oredes que son funcionalmente dependientes unos de otros. Como puede verse en lafigura Nº 18, las capas, que comúnmente se definen, son la infraestructura de energía yclima, las redes de transporte, las redes de servicios y las redes de acceso. Servicios del Cliente Sistemas Operacionales Sistemas Comerciales Redes de Acceso Redes de Servicios Redes de Transporte Infraestructura,Energía y Clima Figura Nº 18El diagrama muestra que todos los componentes contribuyen al servicio del cliente, labase fundamental de las redes y sistemas es la infraestructura de obras civiles, energía yclima, sobre la que se montan las distintas redes. A su vez la red de transporte es la basede soporte para el resto de las redes a las que les provee las interconexiones de nodos.Las redes de servicios soportan la variedad de servicios de telecomunicaciones, comopueden ser las comunicaciones telefónicas, las de datos o de video. A todos estoselementos se debe acceder desde los recintos de clientes mediante las redes de acceso.La correcta operación de todas las instalaciones es apoyada por sistemas de soporte alos procesos, en el caso de los operacionales, corresponde a sistemas de gestión deelementos de red (NMS) para su configuración y monitoreo remoto, supervisión dealarmas, registro de tickets de fallas, respaldo de configuraciones, administración derepuestos, inventarios de recursos de red, y de planimetrías.En tanto los sistemas comerciales, apoyan esta gestión, en cuanto a órdenes de trabajode servicios, bases de clientes, registros de tráfico, sistemas de tasación, tarificación, yfacturación. Todos y cada uno contribuyen a la calidad del servicio final. La imagenpiramidal indica que las plataformas inferiores soportan a todas las superiores y por ellorevisten mayor importancia desde el punto de vista de asegurar confiabilidad. 32|
  33. 33. En la figura Nº 19 se describe en forma mas detallada las distintas redes y tecnologíasque forman parte de las instalaciones típicas de un operador, para entrar a continuación arealizar algunos análisis típicos de redes. Figura Nº 19Cualquier estudio de consfiabilidad o disponibilidad requiere definir modelos de red ymodelos de datos. La recopilación de datos necesita un largo tiempo de recolección yvalidación, los que típicamente se obtienen de las bases de datos de los reportes de fallasy dependiendo de la profundidad del análisis que se desea, es el mayor detalle delregistro: niveles de tecnología, equipos, tarjetas, módulos, responsabilidades operativas,proveedores, etc.Para informes o reportes de SLA es común el análisis de datos de un mes paradeterminar comportamiento de disponibilidad de corto plazo, sin embargo, para análisis deproyecciones de confiabilidad lo recomendado es un análisis de lo por lo menos un año dedatos.El proceso de análisis requiere muchas horas especializadas y más aún si las bases dedatos requieren de mucha validación. Por ello se han desarrollados herramientasinformáticas especializadas, que como referencia se mencionan algunos: http://www.i-mtbf.com/ http://www.relex.com/ http://www.raytheoneagle.com/asent/index.htm http://www.reliasoft.com/BlockSim/ http://www.isograph.com/workbench.htm http://www.plant-maintenance.com/freestuff/1006.shtml 33|
  34. 34. Sistemas de energía o poderComenzando por un Modelo de Cálculo para instalaciones de energía paratelecomunicaciones, la recomendación es estructurar los registros de datos quecontengan: Fecha H:M:S Inicio / Fin del evento. Si se desea evaluar el proceso registrar tiempos intermedios. Sistema AC – CC – Tableros – Baterías – Disyuntores, inventario de base instalada, etc. Marcas, fabricantes Ubicación: Lugar geográfico – Estación - Sala Alarma inicial Diagnóstico - Solución Técnico responsable: diagnóstico y reparación, Si se desea evaluar, también recursos externos identificarlos Recursos utilizados, control de repuestos y análisis de costosEn consideración a que se está en presencia de instalaciones de múltiples sitios ymultiples equipos debe recurrirse a la formula f.21 para el calculo. Además, debegenerarse una medida de impacto, es decir, que en una instalación (sitio o estación) unafalla no siempre afecta a todos los servicios de energía, ello por que pueden haberdiferentes módulos rectificadores, diferentes tableros de distribución, y múltiples breakers,protecciones o automáticos (según el término que se acostumbre).La recomendación es que sea éste último nivel el que permita ponderar el impacto, ya quees el último elemento del sistema que permite evaluar el impacto sobre el número deequipos de telecomunicaciones o TI que fueron afectados.Si se está frente a la necesidad de evaluar confiabilidad de una instalación, en primerlugar establecer el diagrama en bloques de todos los componentes del sistema que estánsusceptibles de analizar, en una cadena serie-paralelo y aplicar los MTBF históricos de almenos un año de registro o los que entregue el fabricante. Un modelo de una posibleplanta de energía se muestra en la figura Nº 20. Figura Nº 20 34|
  35. 35. El objetivo de confiabilidad de todo el sistema, es el resultante en la carga, enconsecuencia en el calculo intervienen al menos 7 elementos, aportando cada uno supropia confiabilidad. ¿cuál es la probabilidad de estar libre de falla en 1 año? MTBF Confiabilidad Hr % Elem 1 1000000 0,9901 Elem 2 300000 0,9607 Elem 3 500000 0,9802 Elem 4 1000000 0,9901 Elem 5 300000 0,9672 Elem 6 1000000 0,9901 Elem 7 300000 0,9672 TOTAL 89,8538%Se puede esperar con un 89.9% de probabilidad de que no falle antes de las 10.000 Hrs(el año son 8.760), notando que cada elemento por separado tiene un buen nivel deconfiabilidad, y bajo el supuesto que los dos primeros elementos operan como respaldo.Este estudio es válido para esa configuración de sistema y para todas las instalacionesque sean iguales y con los mismos componentes.Si se analiza la disponibilidad, se incluye la mantenibilidad expresada por el MTTR. MTBF MTTR Disponibilidad Downtime Hr Hr % mins/año Elem 1 1000000 2 99,99980% 1,05 Elem 2 300000 4 99,99867% 7,01 Elem 3 500000 1 99,99980% 1,05 Elem 4 1000000 1 99,99990% 0,53 Elem 5 300000 1 99,99967% 1,75 Elem 6 1000000 1 99,99990% 0,53 Elem 7 300000 1 99,99967% 1,75 TOTAL 99,9989% 5,61El resultado es que se espera que el 99,9989 del tiempo de operación el sistema estédisponible, y como complemento un tiempo de indisponibilidad de 5,6 minutos por añoque se podría perder el servicio. Si las cifras de MTBF y MTTR provienen de la estadisticaprevia del año, no es lo que se espera sino es un hecho, y que si se pudiese proyectarcomo comportamiento futuro de mantenerse las condiciones operativas.Suponiendo que se analiza con otra perspectiva, que sea detectar puntos de debilidad delos distintos sistemas similares, en cuyo caso se tuviese los siguientes datos (no dicenninguna relación con ejemplo anterior): Cantidad Eventos Sum Tpos out MTBF MTTR Disponibilidad Downtime Instalada Hr Hr Hr % mins/año Elem 1 100 50 458 175 9,2 99,948% 274,80 Elem 2 50 38 1432 231 37,7 99,673% 1718,40 Elem 3 200 41 783 214 19,1 99,955% 234,90 Elem 4 639 1 321 8760 321,0 99,994% 30,14 Elem 5 43 14 53 626 3,8 99,986% 73,95 Elem 6 173 73 837 120 11,5 99,945% 290,29 Elem 7 491 200 38 44 0,2 99,999% 4,64 35|
  36. 36. Se deduce que el elemento 7, a pesar de presentar una alta tasa de fallas (200 eventos),pero por tener MTTR muy bajo, su disponibilidad es de 99,999% del año. Por el contrario,puede también deducirse, que el elemento 2 debe analizarse en mas detalle sucomportamiento (oportunidad para Ishikawa), ya que tiene la mayor contribución a laindisponibilidad del sistema, tanto por impacto del MTBF y MTTR. Del diagrama figuraNº21 el responsable es el módulo 2 que deberá resolverse con el fabricante su solución. falla operativa= 6 falla H·W=23 Instalación=1 Módulo1=6 mantención=3 Módulo2=13 provisión= 2 Módulo3=4 de 50 Eq fallaron 45 Calidad Equipo Config=3 falta=1 Bloqueo=4 distancia=1 falla SW Repuestos=2 Figura Nº 21Si se desease analizar la disponibilidad de la entrega de energía a todos los equipos delas redes, suponiendo un universo de 500 alimentadores, para los que se registran loseventos de falla y semanalmente se calcula los parámetros de disponibilidad real yproyectada, luego de determinar los MTBF y MTTR evolutivos. Disponibilidad Proyectada MEDIDA PROYECTADA 4,5 100,5000% 4 99,5000% 3,5 1-(TiTo) MTBF/(MTBF+MTTR) 98,5000% 3 2,5 97,5000% Eventos 2 96,5000% Disponibilidad % 1,5 95,5000% 1 0,5 94,5000% 0 93,5000% 1 2 3 4 5 6 7 8 9 10 1112 1314 15 1617 1819 20 2122 TIEMPO Figura Nº 22Los calculos se muestran en la tabla siguiente: Eventos Eventos Tpo. out Tpo. Out Acum. MTBF MTTR Disponibilidad Acum Hr Hr Hr Hr % 1 1 0,4 0,4 168 0,4 99,9995% 3 4 0,34 0,74 42 0,2 99,9991% 1 5 1,3 2,04 34 0,4 99,9976% 1 6 1,45 3,49 28 0,6 99,9958% 4 10 4,3 7,79 17 0,8 99,9907% 0 10 0 7,79 17 0,8 99,9907% 1 11 0,98 8,77 15 0,8 99,9896%La notable diferencia se debe a la poca historia de los eventos. Lo recomendable esaumentar el tiempo de análisis para que la proyección sea más fiable. Se insiste que lossistemas de poder sustentan la totalidad de los demás elementos de las redes, por ellodebe asegurarase la máxima confiabilidad. 36|

×