01 7n1is trabajo-tecnica-de-captura-de-datos

5,011
-1

Published on

Diseño de Sistema
Unidad IV Describir las técnicas de captura de datos y la fundamentación del diseño de entradas y salidas de un sistema.

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
5,011
On Slideshare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
50
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

01 7n1is trabajo-tecnica-de-captura-de-datos

  1. 1. REPUBLICA BOLIVARIANA DE VENEZUELA MINISTERIO DE EDUCACIÓN PARA EL PODER POPULAR UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICA DE LA FUERZA ARMADA NACIONAL BARQUISIMETO – ESTADO LARA Integrantes RICHARD ROJAS LUIS MENDOZA ALEXANDER LOPEZ RAMON PULIDO RONMER REINOSO ALEXANDER RODRIGUEZ SECCIÓN: 7N1IS BARQUISIMETO, MAYO DE 2010
  2. 2. CAPTURA DE DATOS Y TECNICAS IMPORTANCIA DE LAS ENTRADAS Y SALIDAS Introducción 2
  3. 3. Las entradas/salidas han sido los elementos mas despreciados por los diseñadores de hardware y por los mejoradores del rendimiento de los computadores, quienes no hacen sino concentrarse en volver mas eficiente el procesamiento de la información (acrecentar el rendimiento de la CPU), sin tener en cuenta el rendimiento de los sistemas de entradas/salidas; tanto así que una de las medidas más utilizadas para determinar que tan poderoso, bueno o malo es algún sistema de cómputo, es el tiempo de CPU, el cual ignora completamente el tiempo de entradas/salidas; algo irónico puesto que finalmente, la productividad de las entradas/salidas puede limitar la productividad del sistema al igual que el tiempo de respuesta de las entradas/salidas limita el tiempo de respuesta del sistema. Índice 3
  4. 4. Contenido Pagina Captura de datos…………….……………………………………………………...3 Diseño de formulario de captura…………………………………………………..4 Métodos de entradas de datos………………………………………………….....5 Procesamiento y elementos de Datos…………………………………………….7 Necesidades de las entradas y salidas…………………………………………...9 Desempeño de entradas y salidas………………………………………………10 Soluciones de entradas y salidas………………………………………………..11 Conclusión………………………………………………………………………….18 Bibliografía………………………………………………………………………….19 Captura de Datos y métodos de entrada 4
  5. 5. Captura de Datos: • La captura de datos mediante la obtención de datos de un ordenador. • Automatizado de captura de datos mediante la obtención de datos directamente por un dispositivo de entrada sin usar un teclado. Uso de lectores de documentos (OMR, MICR, OCR). Lectores de códigos de barra, Escaneo fotos .Usando sensores para el registro de datos. • formas de captura de datos están diseñados para tener la entrada de datos de computadora escrito en ellos. o Un formulario de suscripción de miembros o Un cuestionario o Un documento de respuesta Documentos Turnaround: Un documento de respuesta se produce por un ordenador, ha añadido más datos a la misma, y es entonces de entrada en el ordenador. Ejemplo: La lectura del contador Junta • Ventajas: o Los datos que ya se sabe que el equipo no necesita ser escrito o introducido de nuevo. o El ordenador puede reconocer cada documento usando la información que ya ha impreso en él. Diseño de formularios de captura de datos • Formas de captura de datos debe ser de fácil utilización: o Simple  Pregunte por el mínimo de información  Mantener el texto impreso al mínimo 5
  6. 6. o Claro  Dar instrucciones claras  Mantenga los campos cercanos a los espacios de información y respuestas o Interesante  Si parece atractivo es menos esfuerzo para completar Cuestionarios: son un conjunto de preguntas para una encuesta para recoger información de las personas. Los datos recogidos deben ser fácilmente analizados. Análisis de Datos: Los datos de los cuestionarios deben ser fácilmente analizados y pueden ser de varios tipos diferentes de preguntas cerradas: • Preguntas que requieren respuestas afirmativas o negativas. • Preguntas con varias respuestas posibles dando una simple elección. • Las preguntas donde la respuesta es un número que mide una cantidad. Métodos de entrada: • Un dispositivo de entrada es un periférico que acepta datos y los envía a la CPU: • Teclado, Ratón, Documento lector (OMR, OCR, MICR), Luz plumas y pantallas táctiles, Sensores, Escáner, Joystick y juegos, Micrófono. 6
  7. 7. La captura de datos a partir de documentos impresos : Una de las tareas de la aplicación más útil de la captura de datos está recopilando información de documentos en papel y guardarlo en bases de datos (CMS, ECM y otros sistemas). Existen varios tipos de tecnologías básicas utilizadas para la captura de datos en función del tipo de datos: • OCR: para reconocimiento de texto impreso • ICR: para impresos a mano de reconocimiento de texto • OMR : para las marcas de reconocimiento • OBR : para el reconocimiento de códigos de barras • BCR : para tarjetas de visita de reconocimiento Los documentos para la captura de datos se puede dividir en 3 grupos: Documentos estructurados: (cuestionarios, tests, formularios de seguros, declaraciones de impuestos, boletas, etc) por completo la misma estructura y la apariencia. Es el tipo más fácil la captura de datos, ya que cada campo de datos se encuentra en el mismo lugar para todos los documentos. Documentos Semi-estructurados: (facturas, órdenes de compra, cartas de porte) tienen la misma estructura pero su apariencia depende del número de artículos y otros parámetros. La captura de los datos de estos documentos es un complejo, pero solucionable tarea. Documentos no estructurados: (cartas, contratos, artículos) puede ser flexible con la estructura y la apariencia. Proceso de Captura de Datos Alfanuméricos: La alternativa más utilizada es la introducción de los datos directamente en la base de datos (producto de la fase de diseño de la Base de Datos), mediante un Sistema de Gestión de 7
  8. 8. Bases de Datos. De esta manera se realiza en forma inmediata control de calidad de los datos, mediante sistemas de validación de los mismos, evitando que el operador introduzca datos erróneos y sin relación con las demás tablas de la base de datos. Es importante definir el procedimiento para la introducción de datos a las tablas de dominio, que serán claves en la estandarizaron de los datos alfanuméricos (Moldes, 1995). Tratamiento informático de datos: es cualquier proceso que utiliza un programa informático para introducir datos y resumir, analizar o convertir los datos en útil información . El proceso puede ser automatizado y se ejecutan en un ordenador . Se trata de registrar, analizar, clasificar, resumir, el cálculo, la difusión y almacenamiento de datos. El análisis de datos : Cuando el dominio desde el que se recogen los datos es una ciencia o un campo de la ingeniería, procesamiento de datos y sistemas de información son considerados como términos que son muy amplias y el término más especializados de análisis de datos se suele utilizar. Procesamiento: Prácticamente todos los procesos naturales pueden ser vistos como ejemplos de sistemas de procesamiento de datos en la que "observa" la información en cualquiera de sus formas. El uso convencional de los datos y términos del sistema de información s restringe su uso para referirse a las derivaciones algorítmica, deducciones lógicas y cálculos estadísticos que se repiten permanentemente en ambientes de negocios en general, y no en el sentido más amplio de todas las conversiones de medidas reales del mundo en información del mundo real, digamos, en un sistema biológico orgánico o incluso un sistema de ingeniería o científicos. 8
  9. 9. Elementos del tratamiento de datos: Con el fin de ser procesados por un ordenador, los datos necesitan primero ser convertidos en un formato legible por máquina. Una vez que los datos están en formato digital, los distintos procedimientos pueden aplicarse a los datos para obtener información útil. El procesamiento de datos puede incluir varios procesos, incluyendo: • Adquisición de datos • Validación de datos • La entrada de datos • Tabulación de Datos • Limpieza de datos • Análisis estadístico • Codificación de datos • La infografía • Transformación de datos • Almacenamiento de datos • Los datos de traducción • La minería de datos • Los datos de resumen • Fusión de datos • Agregación de datos La adquisición de datos (DAQ abreviada) es el proceso de toma de muestras del mundo físico y las condiciones reales de conversión de las muestras resultantes en los valores numéricos digitales que pueden ser manipulados por un ordenador. Adquisición de datos y la adquisición de sistemas de datos (abreviado con las siglas DAS) implica la conversión de formas de onda analógica en valores digitales para su procesamiento. Los componentes de los sistemas de adquisición de datos incluyen: • Los sensores que convierten los parámetros físicos en señales eléctricas. • circuitos de acondicionamiento de señal para convertir las señales del sensor en una forma que se puede convertir en valores digitales. 9
  10. 10. • convertidores analógico-digital, que convierten las señales del sensor condicionada a valores digitales. adquisición de aplicaciones de datos son controlados por programas de software desarrollado usando una serie de propósito general los lenguajes de programación tales como BASIC , C , Fortran , Java , Lisp , Pascal . COMEDI es un código abierto del API (Application Program Interface) que utilizan las aplicaciones para acceder y controlar la adquisición de datos hardware. . . Validación de datos: es el proceso de garantizar que un programa funciona en limpio, y útil los datos correctos. Utiliza rutinas, a menudo llamado " reglas de validación "o" rutinas de verificación ", que verifican la exactitud, la pertinencia, y la seguridad de los datos que se introducen en el sistema. Las reglas pueden ser aplicadas a través de las instalaciones automatizadas de un diccionario de datos , o mediante la inclusión explícita de los programas de aplicación lógica de validación. Fusión de datos, se define generalmente como el uso de técnicas que combinan datos de varias fuentes y recopilar esa información a fin de lograr conclusiones, que serán más eficientes y potencialmente más exactos que si se consigue por medio de una sola fuente. Necesidad de las entradas/salidas En teoría, la velocidad de un sistema multiprocesador debe incrementar en proporción directa con el incremento del número de nodos de procesamiento; esto no ocurre en todos los casos, pero se ha observado que lo que si ocurre en la práctica es que a medida que la velocidad de procesamiento incrementa, los programas que ejecutan entradas/salidas, requieren mayor cantidad de ellas. 10
  11. 11. Por otro lado, es usual que las aplicaciones que corren en los poderosos supercomputadores requieran de operaciones de entradas/salidas de grandes volúmenes. Esto sucede así por diferentes razones: • Muchas veces los datos requeridos por un programa no se pueden colocar en memoria principal y por eso deben ser colocados en archivos en discos. Un ejemplo de este caso puede ser una aplicación que deba hacer operaciones con una matriz muy grande (de 1000 x 1000 ó más grande). • Otros casos son aquellos en los cuales los datos si pueden ser almacenados en memoria, pero se requieren operaciones de entradas/salidas, por ejemplo, para leer datos de entrada de archivos al principio del proceso y para escribir los resultados al final; eventualmente se puede necesitar escribir o leer datos durante el proceso. • Hay aplicaciones que corren por largo tiempo, que requieren de puntos de chequeo, en los cuales se detiene el procesamiento para reiniciar mas tarde; en este momento es necesario almacenar el contenido de las estructuras de datos en archivos. • Las entradas/salidas pueden ser requeridas para la depuración de un programa paralelo. Elementos que determinan el desempeño de las E/S • La congestión en la red que ocasiona el aspecto anterior. • El ancho de banda requerido por las aplicaciones. • Los diferentes patrones de acceso de las aplicaciones. 11
  12. 12. • El tiempo de acceso a un disco que está compuesto de : • El tiempo de posicionamiento en los discos, que es también llamado tiempo de búsqueda porque se refiere al tiempo gastado en desplazar el brazo móvil, que contiene la cabeza de lectura/escritura, a la pista deseada. • La latencia de rotación o retardo rotacional en los discos, que es el tiempo para que el sector requerido gire bajo la cabeza lectora/escritora. • El tiempo de transferencia, que es el tiempo empleado en transferir un bloque de bits bajo la cabeza de lectura/escritura hasta el buffer del controlador. Normalmente es función del tamaño del bloque, la velocidad de rotación, la densidad de grabación de una pista y la velocidad de los componentes electrónicos que conectan el disco al computador. Soluciones en Entradas/Salidas El paralelismo busca maximizar el rendimiento de un sistema, especialmente cuando se ejecutan aplicaciones de gran escala que por lo general requieren altas velocidades y cortos tiempos de respuesta. Desafortunadamente pocos programas son escritos para explotar la concurrencia, debido a muchas razones; entre ellas se encuentra el hecho de que los programadores aún piensan en forma secuencial; por otro lado, encontramos que es mas difícil la depuración y la corrección de programas paralelos que la de programas secuenciales. 1. Mejoras en los buses: Los buses han transferido bits en paralelo por muchos años. Se han hecho muchos intentos por tratar de aprovechar al máximo el acceso a los buses; por ejemplo, existen buses que proveen 12
  13. 13. segmentación (pipeline), que consiste en aprovechar el tiempo en que un procesador está accediendo el bus para hacer el arbitraje, esto es, para decidir cuál es el próximo dispositivo que va a acceder al bus; con esto, se trata de no tener el bus inactivo los n ciclos de reloj que dura el arbitraje. 2. Mejoras en el acceso a los discos El DMA (Acceso Directo a Memoria): Es una técnica muy empleada para evitar que las entradas/salidas pasen necesariamente del almacenamiento a la CPU, sino que pasen directamente del almacenamiento a memoria. ; Éste comienza la lectura bit por bit desde el disco hasta su buffer interno y cuando logra cargar todos los datos produce una interrupción que es atendida por la CPU, quien comienza la transferencia desde el buffer hacia la memoria; como se puede ver, esta operación hace que se desaproveche ese tiempo de CPU (que es significativo, teniendo en cuenta que el acceso a memoria cuesta). El DMA se inventó para liberar a la CPU de hacer este trabajo. El camino ahora es mas corto puesto que cuando la CPU hace el requerimiento al subsistema de entradas/salidas, proporciona una información adicional que incluye la dirección de memoria principal en la que debe quedar el bloque y el número de bytes a transferir; el controlador empieza a transferir datos desde el disco hasta su buffer y cuando finaliza empieza a copiarlos a memoria principal comenzando en la dirección que antes le habían suministrado; cuando finaliza la copia produce una interrupción. Discos de cabeza fija: Tratan de disminuir el tiempo de posicionamiento pues, como su nombre lo indica, tiene varias cabezas, cada una sobre cada pista del disco. Lógicamente, la aparición de discos con gran cantidad de 13
  14. 14. pistas hizo que esta no fuera una buena solución desde el punto de vista económico. Discos de mayor densidad de almacenamiento: Se trata de almacenar mas bits por pulgada en una pista, tratando de mejorar con esto los tiempos de transferencia debido a que en cada unidad de tiempo se pueden leer o escribir mas datos; y tratan de mejorar, un poco, la velocidad de búsqueda porque generalmente estos discos son de diámetro mas pequeño, lo que hace tengan menos cilindros y que las distancias de búsqueda sean más cortas. Los cachés: Su objetivo principal es reducir el tráfico a los discos para obtener buenos tiempos de respuesta y rendimiento. Cuando hay una operación de lectura (se desea llevar datos desde los discos hasta la memoria principal), el bloque es buscado en el caché; si se encuentra allí, el sistema operativo procede a retornarlo inmediatamente sin necesidad de leerlo físicamente de los discos; de no encontrarlo en el caché el sistema operativo notifica al controlador del disco que necesita un bloque y éste procede a transmitir los datos al caché; finalmente, el controlador interrumpe la CPU cuando la entrada/salida está completa Sin embargo se pueden presentar algunos problemas relacionados al uso de cachés como la inconsistencia entre los datos que están en memoria o en los discos y los que están en el caché. Arreglos de Discos: No es una tecnología diferente sino una forma distinta de organizar los discos pequeños. El argumento justificador de dichos arreglos es que, como el precio por megabyte es independiente del tamaño del disco, la productividad potencial se puede incrementar teniendo muchas unidades de discos y, por consiguiente, muchos brazos de discos. La 14
  15. 15. necesidad de almacenar datos redundantes para la recuperación de las fallas de los discos, produjo la aparición de los RAIDs (arreglos de discos económicos redundantes), que mejoran la confiabilidad del sistema en cuanto a las fallas, y tienen alta capacidad de entradas/salidas. Desafortunadamente, al igual que los arreglos convencionales, también tienen la tendencia de maximizar la latencia rotacional pues cada operación debe esperar por el caso mas malo de posicionamiento de un disco; además, a medida que se incrementa el tamaño del arreglo (incrementa el ancho de banda) se puede crear un cuello de botella en el controlador o nodo de entradas/salidas. Striping de discos: Como una alternativa a los arreglos de discos, apareció la noción del striping de discos, en el cual los dispositivos convencionales son unidos lógicamente al nivel del software de los sistemas de archivos, de tal manera que los bloques consecutivos de un archivo son localizados en discos diferentes, permitiendo así, que el sistema de archivos pueda iniciar operaciones de entradas/salidas en varios bloques en paralelo. Sistemas de Archivos: Un sistema de archivos es responsable del manejo de los archivos en almacenamiento secundario. Es responsable de proporcionar los medios para almacenamiento privado de información y para que los usuarios puedan compartir información entre ellos de forma controlada. Lo mas importante, quizás, es que el sistema de archivos debe brindar estos servicios haciendo que ciertos aspectos (tales como la ubicación física de los archivos, la forma que toman dichos archivos en los dispositivos en los que están almacenados o el medio físico utilizado para transferir datos desde y hasta esos dispositivos) sean transparentes al usuario. 15
  16. 16. Como no se espera que la tecnología de hardware de entradas/salidas mejore dramáticamente, por lo menos en un futuro cercano, muchos investigadores se han dedicado a desarrollar sistemas de archivos que combinen y aprovechen las ventajas del inherente paralelismo provisto por los componentes individuales de los sistemas distribuidos y los sistemas masivamente paralelos con técnicas que pretendan agilizar los accesos, dando como resultado los sistemas de archivos paralelos. Además han aprovechado la arquitectura de las máquinas multiprocesador dividiendo la jerarquía de entradas/salidas en cuatro niveles: • Los nodos de procesamiento, que son nodos del sistema dedicados únicamente al procesamiento de los datos. • Los nodos de entradas/salidas, que son nodos del sistema dedicados únicamente a las entradas/salidas. • Los controladores • Los dispositivos de E/S. Se pueden enumerar varias características que se esperaría que un sistema de archivos paralelo, ideal y de propósito general, tuviera: • Alto rendimiento, es decir, ejecutar los accesos a los datos de manera eficiente. • Alta confiabilidad, para soportar dispositivos de almacenamiento secundario de gran capacidad y libres de errores. • Portabilidad, para ser integrado en sistemas heterogéneos fácil y rápidamente. • Escalabilidad, para garantizar a los diseñadores la posibilidad de adicionar nodos de entradas/salidas extra, controladores y dispositivos de almacenamiento secundario, sin limitación. 16
  17. 17. • Transparencia, es decir, que el sistema de archivos preste sus servicios sin que el usuario se entere de la ubicación física de los archivos, de los dispositivos que usa para transferirlos, etc. • Flexibilidad, para soportar una amplia variedad de interfaces y políticas implementadas a través de librerías. • Permitir implementaciones de librerías de manera fácil y eficiente. • Contar con técnicas para clasificar dinámicamente los patrones de acceso de las aplicaciones y automáticamente adaptar los algoritmos de manejo de datos a minimizar las latencias de acceso para esos patrones. De acuerdo a la forma en que acceden a los archivos y a la frecuencia de acceso, las aplicaciones se pueden agrupar en: • Lecturas y escrituras de gran tamaño ejecutadas secuencialmente en un archivo (o lo que comúnmente es llamado acceso secuencial). • Procesamiento de transacciones, las cuales típicamente manejan un gran número de requerimientos concurrentes cuyo tamaño es usualmente pequeño, involucrando varios dispositivos simultáneamente (accesos aleatorios concurrentes). • Accesos a un gran número de archivos pequeños con muy pocos accesos concurrentes. Los archivos son usualmente cortos (accesos aleatorios no concurrentes). También se pueden agrupar teniendo en cuenta la operación que realizan durante el acceso en: • De solo lectura • De solo escritura • De lectura y escritura 17
  18. 18. Caching de Datos: se basa en el principio de que una porción del actual conjunto de datos cargados en memoria principal es también necesitada para la computación del próximo conjunto de datos, por tanto pueden ser reusados en lugar de leerlos de nuevo del disco. Se ha desarrollado además, un esquema que pretende disminuir la latencia de transferencia de datos en sistemas de archivos paralelos con archivos de solo escritura, manejando entradas/salidas colectivas. A diferencia de los otros esquemas, en éste el caché no se encuentra en los nodos de entradas/ salidas sino en los nodos de procesamiento 18
  19. 19. Conclusión El trabajo desarrollado hasta el momento plantea soluciones a algunos de los factores ya mencionados como determinantes del desempeño de las entradas/salidas y otros se enfocan en la consecución de algunas de las características deseables en ellos, también mencionadas. El problema del ancho de banda es solucionado en gran medida por los sistemas RAID y depende del número de discos que conformen el arreglo. El striping también busca solucionar este problema, indirectamente, pues su finalidad es aprovechar al máximo el paralelismo y poder acceder a varios dispositivos de entrada/salida al mismo tiempo. La baja latencia de posicionamiento en los discos la consiguen también los sistemas RAID, así como la deseada característica de confiabilidad. El número de accesos físicos de entradas/salidas se reduce con la implementación de las entradas/salidas colectivas; esto, por supuesto, disminuye la congestión en la red ya que varios requerimientos son reunidos para hacer un solo acceso a los dispositivos. 19
  20. 20. Bibliografía http://apuntes.rincondelvago.com/captura-de-datos.html http://www.readsoft.es/captura-de-datos.shtml http://www.monografias.com/trabajos7/sisinf/sisinf.shtml http://es.wikipedia.org/wiki/Entrada/salida http://www.automatas.org/abb/entradas_y_salidas.htm http://es.wikipedia.org/wiki/Aut%C3%B3mata_programable 20

×