Your SlideShare is downloading. ×
  • Like
Data warehouse
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Now you can save presentations on your phone or tablet

Available for both IPhone and Android

Text the download link to your phone

Standard text messaging rates apply
Published

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
850
On SlideShare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
17
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Una introducción a la nuevas características de Almacén de datos escalabilidad de SQL Server 2008 R2
    (Abstracción)
  • 2. Mapa de las nuevas características de almacenamiento de datos
  • 3. La tabla anterior muestra las características de escalabilidad de nuevo en SQL Server 2008 R2, y donde se ayudan con las actividades que rodean a su almacén de datos.
    Este whitepaper describe brevemente las mejoras en el almacenamiento de datos en cada uno de los diferentes componentes de SQL Server 2008 R2, y cómo pueden ayudarle a sacar el máximo partido de su almacén de datos.
  • 4. SQL Server Relational DBMS Data Warehouse Improvements
    El SQL Server 2008 R2 relacional DBMS contiene avances importantes respecto a versiones anteriores, por lo que funciona mejor cuando usted crea, gestiona y consulta los almacenes de datos de gran tamaño. En esta sección se detalla en el DBMS relacional mejoras de almacenamiento de datos en la Tabla 1.
  • 5. Star Join
    Con modelados dimensionales de almacenes de datos, una gran parte de su carga de trabajo suele consistir en lo que se conoce como la estrella de consultas de unión. Estas consultas siguen un patrón común que se une a la tabla de hechos con una o varias tablas de dimensiones. Además, la combinación en estrella consultas suelen expresar las condiciones de filtro contra las columnas sin clave de las tablas de dimensiones y realizar una agregación (por lo general SUM) en una columna de la tabla de hechos (denominada columna de medida). Con SQL Server 2008 R2, que experimentará importantes mejoras de rendimiento para la estrella de muchas consultas de unión de ese proceso una fracción significativa de las filas tabla de hechos.
  • 6.
  • 7. Partitioned Table Parallelism
     El paralelismo tabla particionada (PTP) en SQL Server 2008 R2. Aplicaciones de almacenamiento de datos suele reunir grandes cantidades de datos históricos en las tablas de hechos, que a menudo son divididas por la fecha. En SQL Server 2005, las consultas que tocan más de una partición usa un thread (y por lo tanto un núcleo del procesador) por partición. A veces, esto limita el rendimiento de las consultas que implican las tablas con particiones, especialmente cuando se ejecuta en paralelo con varios procesadores de memoria compartida (SMP) con núcleos de procesador. 
  • 8.
  • 9. La figura anterior ilustra el impacto de paralelismo tabla con particiones en un escenario típico de almacenamiento de datos.
    Consulta Q resume las ventas de más de siete días. La consulta se puede tocar particiones diferentes según el momento en que se ejecuta. Esto se ilustra en la consulta Q1, que toca una sola partición P2 y Q2, que toca dos particiones ya que los datos pertinentes en el momento de la ejecución se extiende por P3 y P4.
  • 10. Partition-Aligned Indexed Views
    Partición de las vistas indizadas alineadas le permiten crear y gestionar los agregados de resumen en su almacén de datos relacionales de manera más eficiente, y utilizarlos en situaciones en las que no podría usarlos con eficacia antes, la mejora de rendimiento de las consultas.
    Cuando se cambia en una partición nueva tabla, las particiones de los puntos de vista coincidentes alineadas por partición índice definido en la tabla con particiones también cambian, de forma automática.
    La partición alineados función de las vistas indizadas en SQL Server 2008 R2 le ofrece las ventajas de las vistas indizadas en tablas con particiones grandes, evitando al mismo tiempo el costo de la reconstrucción de los agregados en toda una tabla con particiones. Estos beneficios incluyen el mantenimiento automático de los agregados, y se pongan vista indizada (reescritura de la consulta automática de utilizar los agregados para resolver las consultas que se refieren sólo a las tablas base, no los agregados). Para más detalles sobre las vistas indizadas
  • 11. La siguiente figura muestra cómo se mueven los agregados con las particiones de la tabla base cuando se cambia de una partición.
  • 12. GROUPING SETS
    GROUPING SETS le permiten escribir una consulta que produce varias agrupaciones y devuelve un solo conjunto de resultados. El conjunto de resultados es equivalente a una UNION ALL de filas agrupadas de manera diferente. Mediante el uso de GROUPING SETS, usted puede concentrarse en los diferentes niveles de información (grupos) en sus necesidades de negocio, en lugar de la mecánica de cómo combinar varios resultados de la consulta.
  • 13. Salida de una consulta GROUPING SETS, con formato de tabla dinámica
  • 14. MERGE
    La instrucción MERGE le permite utilizar varios lenguajes de manipulación de bases de datos (DML) (INSERT, UPDATE y DELETE) en una tabla o vista en una sola instrucción Transact-SQL. La tabla o vista de destino está unido a una fuente de datos y las operaciones de DML se realizan en los resultados de la unión.
    La instrucción MERGE tiene tres cláusulas WHEN, cada una de ellas le permite realizar una acción específica de DML en una fila determinada en el conjunto de resultados
  • 15. Para cada fila que existe tanto en el objetivo y la fuente, la cláusula WHEN MATCHED le permite actualizar o eliminar la fila en la tabla de destino.
    Por cada fila que existe en el origen pero no en el de destino, el CUANDO que no se repite la cláusula le permite insertar una fila en el blanco.
    Para cada fila que existe en el destino pero no en la fuente, la cláusula WHEN FUENTE que no se repite le permite actualizar o eliminar la fila en la tabla de destino
    También se puede especificar una condición de búsqueda con cada una de las cláusulas WHEN para elegir el tipo de operación de DML se debe realizar en la fila. La cláusula de salida para la instrucción MERGE incluye una nueva columna virtual llamado action, que se puede utilizar para identificar la acción DML que se llevó a cabo en cada fila
  • 16. Change Data Capture
    La captura de datos es una de las características de los nuevos datos de seguimiento introduce en SQL Server 2008 R2. Diseñado principalmente para escenarios de data warehousing, la captura de datos proporciona un mecanismo eficaz para rastrear y recopilar datos de los cambios realizados en las tablas de usuario y le proporciona acceso a modificar los datos en un formato relacional.
    La información auxiliar se reunieron junto con los datos de cambio permite captura de datos modificados para dar respuesta a una serie de preguntas.
    aquí hay una serie de preguntas para las que la captura de datos puede proporcionar las respuestas de manera eficiente:
  • 17. Quiero que todas las filas que han cambiado entre las 12:00 am y 12:00 pm
    Necesito saber si un cambio es una inserción, actualización o eliminación.
    Para una fila actualizada, me gustaría saber en qué columna (s) modificado.
    La captura de datos que proporciona una forma muy eficiente para extraer los cambios de manera gradual, reduciendo el tiempo general de procesamiento ETL.
    El siguiente diagrama proporciona una visión general de los componentes que conforman la captura de datos.
  • 18.
  • 19. Minimally Logged INSERT
    En general, cuando se escriben datos en una base de datos de usuario, debe escribir en el disco dos veces: una para el registro, y una vez a la propia base de datos. Esto es porque el sistema de base de datos utiliza un undo / redo log por lo que puede deshacer o rehacer operaciones cuando sea necesario.
    Esto es lo que la nueva función de registro mínimo INSERTAR hace en SQL Server 2008 R2. Un factor de 2 o más aceleración es común con el registro mínimo en comparación con el registro completo. Sus resultados dependerán de su aplicación y el hardware.
    Las operaciones que se registra al mínimo en SQL Server 2005 incluye las operaciones de importación masiva, SELECT INTO, y la creación de índices y la reconstrucción. SQL Server 2008 R2 extiende la optimización de INSERT INTO ... SELECT FROM T-SQL operaciones que insertan un gran número de filas en una tabla de destino existente en esa tabla es un montón que no tiene índices no agrupados, y la sugerencia TABLOCK se utiliza en el objetivo.
  • 20. Data Compression
    La característica de compresión de datos en SQL Server 2008 R2 reduce el tamaño de tablas, índices o un subconjunto de las particiones de almacenamiento de longitud fija los tipos de datos en formato de almacenamiento de variables longitud y por reducir los datos redundantes.
    SQL Server ofrece dos tipos de compresión de la siguiente manera:
    Compresión ROW permite el almacenamiento de tipos de longitud fija en formato variable de almacenamiento de longitud. 
    La compresión PAGE se construye en la parte superior de la compresión de fila. Reduce al mínimo el almacenamiento de datos redundantes en la página mediante el almacenamiento de patrones de bytes que ocurren comúnmente en la página de una vez y luego hacer referencia a estos valores en las columnas respectivas. El reconocimiento de patrones de bytes es de tipo independiente. Bajo la compresión PAGE, SQL Server optimiza el espacio en una página mediante dos técnicas.
  • 21. La primera técnica es prefijo de columna. En este caso, el sistema busca un patrón de bytes común como un prefijo para todos los valores de una columna específica en las filas de la página.
    La segunda técnica es el diccionario de nivel de página. Este diccionario almacena los valores comunes a través de columnas y filas y los almacena en un diccionario. Las columnas se modifica para referirse a la entrada del diccionario.
    Los comandos para comprimir los datos se exponen como opciones en el modo de CREATE / ALTER DDL y el apoyo tanto online como offline. Además, un procedimiento almacenado se proporciona para ayudarle a calcular el ahorro de espacio antes de la compresión real.
  • 22. Backup Compression
    Al reducir el tamaño de las copias de seguridad de SQL, se ahorra mucho en los medios de comunicación en disco para copias de seguridad de SQL. Mientras que todos los resultados de compresión depende de la naturaleza de los datos se comprimen, los resultados del 50% no son infrecuentes, y una mayor compresión posible. Esto le permite utilizar menos espacio de almacenamiento para guardar sus copias de seguridad en línea, o para mantener a más ciclos de copias de seguridad usando el mismo almacenamiento.
  • 23. Resource Governor
    El regulador de recursos nuevos en SQL Server 2008 R2 le permite controlar la cantidad de recursos de la CPU y la memoria asignada a diferentes partes de su carga de trabajo de base de datos relacional. Se puede utilizar para evitar que las consultas fuera de control (que niegan los recursos a otros) y de reservar recursos para una parte importante de su carga de trabajo. SQL Server 2005 las políticas de asignación de recursos tratar a todos por igual las cargas de trabajo, y asignar los recursos compartidos (por ejemplo, ancho de banda de CPU y memoria), cuando se requiere. Esto a veces causa una distribución desproporcionada de los recursos, que a su vez se traduce en un desempeño desigual o retrasos inesperados.
  • 24. Hay tres nuevos conceptos que son importantes para la comprensión de la regulación de recursos: los grupos de trabajo, las agrupaciones de recursos, la clasificación (y clasificador de las funciones de usuario).
    Grupo: Un grupo de trabajo, o grupo, es una categoría especificada por el usuario de las solicitudes que son similares de acuerdo a las reglas de clasificación que se aplican a cada solicitud. 
    Piscina: Un grupo de recursos, o en la piscina, representa una porción de los recursos físicos del servidor. Dependiendo de su configuración, un grupo puede tener un tamaño fijo (la configuración de los recursos mínimos y máximos de uso son iguales entre sí) o una parte que se reparte entre varios grupos (el mínimo es menor que el máximo de eficacia)
    Clasificación: La clasificación es un conjunto de reglas escritas por el usuario que permiten que el regulador de recursos para clasificar las solicitudes en los grupos descritos anteriormente. Se implementa a través de un escalar Transact-SQL definida por el usuario (UDF), que se designa como "UDF clasificador" para el regulador de recursos
  • 25. Esto se ilustra en la siguiente figura
  • 26. Integration Services Improvements
    Haciendo ETL para mover datos de sus sistemas operativos en su almacén de datos puede ser una tarea ardua. Para hacer este proceso más rápido, SQL Server 2008 IntegrationServices R2 (SSIS) presenta dos características de escalabilidad importante: mejorar el rendimiento de búsqueda y un mejor rendimiento de transformación de tuberías
    Rendimiento de búsqueda
    El componente de búsqueda en SSIS se ejecuta más rápido, y es aún más fácil de programar que en SQL Server 2005. A las pruebas de búsqueda si cada fila de una corriente de filas tiene una fila correspondiente en otro conjunto de datos. Una búsqueda es como una operación de combinación de bases de datos. Por lo general se utiliza de búsqueda dentro de un proceso de integración, tales como la capa de ETL que rellena un almacén de datos de sistemas de origen
  • 27. Otras mejoras al componente de búsqueda incluyen:
    Optimizado las rutinas de E / S que lleva a la carga de caché más rápida y las operaciones de búsqueda.
    De usuario más intuitiva interfaz que simplifica la configuración del componente de búsqueda, en particular, las opciones de almacenamiento en caché.
    Filas de la entrada que no coinciden con al menos una entrada en el conjunto de datos de referencia son ahora enviados a la salida del partido no. La salida de error sólo se ocupa de los errores, como truncamientos.
    Instrucciones de consulta en las transformaciones de búsqueda se puede cambiar en tiempo de ejecución, por lo que las transformaciones de programación más flexible.
    Mensajes informativos y de error se han mejorado para ayudar a la solución de problemas y análisis de rendimiento.
  • 28.
  • 29. Tubería de rendimiento
  • 30. En SSIS SQL Server 2008 R2, varios hilos pueden trabajar juntos para hacer el trabajo que un solo hilo se ve obligado a hacer por sí mismo en SQL Server 2005 SSIS. Esto puede darle una aceleración varias veces en el rendimiento de ETL.
    Para lograr un alto nivel de paralelismo, las tuberías de SQL Server 2008 R2 SSIS permite un procesamiento más en paralelo, lo que significa que para cualquier máquina multiprocesador esto debería resultar en un rendimiento más rápido.
  • 31. Analysis Services Improvements
    SQL Server 2008 AnalysisServices R2 (SSAS) mejora considerablemente la velocidad de las consultas con el cálculo nuevo bloque, write-back, y compartida escalable características de rendimiento de base de datos. También mejora la capacidad de gestión con la capacidad de copia de seguridad de bases de datos mucho mayor.
  • 32. Rendimiento de las consultas MDX: Cálculo de bloques
    Cálculo bloque mejorado en SQL Server 2008 R2 velocidades SSAS hasta el procesamiento de consultas MDX principalmente mediante el trabajo sólo para los valores no nulos en un espacio del cubo. No se pierde tiempo la evaluación de células nulas. La idea clave detrás de la computación subespacio es el mejor presentado por contraste con un "ingenuo" célula por célula de evaluación de un cálculo. Considere la posibilidad de un cálculo RollingSum que resume las ventas del año anterior y el año en curso, y una consulta que pide al RollingSum para el año 2005 para todos los productos.
  • 33. Data Warehouse 2.0 and SQL Server Architecture and Vision.
  • 34. SQL Server en la evolución
    En un principio, como una base de datos que sirvieron de pequeñas cantidades de datos en un ordenador personal con funciones muy básicas.
    ahora está preparado para servir de base para la BD de tamaño medio y grandes cantidades de datos para almacenamiento de datos.
    Cambio totalmente su arquitectura
    se ha convertido en la plataforma de tecnología preferida para la forma más avanzada de la arquitectura de almacenamiento de datos - DW 2.0.
    almacenamiento de datos como la base de base de datos para almacenes de datos grandes y complejos.
  • 35. Las caracteristicas de DW 2.0
    El acceso básico de datos :
    aleatoria y secuencial de E / S
    1.-Tranzacciones en línea
    2.-DSS
  • 36. 2.-Un Data Mart Ruta de migración
    Inconvenientes:
    No hay una fuente definitiva de los datos corporativos.
    Se crea cada puesto de dato a partir de cero.
    Fragiles.
    SQL Server.
  • 37. 3.-Los costos de almacenamiento de datos
    . Los ciclos de procesamiento más caros son los que se encuentran en las máquinas más grandes. Cuanto más la carga de trabajo se puede dividir, el menos costoso de los ciclos de procesamiento de llegar a ser.
  • 38. 4.-Compresión
    Necesidad de almacenar y gestionar un gran volumen de datos.
  • 39. 5.-Procesamiento Paralelo
    Los datos son almacenados en más de un dispositivo a fin de que más de un procesador puede acceder y gestionar los datos, al mismo tiempo.
    Si un solo servidor se siente abrumado por su carga de datos, varios servidores pueden ser utilizados al mismo tiempo y la carga de datos se pueden dividir en más de un servidor.
    Tal enfoque se denomina un enfoque paralelo porque los conjuntos de datos son operados en paralelo de forma independiente. Al hacerlo añadiendo más servidores en paralelo aumenta el rendimiento total que un sistema puede manejar.
  • 40. 6.-Probabilidad de acceso de datos
    DW 2.0 insta a la separación física de los datos basados ​​en la probabilidad de que el acceso de los datos.
    Los datos menos utilizados que hay en almacenamiento de alto rendimiento, más eficientes que es encontrar los datos que está siendo buscado en almacenamiento de alto rendimiento
    SQL Server permite que los datos se dividen de acuerdo a su probabilidad de acceso. Físicamente división de datos en los diferentes sectores, el rendimiento de los datos es mucho mayor.
  • 41. 7.-Los datos de streaming
    SQL Server CAR: Esa capacidad es la habilidad para manejar el flujo de datos.
    Hay dos divisiones básicas de los datos - los datos estáticos y los datos transmitidos.
    Los datos estáticos son los datos que se registra como un subproducto de un acontecimiento que ocurre sobre una base caso-por-evento. El evento que se produce por lo general ocurre de una manera relajada.
    Datos transmitidos se diferencia de los datos estáticos en que los datos transmitidos se produce y entra en el sistema de base de datos muy rápida y predecible muy.
  • 42. 8.-Datos Históricos ¿Qué significa eso?
    Así que vamos a llamar a los datos que todavía está muy fresco recién creado los datos históricos y vamos a llamar a los datos que es más antigua que el archivo de datos real.
    Muestra que los datos históricos se pueden dividir en dos clases - de nueva creación y los datos históricos verdaderos datos de archivo.
  • 43. Esta distinción de lo que se entiende por datos históricos necesarios para comprender qué tipo de datos tiene que ser colocado en el sector interactivo.
    En DW 2.0 hay un sector de datos llamada el sector interactivo.
    El sector interactivo contiene datos recién creado históricos como un conjunto de datos transmitidos, no los datos de archivo.
  • 44. 9.-El ajuste entre DW 2.0 y SQL Server
    Hay una adecuación de la arquitectura muy buena entre la arquitectura del futuro del almacenamiento de datos - DW 2.0 - y SQL Server.
  • 45. La necesidad de manejar grandes volúmenes de datos .
    La necesidad de estar constantemente al tanto de los costes del almacenamiento de datos.
    La necesidad de separar interactiva y procesamiento de datos transmitidos desde otras partes de los datos y el procesamiento.
    La necesidad de gestionar los datos de forma paralela.
    La necesidad de dividir la carga de trabajo a mayor cantidad de componentes más pequeños como sea posible.
    La necesidad de un acceso básico secuencial de conjuntos de datos.
    La necesidad de tener una ruta de migración racional de los data marts y data warehouses mini a un gran almacén de datos centralizado.
    El lugar y la posición de los datos transmitidos.
    La necesidad de datos separadas físicamente sobre la base de las diferencias en la probabilidad de que el acceso de los datos.