数据库设计方法、规范与技巧

609 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
609
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

数据库设计方法、规范与技巧

  1. 1. 数据库设计方法、规范与技巧 一、数据库设计过程 数据库技术是信息资源管理最有效的手段。数据库设计是指对于一个给定的应用环境,构造最优的数据库模式, 建立数据库及其应用系统,有效存储数据,满足用户信息要求和处理要求。 数据库设计中需求分析阶段综合各个用户的应用需求(现实世界的需求),在概念设计阶段形成独立于机器特 点、独立于各个 DBMS 产品的概念模式(信息世界模 型),用 E-R 图来描述。在逻辑设计阶段将 E-R 图转换成 具体的数据库产品支持的数据模型如关系模型,形成数据库逻辑模式。然后根据用户处理的要求,安全 性的考 虑,在基本表的基础上再建立必要的视图(VIEW)形成数据的外模式。在物理设计阶段根据 DBMS 特点和处理 的需要,进行物理存储安排,设计索引, 形成数据库内模式。 1. 需求分析阶段 需求收集和分析,结果得到数据字典描述的数据需求(和数据流图描述的处理需求)。 需求分析的重点是调查、收集与分析用户在数据管理中的信息要求、处理要求、安全性与完整性要求。 需求分析的方法:调查组织机构情况、调查各部门的业务活动情况、协助用户明确对新系统的各种要求、确定新 系统的边界。 常用的调查方法有: 跟班作业、开调查会、请专人介绍、询问、设计调查表请用户填写、查阅记录。 分析和表达用户需求的方法主要包括自顶向下和自底向上两类方法。自顶向下的结构化分析方法(Structured Analysis,简称 SA 方法)从最上层的系统组织机构入手,采用逐层分解的方式分析系统,并把每一层用数据流 图和数据字典描述。 数据流图表达了数据和处理过程的关系。系统中的数据则借助数据字典(Data Dictionary,简称 DD)来描述。 数据字典是各类数据描述的集合,它是关于数据库中数据的描述,即元数据,而不是数据本身。数据字典通常包 括数据项、数据结构、数据流、数据存储和处理过程五个部分(至少应该包含每个字段的数据类型和在每个表内的 主外键)。 数据项描述={数据项名,数据项含义说明,别名,数据类型,长度, 取值范围,取值含义,与其他数据项的逻辑关系} 数据结构描述={数据结构名,含义说明,组成:{数据项或数据结构}} 数据流描述={数据流名,说明,数据流来源,数据流去向, 组成:{数据结构},平均流量,高峰期流量} 数据存储描述={数据存储名,说明,编号,流入的数据流,流出的数据流, 组成:{数据结构},数据量,存取方式} 处理过程描述={处理过程名,说明,输入:{数据流},输出:{数据流}, 处理:{简要说明}} 2. 概念结构设计阶段 通过对用户需求进行综合、归纳与抽象,形成一个独立于具体 DBMS 的概念模型,可以用 E-R 图表示。 概念模型用于信息世界的建模。概念模型不依赖于某一个 DBMS 支持的数据模型。概念模型可以转换为计算机上 某一 DBMS 支持的特定数据模型。 概念模型特点: (1) 具有较强的语义表达能力,能够方便、直接地表达应用中的各种语义知识。 (2) 应该简单、清晰、易于用户理解,是用户与数据库设计人员之间进行交流的语言。 概念模型设计的一种常用方法为 IDEF1X 方法,它就是把实体-联系方法应用到语义数据模型中的一种语义模型化 技术,用于建立系统信息模型。 使用 IDEF1X 方法创建 E-R 模型的步骤如下所示: 2.1 第零步——初始化工程 这个阶段的任务是从目的描述和范围描述开始,确定建模目标,开发建模计划,组织建模队伍,收集源材料,制 定约束和规范。收集源材料是这阶段的重点。通过调查和观察结果,业务流程,原有系统的输入输出,各种报 表,收集原始数据,形成了基本数据资料表。 2.2 第一步——定义实体 实体集成员都有一个共同的特征和属性集,可以从收集的源材料——基本数据资料表中直接或间接标识出大部分 实体。根据源材料名字表中表示物的术语以及具有 “代码”结尾的术语,如客户代码、代理商代码、产品代码等将 其名词部分代表的实体标识出来,从而初步找出潜在的实体,形成初步实体表。 2.3 第二步——定义联系 IDEF1X 模型中只允许二元联系,n 元联系必须定义为 n 个二元联系。根据实际的业务需求和规则,使用实体联系 矩阵来标识实体间的二元关系,然后根据实际 情况确定出连接关系的势、关系名和说明,确定关系类型,是标识 关系、非标识关系(强制的或可选的)还是非确定关系、分类关系。如果子实体的每个实例都需要 通过和父实体
  2. 2. 的关系来标识,则为标识关系,否则为非标识关系。非标识关系中,如果每个子实体的实例都与而且只与一个父 实体关联,则为强制的,否则为非强制 的。如果父实体与子实体代表的是同一现实对象,那么它们为分类关系。 2.4 第三步——定义码 通过引入交叉实体除去上一阶段产生的非确定关系,然后从非交叉实体和独立实体开始标识侯选码属性,以便唯 一识别每个实体的实例,再从侯选码中确定主码。为 了确定主码和关系的有效性,通过非空规则和非多值规则来 保证,即一个实体实例的一个属性不能是空值,也不能在同一个时刻有一个以上的值。找出误认的确定关 系,将 实体进一步分解,最后构造出 IDEF1X 模型的键基视图(KB 图)。 2.5 第四步——定义属性 从源数据表中抽取说明性的名词开发出属性表,确定属性的所有者。定义非主码属性,检查属性的非空及非多值 规则。此外,还要检查完全依赖函数规则和非传递依 赖规则,保证一个非主码属性必须依赖于主码、整个主码、 仅仅是主码。以此得到了至少符合关系理论第三范式的改进的 IDEF1X 模型的全属性视图。 2.6 第五步——定义其他对象和规则 定义属性的数据类型、长度、精度、非空、缺省值、约束规则等。定义触发器、存储过程、视图、角色、同义 词、序列等对象信息。 3. 逻辑结构设计阶段 将概念结构转换为某个 DBMS 所支持的数据模型(例如关系模型),并对其进行优化。设计逻辑结构应该选择 最适于描述与表达相应概念结构的数据模型,然后选择最合适的 DBMS。 将 E-R 图转换为关系模型实际上就是要将实体、实体的属性和实体之间的联系转化为关系模式,这种转换一般遵循 如下原则: 1)一个实体型转换为一个关系模式。实体的属性就是关系的属性。实体的码就是关系的码。 2)一个 m:n 联系转换为一个关系模式。与该联系相连的各实体的码以及联系本身的属性均转换为关系的属性。 而关系的码为各实体码的组合。 3)一个 1:n 联系可以转换为一个独立的关系模式,也可以与 n 端对应的关系模式合并。如果转换为一个独立的关 系模式,则与该联系相连的各实体的码以及联系本身的属性均转换为关系的属性,而关系的码为 n 端实体的码。 4)一个 1:1 联系可以转换为一个独立的关系模式,也可以与任意一端对应的关系模式合并。 5)三个或三个以上实体间的一个多元联系转换为一个关系模式。与该多元联系相连的各实体的码以及联系本身的 属性均转换为关系的属性。而关系的码为各实体码的组合。 6)同一实体集的实体间的联系,即自联系,也可按上述 1:1、1:n 和 m:n 三种情况分别处理。 7)具有相同码的关系模式可合并。 为了进一步提高数据库应用系统的性能,通常以规范化理论为指导,还应该适当地修改、调整数据模型的结构, 这就是数据模型的优化。确定数据依赖。消除冗余的联系。确定各关系模式分别属于第几范式。确定是否要对它 们进行合并或分解。一般来说将关系分解为 3NF 的标准,即: 表内的每一个值都只能被表达一次。 •?表内的每一行都应该被唯一的标识(有唯一键)。 表内不应该存储依赖于其他键的非键信息。 4. 数据库物理设计阶段 为逻辑数据模型选取一个最适合应用环境的物理结构(包括存储结构和存取方法)。根据 DBMS 特点和处理的需 要,进行物理存储安排,设计索引,形成数据库内模式。 5. 数据库实施阶段 运用 DBMS 提供的数据语言(例如 SQL)及其宿主语言(例如 C),根据逻辑设计和物理设计的结果建立数据 库,编制与调试应用程序,组织数据入库,并进行试运行。 数据库实施主要包括以下工作:用 DDL 定义数据库结 构、组织数据入库 、编制与调试应用程序、数据库试运行 6. 数据库运行和维护阶段 数据库应用系统经过试运行后即可投入正式运行。在数据库系统运行过程中必须不断地对其进行评价、调整与修 改。包括:数据库的转储和恢复、数据库的安全性、完整性控制、数据库性能的监督、分析和改进、数据库的重 组织和重构造。 建模工具的使用 为加快数据库设计速度,目前有很多数据库辅助工具(CASE 工具),如 Rational 公司的 Rational Rose,CA 公司的 Erwin 和 Bpwin,Sybase 公司的 PowerDesigner 以及 Oracle 公司的 Oracle Designer 等。 ERwin 主要用来建立数据库的概念模型和物理模型。它能用图形化的方式,描述出实体、联系及实体的属 性。ERwin 支持 IDEF1X 方法。通过使用 ERwin 建模工具自动生成、更改和分析 IDEF1X 模型,不仅能得到优 秀的业务功能和数据需求模型,而且可以实现从 IDEF1X 模型到数据库物理设计的 转变。ERwin 工具绘制的模型 对应于逻辑模型和物理模型两种。在逻辑模型中,IDEF1X 工具箱可以方便地用图形化的方式构建和绘制实体联 系及实体的属 性。在物理模型中,ERwin 可以定义对应的表、列,并可针对各种数据库管理系统自动转换为适当 的类型。
  3. 3. 设计人员可根据需要选用相应的数据库设计建模工具。例如需求分析完成之后,设计人员可以使用 Erwin 画 ER 图,将 ER 图转换为关系数据模型,生成数据库结构;画数据流图,生成应用程序。 二、数据库设计技巧 1. 设计数据库之前(需求分析阶段) 1) 理解客户需求,询问用户如何看待未来需求变化。让客户解释其需求,而且随着开发的继续,还要经常询问客 户保证其需求仍然在开发的目的之中。 2) 了解企业业务可以在以后的开发阶段节约大量的时间。 3) 重视输入输出。 在定义数据库表和字段需求(输入)时,首先应检查现有的或者已经设计出的报表、查询和视图(输出)以决定 为了支持这些输出哪些是必要的表和字段。 举例:假如客户需要一个报表按照邮政编码排序、分段和求和,你要保证其中包括了单独的邮政编码字段而不要 把邮政编码糅进地址字段里。 4) 创建数据字典和 ER 图表 ER 图表和数据字典可以让任何了解数据库的人都明确如何从数据库中获得数据。ER 图对表明表之间关系很有 用,而数据字典则说明了每个字段的用途以及任何可能存在的别名。对 SQL 表达式的文档化来说这是完全必要 的。 5) 定义标准的对象命名规范 数据库各种对象的命名必须规范。 2. 表和字段的设计(数据库逻辑设计) 表设计原则 1) 标准化和规范化 数据的标准化有助于消除数据库中的数据冗余。标准化有好几种形式,但 Third Normal Form(3NF)通常被认 为在性能、扩展性和数据完整性方面达到了最好平衡。简单来说,遵守 3NF 标准的数据库的表设计原则 是:“One Fact in One Place”即某个表只包括其本身基本的属性,当不是它们本身所具有的属性时需进行分 解。表之间的关系通过外键相连接。它具有以下特点:有一组表专门存放 通过键连接起来的关联数据。 举例:某个存放客户及其有关定单的 3NF 数据库就可能有两个表:Customer 和 Order。Order 表不包含定单 关联客户的任何信息,但表内会存放一个键值,该键指向 Customer 表里包含该客户信息的那一行。 事实上,为了效率的缘故,对表不进行标准化有时也是必要的。 2) 数据驱动 采用数据驱动而非硬编码的方式,许多策略变更和维护都会方便得多,大大增强系统的灵活性和扩展性。 举例,假如用户界面要访问外部数据源(文件、XML 文档、其他数据库等),不妨把相应的连接和路径信息存储 在用户界面支持表里。还有,如果用户界面执行工作流之类的任务(发送邮件、打印信笺、修改记录状态 等), 那么产生工作流的数据也可以存放在数据库里。角色权限管理也可以通过数据驱动来完成。事实上,如果过程是 数据驱动的,你就可以把相当大的责任推给用 户,由用户来维护自己的工作流过程。 3) 考虑各种变化 在设计数据库的时候考虑到哪些数据字段将来可能会发生变更。 举例,姓氏就是如此(注意是西方人的姓氏,比如女性结婚后从夫姓等)。所以,在建立系统存储客户信息时, 在单独的一个数据表里存储姓氏字段,而且还附加起始日和终止日等字段,这样就可以跟踪这一数据条目的变 化。 字段设计原则 4) 每个表中都应该添加的 3 个有用的字段 •?dRecordCreationDate,在 VB 下默认是 Now(),而在 SQL Server 下默认为 GETDATE() •?sRecordCreator,在 SQL Server 下默认为 NOT NULL DEFAULT USER •?nRecordVersion,记录的版本标记;有助于准确说明记录中出现 null 数据或者丢失数据的原因 5) 对地址和电话采用多个字段 描述街道地址就短短一行记录是不够的。Address_Line1、Address_Line2 和 Address_Line3 可以提供更大 的灵活性。还有,电话号码和邮件地址最好拥有自己的数据表,其间具有自身的类型和标记类别。 6) 使用角色实体定义属于某类别的列 在需要对属于特定类别或者具有特定角色的事物做定义时,可以用角色实体来创建特定的时间关联关系,从而可 以实现自我文档化。 举例:用 PERSON 实体和 PERSON_TYPE 实体来描述人员。比方说,当 John Smith, Engineer 提升为 John Smith, Director 乃至最后爬到 John Smith, CIO 的高位,而所有你要做的不过是改变两个表 PERSON 和 PERSON_TYPE 之间关系的键值,同时增加一个日期/时间字段来知道变化是何时发生的。这样,你的 PERSON_TYPE 表就包含了所有 PERSON 的可能类型,比如 Associate、Engineer、Director、CIO 或者
  4. 4. CEO 等。还有个替代办法就是改变 PERSON 记录来反映新头衔的变化,不过这样一来在时间上无法跟踪个人所 处位置的具体时间。 7) 选择数字类型和文本类型尽量充足 在 SQL 中使用 smallint 和 tinyint 类型要特别小心。比如,假如想看看月销售总额,总额字段类型是 smallint,那么,如果总额超过了$32,767 就不能进行计算操作了。 而 ID 类型的文本字段,比如客户 ID 或定单号等等都应该设置得比一般想象更大。假设客户 ID 为 10 位数长。 那你应该把数据库表字段的长度设为 12 或者 13 个字符长。但这额外占据的空间却无需将来重构整个数据库就可 以实现数据库规模的增长了。 8) 增加删除标记字段 在表中包含一个“删除标记”字段,这样就可以把行标记为删除。在关系数据库里不要单独删除某一行;最好采用 清除数据程序而且要仔细维护索引整体性。 3. 选择键和索引(数据库逻辑设计) 键选择原则: 1) 键设计 4 原则 •?为关联字段创建外键。 •?所有的键都必须唯一。 •?避免使用复合键。 •?外键总是关联唯一的键字段。 2) 使用系统生成的主键 设计数据库的时候采用系统生成的键作为主键,那么实际控制了数据库的索引完整性。这样,数据库和非人工机 制就有效地控制了对存储数据中每一行的访问。采用系统生成键作为主键还有一个优点:当拥有一致的键结构 时,找到逻辑缺陷很容易。 3) 不要用用户的键(不让主键具有可更新性) 在确定采用什么字段作为表的键的时候,可一定要小心用户将要编辑的字段。通常的情况下不要选择用户可编辑 的字段作为键。 4) 可选键有时可做主键 把可选键进一步用做主键,可以拥有建立强大索引的能力。 索引使用原则: 索引是从数据库中获取数据的最高效方式之一。95%的数据库性能问题都可以采用索引技术得到解决。 1) 逻辑主键使用唯一的成组索引,对系统键(作为存储过程)采用唯一的非成组索引,对任何外键列采用非成组 索引。考虑数据库的空间有多大,表如何进行访问,还有这些访问是否主要用作读写。 2) 大多数数据库都索引自动创建的主键字段,但是可别忘了索引外键,它们也是经常使用的键,比如运行查询显 示主表和所有关联表的某条记录就用得上。 3) 不要索引 memo/note 字段,不要索引大型字段(有很多字符),这样作会让索引占用太多的存储空间。 4) 不要索引常用的小型表 不要为小型数据表设置任何键,假如它们经常有插入和删除操作就更别这样作了。对这些插入和删除操作的索引 维护可能比扫描表空间消耗更多的时间。

×