数据依赖
数据依赖是一种特殊的约束,定义属性值间的相互关连(主要体现于值的相等与否)。
描述:
- 是一个关系内部属性与属性之间的约束关系
- 是现实世界属性间相互联系的抽象
- 是数据内在的性质
- 是语义的体现
分类
函数依赖、多值依赖、连接依赖、包含依赖等函数依赖
设R(U)是一个属性集U上的关系模式,X和Y是U的子集。 若对于R(U)的任意一个可能的关系r,r中不可能存在两个元组在X上的属性值相等,而在Y上的属性值不等, 则称 “X函数确定Y” 或 “Y函数依赖于X”,记作X → Y。 (X为决定因素)
描述: - 所有关系实例均要满足
- 是语义范畴的概念
- 是数据库设计者可以对现实世界作强制的规定
特殊的有:
平凡、非平凡的函数依赖
若X包含Y则有X → Y为平凡的函数依赖,否则则为非平凡的函数依赖
完全、部分的函数依赖
若X与Y有X → Y的函数依赖,但是X的任意真子集X’对Y均没有X’ → Y,则为Y对X的完全函数依赖,否则为部分函数依赖
传递的函数依赖
若X与Y有X → Y的函数依赖,Y与Z有Y → Z的函数依赖,且Z不包含于Y,Y不包含于X且有X与Z的X → Z的函数依赖,则称为Z对X的传递依赖。
多值依赖
设R(U)是一个属性集U上的一个关系模式, X、 Y和Z是U的子集,并且Z=U-X-Y。关系模式R(U)中多值依赖 X →→Y 成立,当且仅当对R(U)的任一关系r,给定的一对(x,z)值,有一组Y的值,这组值仅由x值决定,而与z值无关。
平凡、非平凡的多值依赖
若X→→Y,而Z为空,则称 X→→Y 为平凡的多值依赖(函数依赖);否则称 X→→Y为非平凡的多值依赖。
多值依赖的性质
- 对称性 若X→→Y,则X→→Z,其中Z=U-X-Y
- 传递性 若X→→Y,Y→→Z, 则X→→Z –Y
- 函数依赖是多值依赖的特殊情况 若X→Y,则X→→Y。
- 若X→→Y,X→→Z,则X→→Y交Z。
- 若X→→Y,X→→Z,则X→→Y并Z。
- 若X→→Y,X→→Z,则X→→Y差Z,X→→Z -Y
对关系模式的影响
不当的数据依赖会导致数据冗余、操作(增、删、改)异常。
通过分解关系模式可以消除其中不合适的数据依赖。
规范化
规范化(理论)是用来改造关系模式,通过分解关系模式来消除其中不合适的数据依赖,以解决插入异常、删除异常、更新异常和数据冗余问题。
范式
范式是符合某一种级别的关系模式的集合。
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。
范式种类
第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、BC范式(BCNF)、第四范式(4NF)等。
码
以函数依赖的概念来定义码:
主码和候选码均成为码,根据语义判断
第一范式(1NF)– 关系模式的基本要求
如果一个关系模式R的所有属性都是不可分的基本数据项,则R∈1NF。
缺点:存在非主属性对码的部分函数依赖!
第二范式(2NF)
若R∈1NF,且每一个非主属性完全函数依赖于码,则R∈2NF。
缺点:存在非主属性(dmanager)对码的传递函数依赖!
第三范式(3NF)
关系模式R<U,F> 中若不存在这样的码X、属性组Y及非主属性Z(Z 不包含于Y), 使得X→Y,Y→Z成立,Y → X,则称R<U,F> ∈ 3NF。即每一个非主属性既不部分依赖于码也不传递依赖于码。
缺点:主属性存在对码的部分或传递依赖!
BC范式(BCNF)
关系模式R<U,F>∈1NF,若X→Y且Y 不包含于X时,X必含有码,则R<U,F> ∈BCNF
特点:
- 所有非主属性对每一个码都是完全函数依赖;
- 所有的主属性对每一个不包含它的码,也是完全函数依赖;
- 没有任何属性完全函数依赖于非码的任何一组属性
第四范式4NF*
关系模式R<U,F>∈1NF,如果对于R的每个非平凡多值依赖X→→Y(Y不包含于X),X都含有码,则R∈4NF。
即不允许有非平凡且非函数依赖的多值依赖,允许的非平凡多值依赖必须存在对应的函数依赖对比
关系模式的分解
目的:使模式更加规范化,减少乃至消除数据冗余和更新异常。
原则:无损连接、保持依赖
无损连接保证数据等价原则,保证不丢失信息,但不一定能解决操作异常和数据冗余等问题。
保持函数依赖反映了分解的依赖等价原则。依赖等价保证了分解后的模式与原有的模式在语义上的一致性。模式分解的两个规则(分解为第2、第3范式)
公共属性共享
保留公共属性,进行自然连接是分解后的模式实现无损连接的必要条件。
若存在部分依赖,决定因素的真子集为公共属性。将模式分解成部分依赖和完全依赖两个子模式。
若存在传递依赖,则传递链的中间属性为公共属性,将链断开,分解成两个模式(保持了两个基本依赖)。相关属性合一
将以函数依赖形式联系在一起的相关属性放在一个模式中,从而使原有的函数依赖得以保持。这是分解后的模式实现保持依赖的的充分条件。
对于存在部分依赖或传递依赖的相关属性则不应放在一个模式中,因为这正是导致数据冗余和更新异常的根源,也正是模式分解所要解决的问题。