loading...

数据库设计范式的理解

发布时间:March 22, 2010 分类:MySQL

2010年迪拜旅游小记

Gearman分布式远程过程处理框架

前言
为什么要写这篇文章呢,从去年年底开始,就和很多做技术的朋友交流过,从数据库设计到数据库架构各个方面的内容。有一些朋友执着于ORM,执着于所谓的数据库设计,却忘记了一切技术是要为业务服务这个基石。当然这文章里也有一些自己的理解,想向大家表达。

范式是什么
范式是符合某一种级别的关系模式的集合。关系数据库中的关系必须满足一定的要求,即满足不同的范式。目前关系数据库有六种范式:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、第四范式(4NF)、第五范式(5NF)和第六范式(6NF)。满足最低要求的范式是第一范式(1NF)。在第一范式的基础上进一步满足更多要求的称为第二范式(2NF),其余范式以次类推。一般说来,数据库只需满足第三范式(3NF)就行了。

范式的原理

  • 第一范式(1NF)无重复的列

    所谓第一范式(1NF)是指数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。如果出现重复的属性,就可能需要定义一个新的实体,新的实体由重复的属性构成,新实体与原实体之间为一对多关系。在第一范式(1NF)中表的每一行只包含一个实例的信息。简而言之,第一范式就是无重复的列。

    说明:在任何一个关系数据库中,第一范式(1NF)是对关系模式的基本要求,不满足第一范式(1NF)的数据库就不是关系数据库。
  • 第二范式(2NF)属性完全依赖于主键[消除部分子函数依赖]

    第二范式(2NF)是在第一范式(1NF)的基础上建立起来的,即满足第二范式(2NF)必须先满足第一范式(1NF)。第二范式(2NF)要求数据库表中的每个实例或行必须可以被惟一地区分。为实现区分通常需要为表加上一个列,以存储各个实例的惟一标识。

    例如员工信息表中加上了员工编号(emp_id)列,因为每个员工的员工编号是惟一的,因此每个员工可以被惟一区分。这个惟一属性列被称为主关键字或主键、主码。

    第二范式(2NF)要求实体的属性完全依赖于主关键字。所谓完全依赖是指不能存在仅依赖主关键字一部分的属性,如果存在,那么这个属性和主关键字的这一部分应该分离出来形成一个新的实体,新实体与原实体之间是一对多的关系。为实现区分通常需要为表加上一个列,以存储各个实例的惟一标识。简而言之,第二范式就是属性完全依赖于主键。
  • 第三范式(3NF)属性不依赖于其它非主属性[消除传递依赖]

    满足第三范式(3NF)必须先满足第二范式(2NF)。简而言之,第三范式(3NF)要求一个数据库表中不包含已在其它表中已包含的非主关键字信息。例如,存在一个部门信息表,其中每个部门有部门编号(dept_id)、部门名称、部门简介等信息。

    那么在的员工信息表中列出部门编号后就不能再将部门名称、部门简介等与部门有关的信息再加入员工信息表中。如果不存在部门信息表,则根据第三范式(3NF)也应该构建它,否则就会有大量的数据冗余。简而言之,第三范式就是属性不依赖于其它非主属性。

范式的说明

  • 第一范式:1NF是对属性的原子性约束,要求属性具有原子性,不可再分解;

    通俗的理解是字段还可以再分吗?如过不能,则是符合1NF的设计。
  • 第二范式:2NF是对记录的惟一性约束,要求记录有惟一标识,即实体的惟一性;

    简单的解释,比如你和一个女生约会建立一张表,不用每条约会记录都记录她的身高、体重,将身高体重单独的存在一张表中供查询即可。
  • 第三范式:3NF是对字段冗余性的约束,即任何字段不能由其他字段派生出来,它要求字段没有冗余。
    打个比方,比如评论表,如果你将用户ID,用户头像都放在这留言表中,就是不合适的了。用户头像是依赖于用户ID,而不依赖该评论。

我对范式的理解
一个严格恪守数据库设计范式来进行数据库设计的人,必定是个傻球;
一个没有研究过数据库设计范式就进行数据库设计的人,必定也是个傻球;

在现代数据库设计中,尤其是web 2.0的系统中的数据库设计,我可以断言,大多数都是违反2NF、3NF的,少数设计甚至是违反1NF的。数据库设计范式只是对数据库惯用设计的一些说明,并不能定性为标准。

而从数据库的发展来看,以MySQL举例,随着MySQL实现越来越多的功能,它的宣传材料上会越来越多的出现以前被MySQL所摒弃的复杂设计理念,并且宣称这是MySQL所独创或一贯倡导的。这是一个数据库系统发展所必然经历的过程。而这却会给MySQL的使用者以极大的误导,从而忽视了是否新特性是业务所真正需要的。

数据库设计不是一种编程语言这么简单,与面向对象、面向过程无关。数据库设计代表的是一种与应用开发语言完全不同的思想。现在绝大多数的程序,无论任何人采用什么方式进行程序开发,其最终还是会回归到对数据库的操作上(当然如果你的程序只是个教学演示则不在此范围内)。

数据库发展
各种缓存方案,说到底是以key为基础的数据解决方案,而数据库与应用层之间的中间件,为了实现逻辑的简单和高性能,更多的也会是基于key的实现。比如我所使用过的腾讯的TTC。

从下面的列表可以看出当前SNS的网站对于高并发、高性能的数据库解决方案有多么渴求,Facebook贡献了Cassandra、Linkedin贡献了Voldemort、mixi.jp贡献了Tokyo Cabinet和Tokoy Tyrant、green.jp贡献了Flare、甚至包括Google的BigTable。

总结
写到这里,我发现单单是这些新的数据库解决方案就有太多可写的内容,而这些已经超过了本文所要说明的主要内容,而现在所写的内容就全当是个引子吧,我写的很意犹未尽。后面会就反范式设计实例,内存缓存方案、NoSQL数据库等逐渐展开。

PS:这篇文章写的很杂乱,尤其是后面两端,见谅!

Tags: MySQL, Memcache, 优化


已有 13 条评论 »

  1. 默默 默默

    强顶

  2. hao32 hao32

    前来指导

  3. 小希 小希

    视察一下

  4. 网点 网点

    又更了。

  5. 阿超 阿超

    我觉得 这些范式 只是来学习的 有时候为了性能 也会冗余很多字段
    我记得一次面试的时候有个鸟人就问我数据库范式这些东西

  6. liu liu

    写得很好 通俗易懂

  7. ard ard

    不错.正在学.和老师说的差不多..比较通俗

  8. HuPo HuPo

    学习中...文章太好了

  9. mysqlops mysqlops

    说明:在任何一个关系数据库中,第一范式(1NF)是对关系模式的基本要求,不满足第一范式(1NF)的数据库就不是关系数据库。

    ----- 路径点评下这句话,其实在数据库设计领域我们要求每一个人都要掌握范式的理论知识,但是做数据库结构的设计时候,要做到三点:一是应用场景,二是学会平衡(也即得到和放弃之间的取舍),三是不要刻意搜索自己储存的范式知识而是类似佛学所言:空即是色,色即是空的意境....

    另外你所说的不满足第一点就不是关系数据库,此话差役,比如数据仓库领域就可能违背的,而且原原本本的理论,并不是以是否满足几范式来判断是否是关系数据库的一说.......

    可能本人对技术方面的点评有点尖锐,望见谅!

  10. kusirp21 kusirp21

    写得太好了!当然也可能是转的!但凡这样写的人都是不懂范式的,真从哪里抄来算了!

    数据库范式是设计模型,也就是在ER设计时要用到,不做ER设计的人自然对于范式根本就理解不了!

    从层次上来说:

    1NF(第一范式)[满足列属性,也就是说每一个属性都是表示一个意义,不可能用两个属性表示一个意义,或一个属性表示两个意义]

    2NF(第二范式)[满足识别性,也就是说必须存在某一个列能区分不同的实体,在关系中叫主键,所有键必须依赖于主键]

    3NF(第三范式)[满足不重复识别性,也就是说满足识别性只有一列,在关系中主键只能有一个,所有键不能传递依赖于主键]

    BCNF(巴德斯科范式)[消除多值依赖]

    4NF(第四范式)[消除连接依赖]

    5NF(第五范式)[其实能用到第四范式就能解决几乎所有的问题了]

    6NF(第六范式,又称完美范式,目前关系型数据库最高范式)

  11. fuck fuck

    垃圾

  12. ziegfeld ziegfeld

    简单的解释,比如你和一个女生约会建立一张表,不用每条约会记录都记录她的身高、体重,将身高体重单独的存在一张表中供查询即可。

    /////
    身高体重都永远不会变吗?

    例子有不确定性.

  13. 晨风 晨风

    牛逼

添加新评论 »

captcha
请输入验证码