国考专业课-数据库及数据挖掘技术
第二章 数据库及数据挖掘技术
第一节 数据库系统
考点一 数据库基本概念
数据库是一个按数据结构来存储和管理数据的计算机软件系统。数据库的概念实际包括两层意思:
(1)数据库是一个实体,它是能够合理保管数据的“仓库”,用户在该“仓库”中存放要管理的事务数据,“数据”和“库”两个概念结合成为数据库。
(2)数据库是数据管理的新方法和技术,它能更合适的组织数据、更方便的维护数据、更严密的控制数据和更有效的利用数据。
考点二 数据库管理系统的功能
数据库是长期存储在计算机上、有组织的、可共享的大量数据的集合。它的基本组成要素包括数据、数据库管理系统(DBMS)和数据库系统(DBS)。数据是数据库中存储的基本对象,可以是数字、文字、图片等。数据库管理系统位于用户应用和操作系统之间,用于科学地组织和存储数据,高效地获取和维护数据。数据库系统则是指在计算机系统中引入数据库后的系统架构,包括数据库、数据库管理系统(及应用开发工具)和应用程序。
数据库管理系统(DBMS)是用于操纵和管理数据库的软件,其主要功能包括:
1.数据定义功能:提供数据定义语言(DDL),用于定义数据库中的数据对象。
2.数据组织、存储和管理:分类组织、存储和管理各种数据,确定数据在存储级别上的结构和存取方式,提供多种存取方法以提高存取效率。
3.数据操纵功能:提供数据操纵语言(DML),实现对数据库的基本操作,如查询、插入、删除和修改。
4.事务管理和运行管理:管理数据的安全性、完整性,处理多用户对数据的并发使用,并在发生故障后恢复数据。
5.数据库的建立和维护功能:提供实用程序和工具,完成数据库数据的批量转载、转存储、介质故障恢复、数据库的重新组织和性能监视等。
关系型数据库(RDBMS)是建立在关系模型基础上,由多张相互连接的二维表组成的数据库。其特点包括使用表存储数据,格式统一,便于维护;使用SQL语言操作,标准统一,使用方便。
第二节 数据模型
考点一 数据模型
数据模型(Data Model)是数据特征的抽象,它从抽象层次上描述了系统的静态特征、动态行为和约束条件,为数据库系统的信息表示与操作提供一个抽象的框架。数据模型所描述的内容有三部分,分别是数据结构、数据操作和数据约束。
数据发展过程中产生过三种基本的数据模型,它们是层次模型、网状模型和关系模型。前两种采用格式化的结构,关系模型为非格式化的结构,用单一的二维表的结构表示实体及实体之间的联系,关系模型是目前数据库中常用的数据模型。
层次模型:
将数据组织成一对多关系的结构,用树形结构表示实体及实体间的联系。
网状模型:
用连接指令或指针来确定数据间的网状连接关系,是具有多对多类型的数据组织方式。
关系模型:
以记录组或数据表的形式组织数据,以便于利用各种实体与属性之间的关系进行存储和变换,不分层也无指针,是建立空间数据和属性数据之间关系的一种非常有效的数据组织方法。
考点二 E-R模型
E-R模型(Entity-Relationship Model)是一种用于描述现实世界中信息结构的概念数据模型,主要用于数据库设计阶段,帮助分析师和设计师理解现实世界中的数据结构。
基本组成
E-R模型由三个基本元素组成:
实体集:现实世界中可以相互区别的对象,例如学生、课程等。
属性:描述实体的特征,例如学生的学号、姓名、年龄等。
联系集:表示实体之间的关联关系,例如学生选修课程的关系。
表示方法
E-R模型通过E-R图来表示:
实体集用矩形框表示,框内写上实体名。
属性用椭圆框表示,框内写上属性名,并用无向边与实体集相连。
联系集用菱形框表示,表示实体间的关系,并用无向连线将参与联系的实体矩形框与菱形框相连,标明联系的类型(1:1, 1, M)。
弱实体
弱实体(weak entity)是一种数据库系统术语。其定义为一个实体对于另一个实体(一般为强实体,也可以是依赖于其他强实体的弱实体)具有很强的依赖联系,而且该实体主键的一部分或全部从其强实体(或者对应的弱实体依赖的强实体)中获得,则称该实体为弱实体。
考点三 关系模型
关系实际上就是关系模式在某一时刻的状态或内容。其最基本的组成要素是实体,关系和属性 [3]。也就是说,关系模式是型,关系是它的值。关系模式是静态的、稳定的,而关系是动态的、随时间不断变化的,因为关系操作在不断地更新着数据库中的数据。但在实际当中,常常把关系模式和关系统称为关系,读者可以从上下文中加以区别。
关系模型的基本概念和基本术语共有十四个,它们分别是:
(1)关系(Relation):一个关系对应着一个二维表,二维表就是关系名。
(2)元组(Tuple):在二维表中的一行,称为一个元组。
(3)属性(Attribute):在二维表中的列,称为属性。属性的个数称为关系的元或度。列的值称为属性值;
(4)(值)域(Domain):属性值的取值范围为值域。
(5)分量:每一行对应的列的属性值,即元组中的一个属性值。
(6)关系模式:在二维表中的行定义,即对关系的描述称为关系模式。一般表示为(属性1,属性2,……,属性n),如老师的关系模型可以表示为教师(教师号,姓名,性别,年龄,职称,所在系)。
(7)键(码):如果在一个关系中存在唯一标识一个实体的一个属性或属性集称为实体的键,即使得在该关系的任何一个关系状态中的两个元组,在该属性上的值的组合都不同。
(8)候选键(候选码):若关系中的某一属性的值能唯一标识一个元组如果在关系的一个键中不能移去任何一个属性,否则它就不是这个关系的键,则称这个被指定的候选键为该关系的候选键或者候选码。
(9)主键(主码):在一个关系的若干候选键中指定一个用来唯一标识该关系的元组,则称这个被指定的候选键称为主关键字,或简称为主键、关键字、主码。每一个关系都有并且只有一主键,通常用较小的属性组合作为主键。
(10)主属性和非主属性:关系中包含在任何一个候选键中的属性称为主属性,不包含在任何一个候选键中的属性为非主属性。
(11)全键或者全码:一个关系模式中的所有属性的集合。
(12)外键或者外码:关系中的某个属性虽然不是这个关系的主键,或者只是主键的,但它却是另外一个关系的主键时,则称之为外键或者外码。
(13)超键或者超码:如果在关系的一个键中移去某个属性,它仍然是这个关系的键,则称这样的键为关系的超键或者超码。
(14)参照关系与被参照关系:是指以外键相互联系的两个关系,可以相互转化。
关系模型的三类完整性规则
1.实体完整性规则
这条规则需求关系中元组在组成主键的属性上不能有空值。如有空值,那么主键值就起不了唯一标识元组的作用。
2.参照完整性规则
如果属性集K是关系模式R1的主键,K也是关系模式R2的外键,那么在R2的关系中,K的取值只允许有两种可能,或为空值,或等于R1关系中某个主键值。
3.用户定义的完整性规则
这是针对具体数据的约束条件,由应用环境而定。
关系模型的形式定义
三个组成部分:数据结构、数据操作和完整性规则。
1.关系模型的基本数据结构就是关系。
2.关系运算分为关系代数和关系演算。
3.关系模型的三类完整性规则。
第三节 关系数据库理论
考点一 函数依赖
函数依赖简单点说就是:某个属性集决定另一个属性集时,称另一属性集依赖于该属性集。
函数依赖是由数学派生的术语,它表征一个属性或属性集合的值对另一个属性或属性集合的值的依赖性。需要强调的是,函数依赖是关系所表述信息本身具有的语义特性,而不能由属性构成关系的方式来决定,也不能由关系的当前内容所决定。
主要考察依赖于的关系,有点接近离散数学,例题:
下列关于函数依赖的描述,错误的是( D)。
A.若A→B,B→C,则A→C
B.若A→B,A→C,则A→B
C.若B→A,C→A,则BC→A
D.若BC→A,则B→A,C→A
解析:根据传递律,若A→B,B→C,则A→C。根据合并律,若A→B,A→C,则A→BC。根据复合律,若B→A,C→A,则BC→A。根据分解律,若A→B、CB,则A→C。选项D是错误的函数依赖关系。
考点二 关系规范化
第四节 SQL语言
考点一 SQL语句概述
SQL(Structured Query Language)是一种标准的数据库查询语言,主要用于管理和操作关系数据库。SQL包含两部分:数据定义语言(DDL)例如,创建表、视图和索引的语句。和数据操作语言(DML)例如,插入数据、更新数据、删除数据和查询数据的语句。
SQL的基本组成要素
SQL语句由以下基本组成要素构成:
关键字:定义SQL语句的基本操作命令,如SELECT、INSERT、UPDATE、DELETE等。
标识符:用于标识数据库中的对象名称,如表名、列名。
字面量:表示具体数值、字符或日期,如数字、字符串、日期等。
运算符:用于执行操作的符号或关键字,如+、-、*、/等。
分隔符:用于分隔SQL语句中的不同部分,如分号(;)。
注释:提供对SQL语句的说明或注解,不被数据库执行,如单行注释和多行注释。
空格和换行符:用于格式化SQL语句,增强可读性。
考点二 常用SQL语句
数据库操作:
1、创建数据库:CREATE DATABASE 数据库名;
2、查看所有数据库:SHOW DATABASES;
3、使用数据库:USE 数据库名;
4、删除数据库:DROP DATABASE 数据库名;
表操作:
1、创建表:
CREATE TABLE 表名 (
列名1 数据类型1 [约束条件],
列名2 数据类型2 [约束条件],
…
列名n 数据类型n [约束条件]
);
例如:
CREATE TABLE student (
id INT PRIMARY KEY,
name VARCHAR(32),
age INT,
score DOUBLE(4,1),
birthday DATE,
insert_time TIMESTAMP
);
2、查看表结构:DESC 表名; 或 SHOW CREATE TABLE 表名;
3、修改表名:ALTER TABLE 表名 RENAME TO 新表名;
4、添加列:ALTER TABLE 表名 ADD 列名 数据类型;
5、删除列:ALTER TABLE 表名 DROP COLUMN 列名;
6、删除表:DROP TABLE 表名;
数据操作:
1、插入数据
INSERT INTO 表名 VALUES (值1, 值2, … 值n);
或
INSERT INTO 表名 (列名1, 列名2, … 列名n) VALUES (值1, 值2, … 值n);
2、更新数据
UPDATE 表名 SET 列名 = 新值 WHERE 条件;
3、删除数据
DELETE FROM 表名 WHERE 条件;
数据查询:
1、基本查询
SELECT * FROM 表名;
或
SELECT 列名1, 列名2, … 列名n FROM 表名;
2、条件查询
SELECT 列名 FROM 表名 WHERE 条件;
条件可以是各种比较运算符(如=、>、<等)、逻辑运算符(如AND、OR等)以及模糊查询(如LIKE)。
3、排序查询
SELECT 列名 FROM 表名 ORDER BY 排序字段 [ASC|DESC];
4、限制查询结果的条数
SELECT 列名 FROM 表名 LIMIT 记录数;
或
SELECT 列名 FROM 表名 LIMIT 初始位置, 记录数;
5、去重查询
SELECT DISTINCT 列名 FROM 表名;
6、聚合函数
SELECT 聚合函数(列名) FROM 表名;
SQL提供了多种聚合函数,用于对一组值进行计算并返回一
个单一的值。常用的聚合函数包括COUNT()、SUM()、AVG()、MAX()和MIN()。
7、分组查询
SELECT 分组字段, 聚合函数(列名) FROM 表名 GROUP BY 分组字段;
SELECT 分组字段, 聚合函数(列名) FROM 表名 GROUP BY 分组字段 HAVING 条件;
多表查询:
1、内连接(内连接其实就只展示两表的并集,只展示id在两表都匹配上的行数据,没有匹配上的两表都不展示)
SELECT 列名 FROM 表1 INNER JOIN 表2 ON 表1.列名 = 表2.列名;
2、外连接
左外连接:
SELECT 列名 FROM 表1 LEFT JOIN 表2 ON 表1.列名 = 表2.列名;
右外连接:
SELECT 列名 FROM 表1 RIGHT JOIN 表2 ON 表1.列名 = 表2.列名;
左右外连接的区别在于用哪边就会显示哪边的全部记录,即使这条记录在另一边没有匹配上。不管是哪种都可能出现一条与多行匹配的情况,此时会全部显示。
3、子查询
SELECT 列名 FROM 表名 WHERE 列名 = (子查询);
子查询可以出现在SELECT、FROM、WHERE等子句中。
第五节 数据库管理
考点一 数据库的事务管理
事务管理是对一系列数据库操作进行管理的过程,这些操作被视为一个不可分割的工作单元(原子单元)。事务管理在数据库系统中起着至关重要的作用,它确保了数据的一致性和完整性,防止了数据在并发操作中出现不一致或损坏的情况。
事务具有四个基本特性,即原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)和持久性(Durability),这四个特性通常简称为ACID。
原子性:事务是一个原子操作,由一系列动作组成。事务的原子性确保这些动作要么全部完成,要么完全不起作用,从而避免了部分成功、部分失败的情况。
一致性:事务必须使数据库从一个一致性状态转换到另一个一致性状态。这意味着事务的执行不会破坏数据库的约束和规则,确保数据的正确性。
隔离性:事务的隔离性确保了多个并发事务之间的隔离,避免了数据交叉访问和干扰,保证了每个事务的独立性。不同的隔离级别会影响事务的并发性能和一致性保证程度。
持久性:一旦事务被提交,其对数据库的更改就会持久保存,即使系统崩溃也不会丢失。这确保了事务的更改能够长期保存并供后续操作使用。
事务管理的实现方式,事务管理的实现方式可能有所不同。但一般来说,事务管理包括并发控制和恢复两部分。
并发控制:并发控制涉及到多个事务对数据库的某个公共部分进行同时存取的自动控制。为了提高死锁检测的效率,尽早发现“隐藏”的死锁,并发控制机制会有效地表示各种等待关系,并处理死锁等并发问题。
恢复:恢复机制用于在事务失败或系统崩溃时恢复数据库到一致性状态。这通常包括撤销(Undo)和重做(Redo)两个步骤。撤销操作用于回滚事务的更改,而重做操作则用于重新执行那些因系统崩溃而未能完成的事务。
数据库事务的状态通常包括以下几种:
活动的(Active):事务对应的数据库操作正在执行过程中,此时事务处于活动的状态。这是事务的初始状态,表示事务已经开始执行,但尚未完成。
部分提交的(Partially Committed):事务内部最后一个操作执行结束,但此时数据更新处于内存级别,还未刷新到磁盘中,称事务处于部分提交的状态。在这个阶段,事务的修改已经在内存中完成,但还没有被永久保存到磁盘上。
失败的(Failed):当事务处在活动的或者部分提交状态时,可能遇到了某些错误(如数据库自身的错误、操作系统错误或直接断电)而无法继续执行,或者人为停止当前事务的执行,此时事务处于失败的状态。
中止的(Aborted):事务处于失败状态时,会进行回滚操作,即将数据库恢复到事务执行前的状态,回滚后事务处于中止的状态。这是事务处理失败后的最终状态,表示事务的所有修改都已被撤销,数据库回到了事务开始之前的状态。
提交的(Committed):当一个处在部分提交的状态的事务将修改过的数据从内存同步到磁盘之后,该事务就处于提交的状态。这是事务处理成功的最终状态,表示事务的所有修改都已被永久保存到数据库中。
事务如果执行中就是活动状态,如果执行失败报错了就是失败状态,此时如果进行完了回滚操作,则会进入终止状态。如果事务执行成功,当数据更新还存在于内存当中时,则是部分提交状态,当内存中的数据更新同步到磁盘当中后,事务变为提交状态。
事务之间的相互影响,这些相互影响主要包括以下几种情况:
脏读(Dirty Read):脏读是指一个事务读取了另一个事务未提交的数据。
不可重复读(Non-repeatable Read):不可重复读是指在数据库访问中,一个事务范围内两个相同的查询却返回了不同的数据。
幻读(Phantom Read):幻读是指当事务不是独立执行时发生的一种现象。例如,第一个事务对一个表中的数据进行了修改,这种修改涉及到表中的全部数据行。同时,第二个事务也修改这个表中的数据,但这种修改是向表中插入一行新数据。那么会发生操作第一个事务的用户发现表中还有没有修改的数据行,就好象发生了幻觉一样。
丢失更新(Lost Update):丢失更新是指两个事务同时读取同一条记录,A先修改记录,B也修改记录(B是不知道A修改过的),B提交数据后B的修改结果覆盖了A的修改结果。这种情况下,A的更新被B的更新所覆盖,导致A的更新丢失。
事务的隔离级别,为了解决事务之间的相互影响,数据库系统提供了事务隔离级别的概念。事务隔离级别决定了事务之间的可见性和一致性程度。常见的事务隔离级别包括:
读未提交(Read Uncommitted):允许事务读取未被其他事务提交的变更,这可能导致脏读、不可重复读和幻读。
读已提交(Read Committed):确保事务只能读取已经被其他事务提交的变更,这可以避免脏读,但不可重复读和幻读仍可能发生。
可重复读(Repeatable Read):确保在同一个事务中多次读取同样记录的结果是一致的,这可以避免脏读和不可重复读,但幻读仍可能发生(在某些数据库系统中,如MySQL的InnoDB存储引擎,通过多版本并发控制MVCC可以进一步避免幻读)。
串行化(Serializable):这是最高的隔离级别,它通过强制事务串行执行来避免脏读、不可重复读和幻读。但这种方式会大大降低数据库的并发性能。
考点二 数据库的备份与恢复
数据库备份:数据库备份是指将数据库中的数据保存到存储介质中,以便在数据丢失或损坏时能够恢复。备份的类型包括:
完整备份:备份数据库中的所有数据。
差异备份:仅备份自上次完整备份以来发生变化的数据。
事务日志备份:备份自上次完整或差异备份以来的所有事务日志。
数据库恢复模式:数据库的恢复模式决定了支持的备份类型和还原方案,主要包括:
简单恢复模式:适用于对数据丢失容忍度较高的场景,不记录事务日志,备份和还原过程相对简单。
完整恢复模式:记录所有事务日志,可以恢复到任意时间点,适用于对数据完整性要求较高的场景。
大容量日志恢复模式:结合了简单恢复模式和完整恢复模式的优点,适用于大容量操作,减少日志大小的同时保证可恢复性。
备份策略:设计备份策略时需要考虑以下因素:
备份频率:根据业务需求和数据变更频率决定备份的频率,例如每天、每周或每月。
备份时间:选择低峰时段进行备份以减少对业务的影响。
备份存储:选择合适的存储介质和存储策略,确保备份数据的长期保存和可恢复性。
恢复过程包括:
应急恢复:防止数据库处于不一致或不可用状态,通过回滚未完成的事务来恢复数据一致性。
版本恢复:使用完整备份和事务日志恢复到某个特定时间点。
前滚恢复:结合完整备份和事务日志,恢复到任意时间点。
第六节 数据仓库
考点一 数据仓库
数据仓库是企业中用于集中存储和管理来自多个源的经过处理和组织的数据的系统。它为复杂的查询和分析提供了一个优化的环境,使得用户能够执行高级数据分析,以支持商业决策。数据在进入仓库之前经过清洗、转换和集成,以确保质量和一致性。这使得企业能够通过商业智能工具和报告软件,对历史和当前数据进行深入分析,以洞察趋势、预测未来并优化战略。
数据仓库的作用
1.整合不同数据源
2.支持复杂查询和报告
3.提升决策质量
4.提升系统性能
5.数据治理和安全
数据仓库实际应用
1.客户关系管理
2.供应链管理
3.财务分析
4.人力资源管理
5.运营效率分析
数据仓库和数据湖的区别
数据仓库是针对结构化数据经过精细加工用于分析和报表的集中式存储系统,数据湖则存储大量未加工的结构化和非结构化数据以便灵活分析。下表简单对比了数据湖和数据仓库的主要区别:
对比项 | 数据仓库 | 数据湖 |
---|---|---|
定义 | 为企业整合、清洗、存储和分析结构化数据而设计的中央存储系统。 | 用于存储大量原始数据,无论其结构如何,以后可供分析使用的存储系统。 |
数据类型 | 主要存储结构化数据,经过清洗和转换。 | 存储结构化、半结构化和非结构化数据,原始形式保留。 |
存储模式 | 通常采用星型或雪花模式,便于分析。 | 通常是平面结构,数据以原始形态存储。 |
用户群体 | 高层管理者、决策者和业务分析师等。 | 数据科学家、分析师和数据工程师等。 |
用途 | 用于复杂的查询分析,支持企业决策。 | 用于数据发现、大数据处理和机器学习等。 |
数据治理 | 强调数据的一致性、质量和治理。 | 数据治理较为宽松,原始数据被保留,治理按需实施。 |
数据处理 | 需要ETL(提取、转换、加载)处理。 | 数据通常以原始格式存储,按需进行处理。 |
实施和成本 | 实施成本和时间较高,由于规模大和复杂性高。 | 实施成本较低,尤其是初期存储原始数据较为简单。 |
数据仓库的原理
1.数据抽取
2.数据存储
3.数据清洗和转换
4.数据加载
5.数据访问与分析
考点二 数据仓库的架构
数据仓库的架构主要包括以下几个层次和组成部分:
1.数据源层:这是数据的来源,包括各种业务系统、数据库、文件、外部数据接口等。
2.数据存储层:通常使用关系型数据库(如MySQL、DB2等)、数据仓库产品(如Teradata、Greenplum等)或大数据存储技术(如Hive、HBase等)来存储数据。
3.数据提取、转换和加载(ETL)层:负责从数据源抽取数据,进行清洗、转换、整合等操作,然后加载到数仓中。
4.数据仓库层:按照不同的主题和层次(如明细层、轻度汇总层、高度汇总层等)对数据进行组织和存储。
5.数据集市层:针对特定业务部门或业务需求,从数仓中提取和定制的数据集合,以满足特定的分析和决策需求。
6.数据访问层:为用户提供访问数据的接口和工具,如报表工具、数据分析工具、数据挖掘工具等。
7.元数据管理层:管理关于数仓的数据,包括数据的定义、结构、来源、转换规则、数据质量等信息。
常见的数仓架构类型包括:
1.单层架构(直连):数据仓库是一个关系型数据库,终端用户可以直接查询数据。这种架构简单,但处理复杂维度分析时性能受限。
2.两层架构(数据集市层):在前端应用层和EDW层之间增加数据集市层,针对特定业务需求进行定制化数据处理。
3.三层架构(OLAP):包括原始数据层、数据仓库层和应用分析层,适用于复杂的数据分析和多维分析。
集中式架构:所有数据集中管理,便于统一维护和高效处理,适用于大型企业。
4.Lambda架构:适用于实时数据处理,通过离线计算和实时计算相结合,提供准确的数据分析结果。
5.Kappa架构:专注于实时数据处理,通过流处理技术实现数据的实时分析。
数仓的优缺点:
优点:集中管理数据,消除数据孤岛;支持复杂分析;提升数据质量;提高数据可用性。
缺点:建设和维护成本较高;对硬件资源要求高;处理复杂查询时性能可能受限。
第七节 数据挖掘技术
考点一 数据挖掘的概念
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
数据挖掘过程模型步骤主要包括定义问题、建立数据挖掘库、分析数据、准备数据、建立模型、评价模型和实施。
考点二 数据挖掘分析方法
数据挖掘分为有指导的数据挖掘和无指导的数据挖掘。有指导的数据挖掘是利用可用的数据建立一个模型,这个模型是对一个特定属性的描述。无指导的数据挖掘是在所有的属性中寻找某种关系。
感觉就是大数据,分为:分类、估值、预测、相关性分组或关联规则、聚类
经典的算法类型:
1.神经网络法:其优点是具有抗干扰、非线性学习、联想记忆功能,对复杂情况能得到精确的预测结果;缺点首先是不适合处理高维变量,不能观察中间的学习过程,具有“黑箱”性,输出结果也难以解释。
2.决策树法:决策树法擅长处理非数值型数据,而且特别适合大规模的数据处理。决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比如,在贷款申请中,要对申请的风险大小做出判断。
3.遗传算法:它的基本观点是“适者生存”原理,具有隐含并行性、易于和其他模型结合等性质。主要的优点是可以处理许多数据类型,同时可以并行处理各种数据;缺点是需要的参数太多,编码困难,一般计算量比较大。
4.粗糙集法:优点是算法简单,在其处理过程中可以不需要关于数据的先验知识,可以自动找出问题的内在规律;缺点是难以直接处理连续的属性,须先进行属性的离散化。
5.模糊集法:模糊集法是利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。
6.关联规则法:Apriori算法。其算法的思想是:首先找出频繁性至少和预定意义的最小支持度一样的所有频集,然后由频集产生强关联规则。
考点三 Hadoop大数据挖掘技术平台
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
1.高可靠性
2.高扩展性
3.高效性
4.高容错性
5.低成本
核心架构:
Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System(HDFS),它存储 Hadoop 集群中所有存储节点上的文件。HDFS的上一层是MapReduce 引擎,该引擎由 JobTrackers 和 TaskTrackers 组成。通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。
考点四 数据挖掘技术主要应用
1.商业分析
2.医疗健康
3.市场营销
4.金融服务和社交媒体分析