系统集成项目管理工程师 · 第三版教材 · 第6章

系统集成项目管理工程师第三版第6章数据工程怎么复习？

第6章数据工程，不建议学成一堆大数据名词。老师讲这一章时，通常会先把它串成一条线：数据从哪里来，怎么清洗成可信数据，怎么治理得可控，最后怎么分析产生价值。考试不会只问一个漂亮概念，它更喜欢给你一个场景，比如身份证号和出生日期不一致、客户信息重复、生产数据要开放给外包分析、敏感字段要展示给不同角色。你先判断题干在问数据质量、数据治理、数据安全还是数据应用，选项就清楚很多。

第三版教材章节复习软考题库编辑部持续更新

内容整理：软考题库编辑部最近更新：2026-07-23

先把数据工程串成一条线

数据工程这一章，最怕只背采集、清洗、存储、治理、分析这些词。更稳的理解方式，是把数据当成项目中的一种“可交付资源”来看。原始数据通常不干净，可能缺字段、格式不统一、重复、异常、口径不一致；经过预处理和质量控制以后，才能进入数据治理、共享、分析和应用。

所以做题时先问一个朴素问题：题干里的数据现在处于哪一步？如果刚从业务系统、日志、表单、传感器里收上来，多半是在采集和预处理；如果讨论标准、责任、主数据、元数据、质量规则，多半是在治理；如果讨论敏感级别、脱敏、访问权限，多半是在安全和分级分类；如果讨论分类、预测、聚类、关联规则，多半是在数据挖掘和分析。

复习环节	题干常见信号	老师提醒
数据采集	业务系统、日志、接口、表单、传感器、外部数据源	先看数据来源是否合法、完整、可追溯
数据预处理	缺失、异常、重复、格式不统一、噪声	清洗不是分析结论，而是让数据先变得可用
数据质量	准确性、完整性、一致性、及时性、唯一性	看到身份证号和出生日期矛盾，优先想到一致性和校验
数据治理	标准、主数据、元数据、责任人、质量规则	治理是长期机制，不是数据库管理员临时改字段
数据安全	分级分类、脱敏、访问控制、审计	先看敏感程度，再看谁在什么场景下使用
数据应用	分类、预测、聚类、关联、离群点	先判断任务目的，再选数据挖掘方法

数据质量题先判断问题类型

很多数据题看起来像技术题，其实是在考你能不能识别质量问题。比如用户年龄字段为空，这是缺失；同一个客户在系统里出现两条记录，这是重复；订单金额为负数，通常是异常；身份证号出生日期和登记出生日期对不上，这是不一致。只有先说清问题类型，后面的清洗、校验、转换、去重才不会乱选。

课堂上讲这类题，我一般会让学生先用一句话翻译题干：这个数据到底哪里不可信？如果连“不可信”的原因都没说出来，直接选数据挖掘、数据仓库、数据可视化，很容易跑偏。数据应用是后一步，质量没处理好，分析结果再漂亮也不可靠。

数据问题	例子	更合适的处理思路
缺失	联系电话为空、出生日期未填	补全、剔除、默认值或人工核验
重复	同一客户多条记录、同一设备重复上报	去重、主数据合并、唯一性校验
异常	年龄为200、金额为负数	范围校验、异常检测、业务规则核对
不一致	身份证号生日和登记生日不一致	格式转换、规则校验、以权威来源修正
格式不统一	日期有2026/06/18和2026-06-18两种写法	标准化、统一编码和字段格式
噪声	采集数据中混入无效字符或干扰值	过滤、平滑、清洗和质量规则约束

数据治理不是数据库管理员改几个字段

数据治理这一块，很多同学会理解得太窄，以为就是“数据库表设计得规范一点”。但考试里的数据治理，更多强调组织层面的规则和机制：谁对数据负责，数据标准怎么定，主数据怎么统一，元数据怎么管理，质量问题怎么发现和闭环，敏感数据怎么分类保护。

比如一个集团有多个业务系统，客户编码各写各的、产品名称口径不一致、部门报表数字对不上，这时不是简单让某个开发改字段，而是要建立统一的数据标准、主数据管理、数据质量规则和责任机制。题干里如果出现“跨部门共享、统一口径、数据责任、数据标准”，大概率是在考治理思路。

概念	主要解决什么	容易混淆的地方
主数据	客户、产品、供应商、组织等核心对象的一致口径	不是普通业务流水数据
元数据	描述数据的数据，比如字段含义、来源、格式、口径	不是业务数据本身
数据标准	命名、编码、格式、指标口径的统一规则	不是某个人习惯怎么写
数据质量管理	发现、度量、修正和预防质量问题	不是一次清洗完就结束
数据责任	明确数据拥有者、管理者和使用者职责	不是全都推给技术部门
数据安全治理	分类分级、授权、脱敏、审计和合规	不是只买安全设备

分级分类和脱敏：先看敏感程度和使用场景

数据安全类题目，不能一看到“敏感数据”就只选加密。加密、脱敏、访问控制、审计、备份都有各自的使用场景。分级分类先回答“这类数据重要到什么程度、泄露后影响多大”；访问控制回答“谁能看、能看多少”；脱敏回答“在不暴露原始敏感内容的情况下，能不能满足展示、测试或分析需要”。

举个很常见的场景：生产库里的手机号、身份证号要给测试人员排查问题。如果测试人员并不需要真实号码，就不应该把完整明文直接开放给他。更合适的表达是按敏感级别确定访问权限，对展示或测试场景进行脱敏，并保留必要审计。

措施	适合解决的问题	题干关键词
数据分级分类	判断数据敏感程度和保护要求	核心数据、重要数据、个人信息、泄露影响
访问控制	限制谁能访问、能做什么操作	权限、角色、最小授权、越权访问
数据脱敏	隐藏或替换敏感字段以便展示、测试、分析	手机号、身份证号、测试环境、展示给外包
加密	防止数据在存储或传输中被直接读懂	密文、传输安全、存储保护
审计	保留访问和操作痕迹，便于追溯	谁查看过、谁导出过、日志、追责
备份恢复	防止数据丢失后无法恢复	误删、故障、容灾、恢复演练

数据挖掘和分析：先看任务目的

数据挖掘题也不要只背算法名。考试更多会从任务目的入手：如果题干要判断某个用户属于哪一类，多半是分类；如果要估计未来销量或工期，多半是预测；如果没有预先类别，只想把相似对象分组，多半是聚类；如果想发现“买了A的人经常也买B”，多半是关联规则。

这类题最常见的错法，是把聚类和分类混在一起。分类通常有已知标签，比如“高风险客户、低风险客户”；聚类通常没有事先标签，是让数据自己分组。题干如果没有给类别，而是说根据相似性自动分群，就不要硬选分类。

任务	一句话判断	典型例子
分类	已有类别，让新对象归类	判断客户是高风险还是低风险
预测	根据历史数据估计未来数值	预测下月销售额、故障概率
聚类	没有预设类别，按相似性分组	把用户自动分成若干群体
关联规则	发现事物之间经常同时出现的关系	购物篮分析、A和B经常一起购买
离群点检测	找出明显不同于大多数样本的数据	异常交易、异常登录、异常设备数据
汇总描述	把数据规律用统计或可视化方式呈现	报表、趋势图、指标看板

这一章怎么练：把题干贴到数据生命周期上

第6章复习时，不建议今天背一个数据湖，明天背一个数据仓库，后天背一个数据治理。更好的办法，是每做一道题都给它贴一个生命周期标签：采集、预处理、质量、治理、安全、分析、应用。贴完标签再看选项，很多干扰项就会失去迷惑性。

本站适合先看讲解，把概念边界理清楚；如果后面想按章节连续刷系统集成第三版题，可以用书木兰软考题库做第6章相关练习，网址是 https://www.shumulan.com/。这一章真正要练出来的能力，不是背多少数据名词，而是看到一个业务数据问题，能判断它属于质量、治理、安全还是应用。