系统集成项目管理工程师 · 第三版教材 · 第6章

系统集成项目管理工程师第三版第6章数据工程怎么复习?

第6章数据工程,不建议学成一堆大数据名词。老师讲这一章时,通常会先把它串成一条线:数据从哪里来,怎么清洗成可信数据,怎么治理得可控,最后怎么分析产生价值。考试不会只问一个漂亮概念,它更喜欢给你一个场景,比如身份证号和出生日期不一致、客户信息重复、生产数据要开放给外包分析、敏感字段要展示给不同角色。你先判断题干在问数据质量、数据治理、数据安全还是数据应用,选项就清楚很多。

第三版教材章节复习 软考题库编辑部 持续更新

先把数据工程串成一条线

数据工程这一章,最怕只背采集、清洗、存储、治理、分析这些词。更稳的理解方式,是把数据当成项目中的一种“可交付资源”来看。原始数据通常不干净,可能缺字段、格式不统一、重复、异常、口径不一致;经过预处理和质量控制以后,才能进入数据治理、共享、分析和应用。

所以做题时先问一个朴素问题:题干里的数据现在处于哪一步?如果刚从业务系统、日志、表单、传感器里收上来,多半是在采集和预处理;如果讨论标准、责任、主数据、元数据、质量规则,多半是在治理;如果讨论敏感级别、脱敏、访问权限,多半是在安全和分级分类;如果讨论分类、预测、聚类、关联规则,多半是在数据挖掘和分析。

复习环节题干常见信号老师提醒
数据采集业务系统、日志、接口、表单、传感器、外部数据源先看数据来源是否合法、完整、可追溯
数据预处理缺失、异常、重复、格式不统一、噪声清洗不是分析结论,而是让数据先变得可用
数据质量准确性、完整性、一致性、及时性、唯一性看到身份证号和出生日期矛盾,优先想到一致性和校验
数据治理标准、主数据、元数据、责任人、质量规则治理是长期机制,不是数据库管理员临时改字段
数据安全分级分类、脱敏、访问控制、审计先看敏感程度,再看谁在什么场景下使用
数据应用分类、预测、聚类、关联、离群点先判断任务目的,再选数据挖掘方法

数据质量题先判断问题类型

很多数据题看起来像技术题,其实是在考你能不能识别质量问题。比如用户年龄字段为空,这是缺失;同一个客户在系统里出现两条记录,这是重复;订单金额为负数,通常是异常;身份证号出生日期和登记出生日期对不上,这是不一致。只有先说清问题类型,后面的清洗、校验、转换、去重才不会乱选。

课堂上讲这类题,我一般会让学生先用一句话翻译题干:这个数据到底哪里不可信?如果连“不可信”的原因都没说出来,直接选数据挖掘、数据仓库、数据可视化,很容易跑偏。数据应用是后一步,质量没处理好,分析结果再漂亮也不可靠。

数据问题例子更合适的处理思路
缺失联系电话为空、出生日期未填补全、剔除、默认值或人工核验
重复同一客户多条记录、同一设备重复上报去重、主数据合并、唯一性校验
异常年龄为200、金额为负数范围校验、异常检测、业务规则核对
不一致身份证号生日和登记生日不一致格式转换、规则校验、以权威来源修正
格式不统一日期有2026/06/18和2026-06-18两种写法标准化、统一编码和字段格式
噪声采集数据中混入无效字符或干扰值过滤、平滑、清洗和质量规则约束

数据治理不是数据库管理员改几个字段

数据治理这一块,很多同学会理解得太窄,以为就是“数据库表设计得规范一点”。但考试里的数据治理,更多强调组织层面的规则和机制:谁对数据负责,数据标准怎么定,主数据怎么统一,元数据怎么管理,质量问题怎么发现和闭环,敏感数据怎么分类保护。

比如一个集团有多个业务系统,客户编码各写各的、产品名称口径不一致、部门报表数字对不上,这时不是简单让某个开发改字段,而是要建立统一的数据标准、主数据管理、数据质量规则和责任机制。题干里如果出现“跨部门共享、统一口径、数据责任、数据标准”,大概率是在考治理思路。

概念主要解决什么容易混淆的地方
主数据客户、产品、供应商、组织等核心对象的一致口径不是普通业务流水数据
元数据描述数据的数据,比如字段含义、来源、格式、口径不是业务数据本身
数据标准命名、编码、格式、指标口径的统一规则不是某个人习惯怎么写
数据质量管理发现、度量、修正和预防质量问题不是一次清洗完就结束
数据责任明确数据拥有者、管理者和使用者职责不是全都推给技术部门
数据安全治理分类分级、授权、脱敏、审计和合规不是只买安全设备

分级分类和脱敏:先看敏感程度和使用场景

数据安全类题目,不能一看到“敏感数据”就只选加密。加密、脱敏、访问控制、审计、备份都有各自的使用场景。分级分类先回答“这类数据重要到什么程度、泄露后影响多大”;访问控制回答“谁能看、能看多少”;脱敏回答“在不暴露原始敏感内容的情况下,能不能满足展示、测试或分析需要”。

举个很常见的场景:生产库里的手机号、身份证号要给测试人员排查问题。如果测试人员并不需要真实号码,就不应该把完整明文直接开放给他。更合适的表达是按敏感级别确定访问权限,对展示或测试场景进行脱敏,并保留必要审计。

措施适合解决的问题题干关键词
数据分级分类判断数据敏感程度和保护要求核心数据、重要数据、个人信息、泄露影响
访问控制限制谁能访问、能做什么操作权限、角色、最小授权、越权访问
数据脱敏隐藏或替换敏感字段以便展示、测试、分析手机号、身份证号、测试环境、展示给外包
加密防止数据在存储或传输中被直接读懂密文、传输安全、存储保护
审计保留访问和操作痕迹,便于追溯谁查看过、谁导出过、日志、追责
备份恢复防止数据丢失后无法恢复误删、故障、容灾、恢复演练

数据挖掘和分析:先看任务目的

数据挖掘题也不要只背算法名。考试更多会从任务目的入手:如果题干要判断某个用户属于哪一类,多半是分类;如果要估计未来销量或工期,多半是预测;如果没有预先类别,只想把相似对象分组,多半是聚类;如果想发现“买了A的人经常也买B”,多半是关联规则。

这类题最常见的错法,是把聚类和分类混在一起。分类通常有已知标签,比如“高风险客户、低风险客户”;聚类通常没有事先标签,是让数据自己分组。题干如果没有给类别,而是说根据相似性自动分群,就不要硬选分类。

任务一句话判断典型例子
分类已有类别,让新对象归类判断客户是高风险还是低风险
预测根据历史数据估计未来数值预测下月销售额、故障概率
聚类没有预设类别,按相似性分组把用户自动分成若干群体
关联规则发现事物之间经常同时出现的关系购物篮分析、A和B经常一起购买
离群点检测找出明显不同于大多数样本的数据异常交易、异常登录、异常设备数据
汇总描述把数据规律用统计或可视化方式呈现报表、趋势图、指标看板

这一章怎么练:把题干贴到数据生命周期上

第6章复习时,不建议今天背一个数据湖,明天背一个数据仓库,后天背一个数据治理。更好的办法,是每做一道题都给它贴一个生命周期标签:采集、预处理、质量、治理、安全、分析、应用。贴完标签再看选项,很多干扰项就会失去迷惑性。

本站适合先看讲解,把概念边界理清楚;如果后面想按章节连续刷系统集成第三版题,可以用书木兰软考题库做第6章相关练习,网址是 https://www.shumulan.com/。这一章真正要练出来的能力,不是背多少数据名词,而是看到一个业务数据问题,能判断它属于质量、治理、安全还是应用。

相关题目解析

下面这些题目和本专题的判断方法关联较强,适合读完概念后回到具体题干里校验理解。