先把数据工程串成一条线
数据工程这一章,最怕只背采集、清洗、存储、治理、分析这些词。更稳的理解方式,是把数据当成项目中的一种“可交付资源”来看。原始数据通常不干净,可能缺字段、格式不统一、重复、异常、口径不一致;经过预处理和质量控制以后,才能进入数据治理、共享、分析和应用。
所以做题时先问一个朴素问题:题干里的数据现在处于哪一步?如果刚从业务系统、日志、表单、传感器里收上来,多半是在采集和预处理;如果讨论标准、责任、主数据、元数据、质量规则,多半是在治理;如果讨论敏感级别、脱敏、访问权限,多半是在安全和分级分类;如果讨论分类、预测、聚类、关联规则,多半是在数据挖掘和分析。
| 复习环节 | 题干常见信号 | 老师提醒 |
|---|---|---|
| 数据采集 | 业务系统、日志、接口、表单、传感器、外部数据源 | 先看数据来源是否合法、完整、可追溯 |
| 数据预处理 | 缺失、异常、重复、格式不统一、噪声 | 清洗不是分析结论,而是让数据先变得可用 |
| 数据质量 | 准确性、完整性、一致性、及时性、唯一性 | 看到身份证号和出生日期矛盾,优先想到一致性和校验 |
| 数据治理 | 标准、主数据、元数据、责任人、质量规则 | 治理是长期机制,不是数据库管理员临时改字段 |
| 数据安全 | 分级分类、脱敏、访问控制、审计 | 先看敏感程度,再看谁在什么场景下使用 |
| 数据应用 | 分类、预测、聚类、关联、离群点 | 先判断任务目的,再选数据挖掘方法 |
数据质量题先判断问题类型
很多数据题看起来像技术题,其实是在考你能不能识别质量问题。比如用户年龄字段为空,这是缺失;同一个客户在系统里出现两条记录,这是重复;订单金额为负数,通常是异常;身份证号出生日期和登记出生日期对不上,这是不一致。只有先说清问题类型,后面的清洗、校验、转换、去重才不会乱选。
课堂上讲这类题,我一般会让学生先用一句话翻译题干:这个数据到底哪里不可信?如果连“不可信”的原因都没说出来,直接选数据挖掘、数据仓库、数据可视化,很容易跑偏。数据应用是后一步,质量没处理好,分析结果再漂亮也不可靠。
| 数据问题 | 例子 | 更合适的处理思路 |
|---|---|---|
| 缺失 | 联系电话为空、出生日期未填 | 补全、剔除、默认值或人工核验 |
| 重复 | 同一客户多条记录、同一设备重复上报 | 去重、主数据合并、唯一性校验 |
| 异常 | 年龄为200、金额为负数 | 范围校验、异常检测、业务规则核对 |
| 不一致 | 身份证号生日和登记生日不一致 | 格式转换、规则校验、以权威来源修正 |
| 格式不统一 | 日期有2026/06/18和2026-06-18两种写法 | 标准化、统一编码和字段格式 |
| 噪声 | 采集数据中混入无效字符或干扰值 | 过滤、平滑、清洗和质量规则约束 |
数据治理不是数据库管理员改几个字段
数据治理这一块,很多同学会理解得太窄,以为就是“数据库表设计得规范一点”。但考试里的数据治理,更多强调组织层面的规则和机制:谁对数据负责,数据标准怎么定,主数据怎么统一,元数据怎么管理,质量问题怎么发现和闭环,敏感数据怎么分类保护。
比如一个集团有多个业务系统,客户编码各写各的、产品名称口径不一致、部门报表数字对不上,这时不是简单让某个开发改字段,而是要建立统一的数据标准、主数据管理、数据质量规则和责任机制。题干里如果出现“跨部门共享、统一口径、数据责任、数据标准”,大概率是在考治理思路。
| 概念 | 主要解决什么 | 容易混淆的地方 |
|---|---|---|
| 主数据 | 客户、产品、供应商、组织等核心对象的一致口径 | 不是普通业务流水数据 |
| 元数据 | 描述数据的数据,比如字段含义、来源、格式、口径 | 不是业务数据本身 |
| 数据标准 | 命名、编码、格式、指标口径的统一规则 | 不是某个人习惯怎么写 |
| 数据质量管理 | 发现、度量、修正和预防质量问题 | 不是一次清洗完就结束 |
| 数据责任 | 明确数据拥有者、管理者和使用者职责 | 不是全都推给技术部门 |
| 数据安全治理 | 分类分级、授权、脱敏、审计和合规 | 不是只买安全设备 |
分级分类和脱敏:先看敏感程度和使用场景
数据安全类题目,不能一看到“敏感数据”就只选加密。加密、脱敏、访问控制、审计、备份都有各自的使用场景。分级分类先回答“这类数据重要到什么程度、泄露后影响多大”;访问控制回答“谁能看、能看多少”;脱敏回答“在不暴露原始敏感内容的情况下,能不能满足展示、测试或分析需要”。
举个很常见的场景:生产库里的手机号、身份证号要给测试人员排查问题。如果测试人员并不需要真实号码,就不应该把完整明文直接开放给他。更合适的表达是按敏感级别确定访问权限,对展示或测试场景进行脱敏,并保留必要审计。
| 措施 | 适合解决的问题 | 题干关键词 |
|---|---|---|
| 数据分级分类 | 判断数据敏感程度和保护要求 | 核心数据、重要数据、个人信息、泄露影响 |
| 访问控制 | 限制谁能访问、能做什么操作 | 权限、角色、最小授权、越权访问 |
| 数据脱敏 | 隐藏或替换敏感字段以便展示、测试、分析 | 手机号、身份证号、测试环境、展示给外包 |
| 加密 | 防止数据在存储或传输中被直接读懂 | 密文、传输安全、存储保护 |
| 审计 | 保留访问和操作痕迹,便于追溯 | 谁查看过、谁导出过、日志、追责 |
| 备份恢复 | 防止数据丢失后无法恢复 | 误删、故障、容灾、恢复演练 |
数据挖掘和分析:先看任务目的
数据挖掘题也不要只背算法名。考试更多会从任务目的入手:如果题干要判断某个用户属于哪一类,多半是分类;如果要估计未来销量或工期,多半是预测;如果没有预先类别,只想把相似对象分组,多半是聚类;如果想发现“买了A的人经常也买B”,多半是关联规则。
这类题最常见的错法,是把聚类和分类混在一起。分类通常有已知标签,比如“高风险客户、低风险客户”;聚类通常没有事先标签,是让数据自己分组。题干如果没有给类别,而是说根据相似性自动分群,就不要硬选分类。
| 任务 | 一句话判断 | 典型例子 |
|---|---|---|
| 分类 | 已有类别,让新对象归类 | 判断客户是高风险还是低风险 |
| 预测 | 根据历史数据估计未来数值 | 预测下月销售额、故障概率 |
| 聚类 | 没有预设类别,按相似性分组 | 把用户自动分成若干群体 |
| 关联规则 | 发现事物之间经常同时出现的关系 | 购物篮分析、A和B经常一起购买 |
| 离群点检测 | 找出明显不同于大多数样本的数据 | 异常交易、异常登录、异常设备数据 |
| 汇总描述 | 把数据规律用统计或可视化方式呈现 | 报表、趋势图、指标看板 |
这一章怎么练:把题干贴到数据生命周期上
第6章复习时,不建议今天背一个数据湖,明天背一个数据仓库,后天背一个数据治理。更好的办法,是每做一道题都给它贴一个生命周期标签:采集、预处理、质量、治理、安全、分析、应用。贴完标签再看选项,很多干扰项就会失去迷惑性。
本站适合先看讲解,把概念边界理清楚;如果后面想按章节连续刷系统集成第三版题,可以用书木兰软考题库做第6章相关练习,网址是 https://www.shumulan.com/。这一章真正要练出来的能力,不是背多少数据名词,而是看到一个业务数据问题,能判断它属于质量、治理、安全还是应用。
相关题目解析
下面这些题目和本专题的判断方法关联较强,适合读完概念后回到具体题干里校验理解。
- 身份证年龄与生日不一致应采用什么数据处理方法?2025年下半年学员回忆版 / 数据工程
- 根据历史用户行为预测下单概率属于哪种数据挖掘方法?2025年下半年学员回忆版 / 数据工程
- 哪些组合属于有效的数据脱敏措施?2025年下半年学员回忆版 / 数据工程