数据清洗

数据清洗(Data Cleaning)是指在数据分析和建模之前,对数据进行检查、修正和转换,以提高数据质量和准确性的过程。数据清洗通常包括以下步骤: 处理缺失值 删除重复数据 纠正数据类型 处理异常值 通过数据清洗,我们可以确保数据集更适合后续的分析或机器学习任务。 Python 数据清洗示例 Ti


结构化数据与非结构化数据定义

结构化数据 定义 指那些具有预定义格式、高度组织化、易于搜索和分析的数据。这类数据通常存储在关系型数据库中,采用表格形式(行和列)存储。 核心特征 固定的模式: 数据有明确的结构和数据类型(如整数、字符串、日期、布尔值等)。 表格


XML基础概念​

可扩展标记语言(eXtensible Markup Language),用于存储和传输结构化数据。 特点 标签可自定义(与HTML固定标签不同) 严格区分大小写 是纯文本格式,独立于平台和语言 应用场景 配置文件(如Spring)、Web服务(SOAP)、数据交换(如RSS


Map和数组的不同

在编程中,数组(Array)和映射(Map,或称字典、哈希表)是两种常用的数据结构,但它们的特性、用途和实现方式有显著差异。以下是两者的主要区别: 存储结构 数组 • 存储连续内存空间中的一组元素,元素通过整数索引(如 0, 1, 2...)访问。 • 元素类型通常统一(如整数数组、字符串数组)。