结构化数据

定义

指那些具有预定义格式、高度组织化、易于搜索和分析的数据。这类数据通常存储在关系型数据库中，采用表格形式（行和列）存储。

核心特征

固定的模式： 数据有明确的结构和数据类型（如整数、字符串、日期、布尔值等）。
表格化： 以行（记录）和列（字段/属性）的形式组织，就像 Excel 表格或数据库表。
易于查询和计算： 可以使用 SQL 等查询语言高效地搜索、过滤、排序、聚合和计算数据。
机器友好： 程序（尤其是数据库管理系统）可以非常容易地读取、理解、处理和存储它。

常见来源/示例：
- 关系型数据库： MySQL, PostgreSQL, Oracle, SQL Server 等存储的数据（如客户信息表：客户ID， 姓名， 电话， 地址）。
- 电子表格： Microsoft Excel, Google Sheets 中符合表格结构的数据。
- 在线表单提交的数据。
- 交易数据： 银行交易记录、销售订单。
- 传感器读数： 具有特定时间戳和数值类型的物联网设备数据。
比喻： 像一本排列整齐、按字母顺序索引的电话号码簿，或者像图书馆里分类清晰（按杜威分类法）摆放的书籍。你可以根据索引迅速、精确地找到所需信息。

非结构化数据

定义

指那些没有预定义格式或组织方式的数据。它不像结构化数据那样存在于固定的行和列中，格式通常不规则且内容各异。

核心特征

没有固定模式： 数据缺乏统一的格式、结构和约束。
格式多样且复杂： 包含文本、图像、音频、视频等多种形态。
难以搜索和分析： 传统数据库和查询语言（如SQL）无法直接处理其内容。需要借助专门的技术（如自然语言处理NLP、计算机视觉、机器学习、文本分析、数据挖掘、复杂模式识别）才能提取有意义的信息。
体量大： 非结构化数据构成了互联网和企业数据的绝大部分（估计超过80%）。
人类友好（原生状态）： 其原始形式通常是为人类理解或消费而设计的。

常见来源/示例：
- 文本数据： 电子邮件内容、社交媒体帖子（微博、微信、Twitter）、Word文档、PDF文档、网页内容、书籍、聊天记录。
- 富媒体数据：
  - 图像/图片： 数码照片、扫描件、医疗影像（X光片、MRI）。
  - 音频： 电话录音、音乐文件、会议录音、播客。
  - 视频： 监控录像、电影、电视节目、短视频、视频会议录像。
- 传感器数据（部分）： 某些日志文件、机器生成的非标准化数据。
比喻： 像一屋子散落的、没有标签和分类的纸张，上面可能有信件、照片、便签、报告手稿；或者像你在社交媒体上随意浏览的海量图片和视频流。想要找到特定信息或总结模式非常困难，需要“阅读”内容本身或借助复杂工具。

简单对比表

特性	结构化数据	非结构化数据
格式	预定义的，固定的（表格/行-列）	没有预定义格式，不规则
组织性	高度组织化	缺乏组织，杂乱
存储	关系型数据库 (SQL)	非关系型数据库 (NoSQL)，数据湖，文件系统
数据类型	主要是数字、日期、字符串等标量	文本、图像、音频、视频、PDF等
可搜索性	非常容易（通过SQL等）	困难（需要NLP、CV等技术）
分析难度	相对容易（可直接计算统计）	非常困难（需复杂处理）
技术	SQL 查询	NLP, 机器学习, 计算机视觉, 文本挖掘
占比	相对较小	非常大（占现代数据的80%以上）
示例	数据库表、Excel 表格	电子邮件正文、社交媒体帖子、照片

总结

结构化数据 = 整齐 + 易查 + 易算。 适用于标准化的信息存储和高效率的查询统计。比如财务系统、库存管理。
非结构化数据 = 杂乱 + 量大 + 信息深。 蕴含巨大价值但挖掘困难，需要人工智能等技术支撑。比如分析客户评价情感、识别监控录像中的异常、构建智能搜索。
理解这两者的区别对于数据存储、管理和分析策略的制定至关重要。数据湖等概念的兴起就是为了更好地存储和处理非结构化数据。

The cover picture of the previous content

一些算法题目

The cover picture of the next content

Pandas基础操作