使用多进程结合Dify大模型清洗HTML数据

利用Python的多进程机制、Selenium浏览器自动化工具,以及Dify平台的大语言模型(LLM)来批量清洗HTML文件中的数据。项目的目标是从一批本地HTML文件中提取关键信息(如标题、代码示例、解释等),并将其结构化为JSON格式。 核心思路 使用Selenium加载本地HTML文件,获取页


清除Python代码注释的脚本

在日常开发和学习中,Python代码中的注释有时会影响代码的阅读体验或者我们需要让我们的代码看着很厉害让别人看不懂所以我开发了一个轻量级的注释清理工具,帮助开发者快速生成干净的代码版本。 工具特性 智能识别注释类型 基于Python标准库tokenize


智能重命名脚本

我为什么写这个脚本 在日常工作和影音文件整理中,我经常遇到这样的困扰:数百个文件需要按照统一格式重命名,例如: DVWA-CSRF漏洞详解-part1.mp4 DVWA_CSRF_02.avi 第三讲 csrf.mp4 ... 传统解决方案存在三个痛点: 手动命名效率低下,容易出错 现有工具难以智


Python内存压力测试小工具

工具简介 这个Python脚本实现了一个有趣的内存压力测试工具,通过可控的内存分配机制帮助开发者: 测试程序的内存承载能力 直观观察内存分配过程 验证系统的内存管理机制 def eat_memory(target_mb): # 使用字节串(b'0')作为最小存储单元(1字节) chu


数据清洗

数据清洗(Data Cleaning)是指在数据分析和建模之前,对数据进行检查、修正和转换,以提高数据质量和准确性的过程。数据清洗通常包括以下步骤: 处理缺失值 删除重复数据 纠正数据类型 处理异常值 通过数据清洗,我们可以确保数据集更适合后续的分析或机器学习任务。 Python 数据清洗示例 Ti


Pandas基础操作

Series 和 DataFrame 简介 在 Python 的pandas库中,DataFrame是一个二维的、带标签的数据结构,非常适合处理表格类型的数据(类似数据库表或 Excel 表格)。它由行和列组成,每一行和每一列都有对应的标签。Series则是一个一维的、带标签的数组,可以看作是Dat


Python基础(1)

数据结构 Python有四种主要的内置数据结构:列表(List)、元组(Tuple)、集合(Set)和字典(Dictionary)。以下是它们的定义和基本操作示例: 列表 特点是:有序、可变 myList = [1,2,3] myList.append(4) print(myList) 元组 特点: