使用多进程结合Dify大模型清洗HTML数据

利用Python的多进程机制、Selenium浏览器自动化工具,以及Dify平台的大语言模型(LLM)来批量清洗HTML文件中的数据。项目的目标是从一批本地HTML文件中提取关键信息(如标题、代码示例、解释等),并将其结构化为JSON格式。 核心思路 使用Selenium加载本地HTML文件,获取页