使用多进程结合Dify大模型清洗HTML数据
利用Python的多进程机制、Selenium浏览器自动化工具,以及Dify平台的大语言模型(LLM)来批量清洗HTML文件中的数据。项目的目标是从一批本地HTML文件中提取关键信息(如标题、代码示例、解释等),并将其结构化为JSON格式。 核心思路 使用Selenium加载本地HTML文件,获取页
利用Python的多进程机制、Selenium浏览器自动化工具,以及Dify平台的大语言模型(LLM)来批量清洗HTML文件中的数据。项目的目标是从一批本地HTML文件中提取关键信息(如标题、代码示例、解释等),并将其结构化为JSON格式。 核心思路 使用Selenium加载本地HTML文件,获取页
LLM 核心参数配置 随机性控制参数 参数 作用原理 低值效果 高值效果 适用场景 使用建议 温度