用户组 
易积分3372
热心0
好评0
|
本帖最后由 cxz11 于 2022-6-23 14:39 编辑
怎么取一个网站的多个网页的源码呀
比如 先取 主页 再取 列表页 再取内容页
把主页的网址取出来 进入 列表页 再从列表页进入内容页 一直循环完
就像火车头采集器哪个 采集网址 和 内容
-
- 事件 按钮1.被单击()
- 高级列表框1.清空项目()
- 多线程1.开始取网页源码(编辑框1.内容,"utf-8")
- 显示进度对话框("加载中...")
- 变量 网址 为 文本型
- 变量 数据 为 文本型
- 网址="http://ftp6532695.host127.sanfengyun.cn"
- 数据="zhujiwusysdomain=ftp6532695.host127.sanfengyun.cn"
- 置cookies("zhujiwusysdomain=ftp6532695.host127.sanfengyun.cn")
- 置附加协议头("User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36")
- 编辑框1.内容=发送网络数据(网址,"","utf-8",5000)
- 结束 事件
- 事件 多线程1.取网页源码完毕(主页网址 为 文本型)
- 变量 主页正则 为 文本型 = "<a href="(.*?)" style="text-decoration:none;">"
- 创建表达式(主页正则,真,假)
- 开始匹配(主页网址)
- 判断循环首 匹配下一个()=真
- 调试输出(取子匹配文本(1))
- 调试输出("=======================================================================================")
- 多线程2.开始取网页源码(编辑框1.内容 & 取子匹配文本(1),"utf-8")
- 判断循环尾
- 关闭进度对话框()
- 结束 事件
- 事件 多线程2.取网页源码完毕(源码 为 文本型)
- 调试输出("==========================================这里是 多线程2 =============================================")
- 变量 列表文本 为 文本型 = "4944506D9F5BB899E3D91658BE447A77DD0A80FF6FA4568E7166B7F61952A47532CFAA03C5068D1A92B910DD517996BFBFF02617F457710BC076D3E3074E71CDFFED2980DA9AD489CE4C9607ACD43ADC01C5F0BD170DC312619F73C4124E14666897288B474E0B72F688CD0C18FDBFDD753742188A2FF4E93C8062CF5713632FD65FB10F7E0EB149E9A9BAB1A3308A76216A7F18CDB34337929045719F4CF2A5083480628712765E5FF39C61A5ED1CEF61CEC97E9AF4349659174DAB36573CB64C5EE99846C1D814FBE7FEE70B8D80B7CCA158B3969EA371CD59ACCB0A97C19EECB7F4ECE52F17376A5534226C5B035C6975F58D026523FC6B8DEC8AA0F31EFB1CB8F8AD1FC6E83F82072CA0DA01DBC0691BB2CB92A43B956E502E038E385A3C22CF7340E1E7E976B088C8F02859E2FF76F234D767BF087F7611AF1C3B0A8FDC92ACBFD2FFFB22B237F5B408F5F66A5C44636FF94FE533E03BB0C8447B34"
- 创建表达式(RC4解密(列表文本,"66816381"),真,假)
- 开始匹配(源码)
- 调试输出("==========================================多线程2.取网页源码完毕 =============================================")
- 判断循环首 匹配下一个()=真
-
- 调试输出("==========================================这里是 多线程2 =============================================")
- 调试输出("标题"%取子匹配文本(2))
- 判断循环尾
- 结束 事件
复制代码
多线程1的源码能取出来 就差个 多线程2 取的源码了 谁帮我看看 帮我改改呀?
|
|