cxz11 发表于 2022-6-23 12:56:53

怎么取一个网站的多个网页的源码呀

本帖最后由 cxz11 于 2022-6-23 14:39 编辑

怎么取一个网站的多个网页的源码呀

比如先取 主页再取列表页   再取内容页

把主页的网址取出来 进入 列表页再从列表页进入内容页一直循环完

就像火车头采集器哪个采集网址 和 内容


       
        事件 按钮1.被单击()
        高级列表框1.清空项目()
        多线程1.开始取网页源码(编辑框1.内容,"utf-8")
        显示进度对话框("加载中...")       
                变量 网址 为 文本型
                变量 数据 为 文本型
        网址="http://ftp6532695.host127.sanfengyun.cn"
        数据="zhujiwusysdomain=ftp6532695.host127.sanfengyun.cn"
        置cookies("zhujiwusysdomain=ftp6532695.host127.sanfengyun.cn")
    置附加协议头("User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36")
        编辑框1.内容=发送网络数据(网址,"","utf-8",5000)
结束 事件
事件 多线程1.取网页源码完毕(主页网址 为 文本型)
       变量 主页正则 为 文本型 = "<a href=\"(.*?)\" style=\"text-decoration:none;\">"
        创建表达式(主页正则,真,假)
        开始匹配(主页网址)
        判断循环首 匹配下一个()=真
        调试输出(取子匹配文本(1))
        调试输出("=======================================================================================")
多线程2.开始取网页源码(编辑框1.内容 & 取子匹配文本(1),"utf-8")
                判断循环尾
        关闭进度对话框()       
结束 事件
事件 多线程2.取网页源码完毕(源码 为 文本型)
        调试输出("==========================================这里是多线程2   =============================================")
        变量 列表文本 为 文本型 = "4944506D9F5BB899E3D91658BE447A77DD0A80FF6FA4568E7166B7F61952A47532CFAA03C5068D1A92B910DD517996BFBFF02617F457710BC076D3E3074E71CDFFED2980DA9AD489CE4C9607ACD43ADC01C5F0BD170DC312619F73C4124E14666897288B474E0B72F688CD0C18FDBFDD753742188A2FF4E93C8062CF5713632FD65FB10F7E0EB149E9A9BAB1A3308A76216A7F18CDB34337929045719F4CF2A5083480628712765E5FF39C61A5ED1CEF61CEC97E9AF4349659174DAB36573CB64C5EE99846C1D814FBE7FEE70B8D80B7CCA158B3969EA371CD59ACCB0A97C19EECB7F4ECE52F17376A5534226C5B035C6975F58D026523FC6B8DEC8AA0F31EFB1CB8F8AD1FC6E83F82072CA0DA01DBC0691BB2CB92A43B956E502E038E385A3C22CF7340E1E7E976B088C8F02859E2FF76F234D767BF087F7611AF1C3B0A8FDC92ACBFD2FFFB22B237F5B408F5F66A5C44636FF94FE533E03BB0C8447B34"
        创建表达式(RC4解密(列表文本,"66816381"),真,假)
        开始匹配(源码)
调试输出("==========================================多线程2.取网页源码完毕   =============================================")
        判断循环首 匹配下一个()=真
               
        调试输出("==========================================这里是多线程2   =============================================")
        调试输出("标题"%取子匹配文本(2))
        判断循环尾
结束 事件

多线程1的源码能取出来   就差个 多线程2 取的源码了谁帮我看看   帮我改改呀?

617390720 发表于 2022-6-23 23:22:41

钱+问题=解决

tiezuiwang 发表于 2022-6-24 18:36:45

建议使用ok取网页源码

pte4a 发表于 2022-6-25 14:28:41

很容易的,自己想想就会,简单问题。这种小问题建议别浪费钱!!!

吾甚吊丶耐何 发表于 2022-6-25 17:28:04

617390720 发表于 2022-6-23 23:22
钱+问题=解决

解决的方法很好很直接{:4_108:}

617390720 发表于 2022-6-26 13:25:27

本帖最后由 617390720 于 2022-6-26 13:26 编辑

--------------------------------

617390720 发表于 2022-6-26 13:26:11

吾甚吊丶耐何 发表于 2022-6-25 17:28
解决的方法很好很直接

尽想白嫖,白嫖不说,嫖完了谢谢都不会说。搞鸡仔。

pq9999 发表于 2022-6-29 07:07:22

法国梵蒂冈的规定

q616566704 发表于 2022-6-29 08:13:44

多线程采取

牛粪 发表于 2022-7-3 10:35:38

嵌套不就行了
页: [1]
查看完整版本: 怎么取一个网站的多个网页的源码呀