文章分类 | 推荐文章 | 最新文章 | 热点文章 | 最新软件 | 国产软件 | 国外软件 | 汉化补丁 | 设为首页 | 加入收藏
业界资讯 | 图形图像 | 操作系统 | 网络冲浪 | 工具软件 | 办公软件 | 媒体动画 | 精文荟萃 | 认证考试 | 网站建设 | 技术开发 | 专栏
当前位置:abcdown网络学院网站建设建站交流网站生成静态页面,及网站数据采集的攻、防原理和策略
精品广告
推荐TOP10
·Google Map 代码
·如何建立自己的博客
·网站的推广与策划 与如何建立一个网站?规划、宣传等
·站长群大全
·个人网站qq群大全 中国最全的个人网站站长qq群
·18个优秀的在线图片编辑服务网站
·TOM.COM网站首页改版的体验感受
·了解Web2.0时代的网络推广方式
·网站制作过程中把握的几点
·国内设计网站
阅读TOP10
·如何建立一个网站?规划、设计、目的、原则、宣传
·世界各地域名后缀对照表 世界各国域名表
·IT公司红黑榜
·个人网站qq群大全 中国最全的个人网站站长qq群
·如何建立自己的博客
·网站的推广与策划 与如何建立一个网站?规划、宣传等
·500M永久免费ASP虚拟主机
·2005年上半年,国内知名的个人网站
·中文网站排行五百强
·站长群大全

网站生成静态页面,及网站数据采集的攻、防原理和策略

日期:2006年10月29日 作者: 查看:[大字体 中字体 小字体]


调用方法:
GetBody(文件的URLf地址)
这样获取的数据内容还需要进行编码转换才可以使用


CODE:[Copy to clipboard]Function BytesToBstr(body,Cset)
'-----------------翟振恺(小琦)
    dim objstream
    set objstream = Server.CreateObject("adodb.stream")
    objstream.Type = 1
    objstream.Mode =3
    objstream.Open
    objstream.Write body
    objstream.Position = 0
    objstream.Type = 2
    objstream.Charset = Cset
    BytesToBstr = objstream.ReadText
    objstream.Close
    set objstream = nothing
'-----------------翟振恺(小琦)
End Function

调用方法:BytesToBstr(要转换的数据,编码)'编码常用为GB2312和UTF-8
二、从获取代码中提取所有用的数据
目前我掌握的方法有:
1、用ASP内置的MID函数截取需要的数据


CODE:[Copy to clipboard]Function body(wstr,start,over)
'-----------------翟振恺(小琦)
start=Newstring(wstr,start)
'设置需要处理的数据的唯一的开始标记
over=Newstring(wstr,over)
'和start相对应的就是需要处理的数据的唯一的结束标记
body=mid(wstr,start,over-start)
'设置显示页面的范围
'-----------------翟振恺(小琦)
End Function
调用方法:body(被采集的页面的内容,开始标记,结束标记)
2、用正则获取需要的数据


CODE:[Copy to clipboard]Function body(wstr,start,over)
'-----------------翟振恺(小琦)
Set xiaoqi = New Regexp'设置配置对象
xiaoqi.IgnoreCase = True'忽略大小写
xiaoqi.Global = True'设置为全文搜索
xiaoqi.Pattern = "”&start&“.+?”&over&“"'正则表达式
Set Matches =xiaoqi.Execute(wstr)'开始执行配置
set xiaoqi=nothing
body=""
For Each Match in Matches
body=body&Match.Value '循环匹配
Next
'-----------------翟振恺(小琦)
End Function
调用方法:body(被采集的页面的内容,开始标记,结束标记)
采集程序祥细思路:
1、取得网站的分页列表页的每页地址
目前绝大部分动态网站的分页地址都有规则,如:
动态页
第一页:index.asp?page=1
第二页:index.asp?page=2
第三页:index.asp?page=3
.....

静态页
第一页:page_1.htm
第二页:page_2.htm
第三页:page_3.htm
.....
取得网站的分页列表页的每页地址,只需要用变量替代每页地址的变化的字符即可如:page_<%="&page&"%>.htm

上一页 [1] [2] [3] [4] [5] 下一页 

上一篇:网页在线播放器代码大全

下一篇:IIS安装配置全攻略


相关软件: 相关文章:
·吴绮丽带成龙私生女露面(图)
·女性的外生殖器
·女大学生宿舍里的情色秘密
·男生英文名大全
·寄生前夜2 图文攻略
·《生化危机代号维罗尼卡》 - 生化危机4攻略秘籍 - 生化危机4
·单身生活2 游戏流程攻略

特别声明:本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员,我们尽快予以更正。
[打印本页] [关闭窗口] 转载请注明来源:http://www.abcdown.net
首页 | 本站声明 | 下载帮助 | 发布软件 |
中文版权所有:ABC学院 浙ICP备05000717号