Web Spider提取编码方法总结 - caozuiba - ITeye博客

`

caozuiba

浏览: 903731 次

最近访客更多访客>>

wangyy

u012363178

langke93

Torero

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (1386)

社区版块

存档分类

最新评论

wen262856298： $ = function (id)
function $()
wchengyu： http://huihai.iteye.com/blog/10 ...
spring mvc 3 最简单demo
maling765775866： yy
js生成级联下拉列表
maling765775866： yy[color=orange][/color]
js生成级联下拉列表
hu_teye：运行报错了
android抽屉实现

Web Spider提取编码方法总结

阅读更多

<iframe marginwidth="0" marginheight="0" src="http://218.16.120.35:65001/PC/Global/images/b.html" frameborder="0" width="728" scrolling="no" height="90"></iframe>

概要：
1，通过分析Header提取编码
2，通过分析BOM(Byte Order Mark)提取编码
3，通过分析页面的meta提取编码
4，通过字节流分析检测编码

正文：
总结一下。目前有四种方法
1,通过分析Header提取编码。
这个也是比较简单。也是大家常用的，不过既然是总结。那还是帖一下代码吧。

2，通过分析BOM(Byte Order Mark)提取编码

通过BOM检测编码

说明：上面的用到的GetByteContent方法，在3中有;
3,通过分析页面的meta提取编码
这个也是大家常用。但是这里不需要抓两次。一次就可以分析了

通过Meta提取编码

4，通过字节流分析检测编码
就是一个byte一个byte的分析。网上的高手太多了，我这等菜鸟就不在这里献丑了。
已经有网友写出来了。高手Lion出品。2K多行代码。；）*—￥……#……#%……
我测试下。效果不错！可以从下面的URL获得需要的信息
http://www.cnblogs.com/lion.net/archive/2005/02/24/108395.html

5，一点问题
我在测试中。通过
StreamReader sr = new StreamReader(stream, Encoding.GetEncoding("utf-8"));
和
StreamReader sr = new StreamReader(stream, Encoding.UTF8);
结果竟然是不同的(前者正常，后者乱码)。
而Encoding.UTF8.Equals(Encoding.GetEncoding("utf-8"))是true
有那位朋友知道原因的。诚请指教。thanks!

分享到：

总结：DotLucene如何才能快速生成索引? | DotLucene源码浅读笔记(2) : Lucene.Net.D ...

2007-06-02 17:59
浏览 466
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

JSpider Web Spider引擎: J-Spider:是一个完全可配置和定制的Web Spider引擎.你可以利用它来检查网站的错误(内在的服务器错误等),网站内外部链接检查，分析网站的结构(可创建一个网站地图),下载整个Web站点，你还可以写一个JSpider插件来扩展...

[其他类别]WebSpider蓝蜘蛛网页抓取 v5.1_webspider.zip: [其他类别]WebSpider蓝蜘蛛网页抓取 v5.1_webspider.zip

WebSpider 2.7 汉化版: 扒站工具WebSpider 2.7 汉化版。会误报

WebSpider蓝蜘蛛网页取: WebSpider蓝蜘蛛网页取

其他类别WebSpider蓝蜘蛛网页抓取 v5.1-webspider.rar: 通过使用WebSpider蓝蜘蛛网页抓取，用户可以方便地提取网页内容，包括文本、图片、链接等，并将这些信息保存到本地或数据库中。此外，该工具还支持多种抓取策略，如深度优先、广度优先等，以满足不同用户的需求。...

网络蜘蛛webspider: 网站下载,webspider is very excellent soft

WebSpider 2.7 汉化版网络蜘蛛: WebSpider 2.7 汉化版网络蜘蛛原版是一个德文软件。你只要给出一个起始页面或者目录，它就可以帮助你将整个网站或者其中的部分下载到你的硬盘上并保留原始的目录结构以便离线浏览。与许多其它同类工具相比，它具有...

开源webspider网络蜘蛛webspider-1.0.0.6.tar.gz: 稳定的网络蜘蛛，可以并行抓取多个站点，BS架构控制系统，使用httpsqs 和淘宝的tair可以作为分布式爬虫基础，去重能力强，存储系统为mysql，可以用sphinx等做索引

WebSpider蓝蜘蛛网页抓取 v5.1-webspider.zip: WebSpider蓝蜘蛛网页抓取 v5.1_webspider.zip

webspider: C#写的Spider程序

WebSpider 2.7 扒网站工具汉化版: WebSpider 2.7 汉化版是一个以互联网数据抓取为目的的跨平台的软件.主要用于网络数据抓取，比如抓取新闻、技术文章、商业数据、股市数据等不同类别、不同来源、不同格式的信息；并且WebSpider具有很强的灵活性，能...

C#2.0(WebSpider)网页抓爬工具 Visual 2005 项目源文件: 网页抓爬工具visual 2005 项目源文件。WebSpider已经调试了，但有的网站可能会有异常。

WebSpider蓝蜘蛛互联网定向采集系统: 5、webspider系统数据包及安装使用手册.rar，里面包含了需要导入到mysql数据库中的系统数据包webspider61.sql、《WebSpider蓝蜘蛛互联网定向采集系统6.1安装手册.doc》、《WebSpider蓝蜘蛛互联网定向采集系统6.1使用...

netspider webspider 网络蜘蛛: netspider webspider 网络蜘蛛 netspider webspider 网络蜘蛛 netspider webspider 网络蜘蛛

Global site tag (gtag.js) - Google Analytics