得感谢这个作者。挺好。 https://github.com/sylvinus/node-crawler 按照网站例子做,一取中文页面。乱码。 bing, baidu一番。 得到的结果不理想。但知道
得感谢这个作者。挺好。
https://github.com/sylvinus/node-crawler
按照网站例子做,一取中文页面。乱码。
bing, baidu一番。
得到的结果不理想。但知道官关键词是iconv。
看了一眼crawler.js代码原来做好了。
只是初始化要设置options的属性。forceUTF8为true。 incomingEncoding为gb2312。
源代码中有TODO注释就分析 html中的内容得到编码。希望读到此文的同学实现一下。
var Crawler = require('crawler');
var url = require('url');
var fs = require('fs');
var c = new Crawler({
maxConnections:1,
debug:true,
forceUTF8:true, //
incomingEncoding:'gb2312',
callback:function(error,result,$) {
//console.log($.html());
fs.writeFileSync('sina.html', $.html(), 'utf8');
$('a').each(function(index, a) {
var href = $(a).attr('href');
//console.log(href);
});
},
});
console.log('Start, Crawler!');
c.queue('http://news.sina.com.cn/area/tw.shtml');