侧边栏壁纸
博主头像
落叶人生博主等级

走进秋风,寻找秋天的落叶

  • 累计撰写 130562 篇文章
  • 累计创建 28 个标签
  • 累计收到 9 条评论
标签搜索

目 录CONTENT

文章目录

node.js 爬网页中文问题

2024-05-07 星期二 / 0 评论 / 0 点赞 / 58 阅读 / 1861 字

得感谢这个作者。挺好。 https://github.com/sylvinus/node-crawler 按照网站例子做,一取中文页面。乱码。 bing, baidu一番。 得到的结果不理想。但知道

得感谢这个作者。挺好。

https://github.com/sylvinus/node-crawler

 

按照网站例子做,一取中文页面。乱码。

 bing, baidu一番。

得到的结果不理想。但知道官关键词是iconv。

看了一眼crawler.js代码原来做好了。

只是初始化要设置options的属性。forceUTF8为true。 incomingEncoding为gb2312。

源代码中有TODO注释就分析 html中的内容得到编码。希望读到此文的同学实现一下。

 

 

var Crawler = require('crawler');
var url = require('url');
var fs = require('fs');

var c = new Crawler({
   maxConnections:1,
   debug:true,
   forceUTF8:true,                  //                    
   incomingEncoding:'gb2312',

   callback:function(error,result,$) {
       //console.log($.html());
       fs.writeFileSync('sina.html', $.html(), 'utf8');
       
        $('a').each(function(index, a) {
            var href = $(a).attr('href');
            //console.log(href);
        });
   },

});

console.log('Start, Crawler!');

c.queue('http://news.sina.com.cn/area/tw.shtml');

 

 

广告 广告

评论区