Shell批量采集百度下拉框关键词

最近在折腾shell玩,主要是做日志分析用,当然也可以用来采集百度下拉框关键词以及相关搜索等等。

 

想要使用shell采集百度下拉框关键词,Windows10的需要安装Ubuntu,其他系统安装cygwin等Linux的虚拟机环境。

 

安装完成之后,还需用到curl模块,因为我是deepin系统,所以无需安装,检查一下就行。

 

输入 curl --help 检测是否安装成功。

 

显示已经安装成功,我们先测试采集单个关键词。

curl模块安装

 

一、shell采集单个关键词

代码如下:

curl -s "https://sp0.baidu.com/5a1Fazu8AA54nxGko9WTAnF6hhy/su?wd=shell"|iconv -f gbk -t utf-8|awk -F":" '{print $4}'|grep -oP '(?<=").*?(?=")'|sed 's/,//g'

 

采集效果:

shell采集单个关键词

 

二、shell批量采集关键词

批量采集下拉框关键词代码:

cat ok.txt|while read line;do curl -s "https://sp0.baidu.com/5a1Fazu8AA54nxGko9WTAnF6hhy/su?wd=$line"|iconv -f gbk -t utf-8|awk -F":" '{print $4}'|grep -oP '(?<=").*?(?=")'|sed 's/,//g';done >kws.txt

 

采集效果:

shell批量采集关键词

 

将它打印到记事本中:

记事本

 

注意:使用批量采集的时候,文件一定要清除编码,可以使用notepad++把格式转换为UTF-8无BOM(菜单-格式-转为UTF-8无BOM编码格式)

 

百度PC搜索下拉最新接口:https://www.baidu.com/sugrec?&json=1&prod=pc&wd=关键词

 

360PC搜索下拉接口:http://sug.so.360.cn/suggest?callback=suggest_so&encodein=utf-8&encodeout=utf-8&format=xml&word=关键词

 

搜狗PC搜索下拉接口:http://www.sogou.com/suggnew/ajajjson?key=shell&type=web

赞赏

微信赞赏支付宝赞赏

相关文章