老张是个刚玩爬虫没多久的新手。前一天晚上,他在某个“免费代理网站”上扒了十几个IP,第二天一上班就兴冲冲写好脚本,准备爬一批电商数据交差。
结果程序刚跑不到五分钟,页面直接弹出一行刺眼的红字:“您的请求存在异常,暂时无法访问。”
他翻了下日志——IP被封了。问题出在哪?
其实老张就少做了一步。这一步只要提前做,能直接过滤掉80%以上的垃圾IP。

不是能连上的IP,就一定能用
很多人拿到代理IP的第一反应:直接填进脚本、填进软件,跑起来再说。
这就跟你在路边捡把钥匙,不管三七二十一就往锁孔里捅一样——也不管这钥匙是哪的、锈没锈、会不会直接断在里面。
正确的第一步,是先给这个IP做一次“入职体检”。
体检就看三样:能不能连通、响应快不快、匿不匿名。这三点直接决定这个IP是能干活的帮手,还是只会添乱的坑货。
先测连通性。别用浏览器测,浏览器会自动加载图片、样式、脚本,结果不准。最干净的方法就是开命令行,用 curl 发个简单请求:
curl -x 112.89.63.207:8080 -o /dev/null -s -w '耗时: %{time_total}s\n' http://httpbin.org/ip耗时在3秒以内,才算基本能用。超过5秒,或者直接报错,直接删掉,别犹豫。
再看返回的IP是不是你设置的代理IP。访问httpbin.org/ip 会直接返回你当前的出口IP。如果返回的IP跟你填的代理对不上,说明代理根本没生效,你的真实IP早就暴露了。
三个指标,筛掉90%没用的IP
连通性只是第一道门槛,筛掉的是完全死了的IP。接下来要筛的是看着能用、实际坑人的那种。
第一个指标:响应速度。
有些IP能连上,但慢得离谱。用上面的 curl 多跑几次,算个平均值。超过3秒的,直接pass。
免费IP本来就不稳定,再用个慢的,爬取效率还不如你手动点。
第二个指标:稳定性。
连续发10次请求,记录每次耗时。如果一会儿0.5秒,一会儿5秒,一会儿直接超时——这种就是“抽风IP”,千万别用。
写爬虫最忌讳IP忽快忽慢,超时时间都没法设置。
第三个指标:匿名性。(最关键)
打开 ip.sb、browserleaks.com 这类网站看一看。
重点看两件事:
- 显示的IP是不是你的代理IP
- 请求头里有没有暴露 X-Forwarded-For、Via 这类字段
如果里面出现了你真实IP,那就是透明代理,等于你没穿衣服在裸奔。
高阶一点:给IP“查户口”
基础体检做完,如果这个IP要用于正式业务,还可以再查一查它的“底细”。
用 ip-api.com、whois 这类工具,输入IP查一下。重点看两个:
1. IP归属类型
看 org 字段:
- 写着 AWS、阿里云这类,就是机房IP,速度快,但容易被识别封禁
- 写着电信、联通、小区宽带,就是住宅IP,伪装性好,但速度一般
2. IP历史记录
有些工具能查到这个IP有没有被拉黑、有没有发过垃圾邮件、有没有进过黑名单。
免费代理里一大堆这种“有案底”的IP,用它去访问重要网站,跟开套牌车上高速没区别。
排完雷,才轮到“怎么用”
做完上面这些,一个免费代理靠不靠谱,基本就清楚了。这时候再决定:留着用,还是直接扔。
就算留下来,也别直接上正式业务。先拿个小网站跑半天,观察几个信号:
- 能打开页面,但图片加载不全 → 带宽不够
- 突然疯狂出验证码 → IP或IP段已经被标记
- 上午能用,下午失效 → 存活时间太短,干不了长任务
只要出现一个,别死磕。在免费代理的圈子里:换一个,比修一个快得多。
老张后来就学乖了。他把那些免费代理站的IP全扔了,换了个思路:找正规代理服务商,领点免费测试额度,再用上面这套方法挨个测。
测完他才明白:收费的不一定都好用,但免费的,十个里九点九个是坑。剩下那半个,要么慢得没法用,要么半小时就失联。
他还记得那天IP被封后,技术总监路过他工位,瞟了一眼日志,只说了一句:“免费IP,就跟街边发的免费安全套——你敢用,我不敢看。”
后来老张把这句话写在了笔记本第一页。每次想往代码里填免费代理的时候,都先翻开看一眼。
