💎一站式轻松地调用各大LLM模型接口,支持GPT4、智谱、星火、月之暗面及文生图 广告
**1. 对响应中含有的数据进行特殊化处理** 通常的特殊化处理主要指的就是:css数据偏移/自定义字体/数据加密/数据图片/特殊编码格式等。这是最常用的反爬措施。 * 通过自定义字体来反爬,下图来自猫眼电影电脑版 ![](https://img.kancloud.cn/48/24/482465437c3bd263708938684d593848_1646x772.png) ![](https://img.kancloud.cn/ee/c7/eec76e071bb6c365891dabeeca160fe4_1583x769.png) * 反爬思路:使用自有字体文件 * 解决思路:切换到手机版/解析字体文件进行翻译 ![](https://img.kancloud.cn/b5/82/b58246c92a93bc6797b02f28c2b99afd_1491x404.png) :-: 切换到手机版 * 通过css来反爬,下图来自去哪儿电脑版 ![](https://img.kancloud.cn/0c/01/0c01c263060a8e557eb3ac5addac0005_1041x585.png) * 反爬思路:源码数据不为真正数据,需要通过css位移才能产生真正数据 * 解决思路:计算css的偏移 * 通过js动态生成数据进行反爬 * 反爬原理:通过js动态生成 * 解决思路:解析关键js,获得数据生成流程,模拟生成数据 * 通过数据图片化反爬 * 反爬原理:将是将文本信息用图片来显示 * 解决思路:通过使用图片解析引擎从图片中解析数据 * 通过编码方式进行反爬 * 反爬原理:不适用默认编码格式,在获取响应之后通常爬虫使用utf-8格式进行解码,此时解码结果将会是乱码或者报错 * 解决思路:根据源码进行多格式解码,或者真正的解码格式