当我们得到目标后,我们考虑对网站的 JS 文件、源代码等等进行查看
这个文件告诉搜索引擎他们允许和不允许在其搜索引擎中显示那些页面,或者禁止特定的搜索引擎抓取该网站
指导爬虫程序
http://IP/robots.txt # 一般的访问位置
网站图标: 显示在浏览器的地址栏或选项卡上,用于标记网站
一般来说我们可以通过网站图标来分辨出网站的 CMS 以及目标是谁
一般来说当你访问过网站图标来保存在本地缓存中,所以我们可以通过对网站图标缓存的响应时间来查看用户是否访问过目标网站
与 Robots.txt 文件不同,sitemap.xml 文件列出了网站所有者系统在搜索引擎上列出的每个文件
我们可以从 HTTP 头部信息中知道目标的一些信息