技术解析

今天看见一个奇怪的网页显示
0
2021-06-01 16:26:57
idczone

浏览一个网站, 复制文字后发现是乱码, 但是网页却显示正常, F12 看了下网页文档源码, 确实是乱码, 但是 Chrome 浏览器渲染显示时为什么又正常了呢? 这个防爬虫的技术还是第一次见.

gjqJs0.png

抓取网络请求, 服务器返回的是这段文字 A:

[(] |tscl6qaa| [、] |tco63lkb| [、] |clh6lq91| [、] |jcg6rpb9|cs6mifl7| [专] |stcp6s24|美国服务器jcpnj688|hpjtc6f6|skqpc6f7|lc6olrd0| [可] | [为] |tckp6eh7|ric6fkr7| [或] | [相] |ic6q8lo8|ckr6hif7|sokjc6d0| [,] |lcplh649| [他] | [专] |ocn6t2m4| [考] |c6skqci7| [入] | [校] |co6in4l5|pc6sjg46| [外] |hc6gfkm7|cr6nmaj4|c6js7lo4|mct6orf7|cmg6kid0| [为] |nlocj6e7|cln6gof7| [。] | [)] |

然后应该是经 JS 处理下, DOM 里面变成下面这段文字 B:

욷南왯왴(왝욛웚单列专오왉它)(఼఺఺ఴ)((욪、옻、욑、욹웷专오욈웶웷원可为웧웷或相욈웷원왉他专오考웇入校왅왆外웷욤왴웷원为웧웷。))



最后渲染到显示器上是正常文字 C. 这段文字即经过了 A → B → C 的转化.

很好奇 B → C 实现的原理?


换了特殊字体

应该是字体. 看看如果每次都一样的话可以自己存个映射.

百度文库是不是也是这样技术啊

确实, 刚看了 css 样式里面是 `font-family: cntext5!important;`

记得斗鱼里的数字也是这样的

硬要爬就 OCR 一把梭……

特殊字体, 一般为了防爬虫

字体反爬,从这篇了解到的 https://cjting.me/2020/07/01/douyu-crawler-and-font-anti-crawling/

长见识了

长见识了

这招现世好久了,以前少人用是因为中文字多,字体文件大,网速慢
后来有人学乖了,不需要全部中文都替换,替换部分频率高的字就足够了,只要“机器阅读困难”就可以了

学习了

这个写的真好!

数据地带为您的网站提供全球顶级IDC资源
在线咨询
专属客服