文章末尾有录屏
得益于Thor的强大功能,给追书神器添加换源功能,早在一个月前就实现了。从最开始完全搞不懂Thor的用法到现在能完整的写一个过滤器出来还是有很大进步的,刚开始我觉得写一个过滤器需要许多专业知识…然后就退缩了,很长时间没有去理会这个。后来去学Python爬虫的时候发现需要抓包,所以又拿出了这个工具,手机用Thor,电脑用Fiddler,成功的写了几个还算有用的爬虫。
其实吧,使用Thor并不是很难,有耐心就够了,半天就可以熟练使用,但是真要弄出一个过滤器需要分析大量的请求信息,耐心才是最重要的。但是我有点困惑,这玩意!!花了我好多时间,到底有个什么用,哭了…
之前抓过追书神器的很多包了,现在一些常见的接口还是知道,当然,网上有人整理了追书神器的接口啦:Gayhub。不过这些接口没啥用….又不是写爬虫,要这个干嘛!!!
首先创建一个过滤器
没啥特殊的需要的话就用下面的配置就好了,在抓包的协议这块最常见的还是HTTP和HTTPS,而WS这种协议我只在哔哩哔哩的弹幕加载那里看到过(对于爬弹幕这件事没啥兴趣)。匹配HTTP
的方法的话也是GET / POST
比较常见,当然,抓追书神器的时候还见到了一个OPTIONS
方法,下面再说这个方法干嘛用的。还有其他配置先默认设置,还需要修改也只有域名和关键字那一块,填好这一块可以排除许多无用数据包。
1 | 过滤器名称:追书神器fix |
断点的设置
在Thor里面有一个挂载断点
的选项,如果一个过滤器没有断点就相当于没有灵魂(什么鬼…),Thor的强大之处就在于挂载断点,只是抓包的话还有很多其他的软件不比它差。断点的字面意思就是在此处断开连接,比如我打算访问一个网站www.google.com
,我就可以用断点设置一个TCP连接前的规则重定向到www.baidu.com
,意思呢就是在满足一点条件的情况下可以暂时断开连接然后执行具体的操作,最后再发起请求。当然也可以拦截响应信息体,修改之后再给软件,用的最多的就是这个了。
1 | 断点名称:nullptr |
实现具体的功能
其实吧,这个东西很简单,特别是追书神器,几乎没啥难度,只要抓包就能找到。书籍信息是存在他们服务器上面的,本地的软件只需要解析就行了,要解析的话就需要数据,而发起请求之后就有响应信息体,在回传的时候可以对其拦截并修改。对于换源功能,其实早期追书神器是都有换源的,后来越做越大,许多书籍不再提供盗版书源,而且加了很多广告…因此一般书能不能换源它应该是写的清清楚楚的,能换源我就开启换源接口,不能换源我就关闭,大概就是这样了。当然,一本书的信息里面是不可能说用中文写着“此书能换源”,可以参考下面一本书的具体信息:
1 | { |
其实吧,打开一本书的时候就有这个请求:https://*.zhuishushenqi.com/book/592fe687c60e3c4926b040ca
,域名有变动,固定的是后面的部分,那个字符串是追书神器给书编的id值,用get请求就能得到上面的json数据。基本上一本书的所有数据都在里面了,我们要做的就是在这个数据被追书神器拿到之前对它做一点点的修改即可。
对比了几本书,发现换源功能的开关由"_le": false
决定,这个值为false的书不能换源,反之则反。所以在过滤器的响应信息体回传前
里面添加一个规则,条件为空,然后添加一个表达式:
1 | ^@rsp.bodyText "_le":false" "_le":true" |
这句话的大概意思呢就是把_le”:false替换成_le”:true,第一个双引号里面写的原值,第二个里面写着替换值。
保存之后开启这个过滤器然后在书架以外
的地方打开任何一本书都能看到换源选项,进入阅读之后就可以把Thor关掉了,追书神器就是这么智能,只有刚打开一本书的时候会判断究竟能不能换源….然后有一点是这个抓到的数据包比较多,所以在过滤的基础设置里面的关键字选项
添加一个/book
,因为每次请求一本书都有这个path,然后其他的数据包都不会抓取,节省空间。
然后咱们要开启vip功能,这里先在关键字选项
那里添加一个/user
,然后在断点里面再添加一个表达式:
1 | ^@rsp.bodyText "isMonthly":false" "isMonthly":true" |
这个也很好抓,在打开追书神器之后就会有这个信息,在个人信息里面。第一个式子的作用和前面那个换源一样,把false改成true,当然这里只改一个是没用的,还需要把monthly修改一下,这个是剩余的天数,这个数字没注意怎么算的,随便打就完事了(可怜我花了12块钱才发现这个数字很大很大),这里保存之后重启追书神器就…广告都没了,暂时就是vip用户了,我大概试了一下,vip用户的功能大概都有,所以…追书神器这个破解真的很简单啊。
有了vip用户就去除了广告,所以就不用分析怎么去广告了(这玩意web选手能做?),vip用户特权里面有一条“免费阅读部分数据”,随便点开一本vip免费阅读的书籍,切换到后面收费章节…提示!!网络错误连接。好吧,不知道怎么搞的,虽然提示我是vip,但是实际上我还是一个假的vip,这个vip真正做到的只有去广告…但是,好像还挺不错的。
但是我想到了一点,追书神器里面书籍分类其实有点多。第一,vip免费读;第二,所有章节免费读;第三,普通用户免费读vip用户免费读的书,但是隔一页一个广告,也就是参合着广告读书;第四,部分章节免费,后面章节收费,vip用户打折购买。
首先,假vip
没办法读vip免费读的书,然后也不打折…那我要这个vip有何用…bingo,把所有的书全部搞成免费读且非vip用户免费读,首先,添加两条规则:
1 | ^@rsp.bodyText "allowFree":false" "allowFree":true" |
其中allowFree控制的是该书能不能免费读,当然,把所有书的值都搞成true就行了,然后要把所有的allowMonthly的值改成false,因为前面证明vip是假的,根本没办法读那些包月用户的书籍,所有把这些书搞成不是包月的,同时又是免费的,什么概念呢?就是所有书都变成了可以免费读但是要看广告的那种….前面那个假的vip刚好可以去广告….所有书都是免费读,无广告,不可缓存,正版源…
有什么必要
不是加了一个换源功能吗?还要搞这么多干什么,后面搞那么多其实也就是为了去广告和阅读正版源,如果有钱,何必这么麻烦呢?支持就好了…但是没钱,草…
前面还有说到一个OPTIONS
方法,其实就是用在解密这一块,正版源只有部分章节免费,我们请求收费的章节的时候得到的不是章节内容,而是一个混合加密的东西,很长串,而且需要用key去解密。我们用购买,点击广告获得key值之后就有一个OPTIONS
请求,然后那串加密文本就解密了,我想大概解密过程还是在服务器段,软件段还是只接受,对于这个请求,没用返回值,得不到章节的真正信息,它就那么突然的解密之后出现在了软件上,不然我可以用爬虫模拟点击广告获得每个章节的key值,然后请求真正的文本信息…真正搞定正版源这一块还是有点不可能的,虽然追书神器的信息结构有点简单,但是章节内容加密只管用那些超强加密方法就行了….前面那个其实算一个取巧过程,不过也挺好的,只是得不到真正的正版源文本有点可惜。