作者:小K
来源:麦叔编程
最近迷上了刷美剧, 但是网上好的资源实在是难找,很多磁力链接要么是龟速,要么就是死链。
在线看是不可能在线看的,因为家里有NAS(Network Attached Storage:网络附属存储),下载完放NAS里家中所有的设备都可以打开观看。
有些网站能提供在线观看,网速还不错,但是不提供下载。
「那还有什么办法能拿到这个视频资源呢?」
尝试使用爬虫技术下载视频
打开开发者工具看了html,对应播放器上的链接不是视频格式的。
而是一个blob链接,那用常规的方法肯定是拿不到这个视频的数据流了。
这时候我看到视频的下载进度条一直在走:
而且XHR页面,一直有ts文件在异步加载:
我怀疑这两者有啥关联,于是我拿了一个ts文件的链接对其进行下载:
用视频播放器打开下载完的ts文件,发现这是只有一秒钟的视频。
于是我想,能不能把所有的ts文件下载下来并合并成一个文件,这不就是一整个视频文件了吗?
但是,我怎么拿到所有ts文件的下载链接呢?
于是我们分析了,网页资源加载的包,我发现所有的链接竟然藏到一个m3u8的文件中。
这就太棒了,我直接下载这个文件,然后用正则把链接提取出来,进行批量下载。
下载到本地之后,再用cmd命令把它拼成一个文件不就行了吗?
开干!
import re
import requests
from multiprocessing.dummy import Pool
# m3u8源文件链接
m3u8_link = 'https://v5.cdtlas.com/20220619/F5xDKKMI/hls/index.m3u8'
# 获取所有的ts文件下载链接
def get_ts_links(url):
r = requests.get(url=url).text
ts_links = re.findall("(https://.*?\.ts)", r)
return list(enumerate(ts_links, start=1))
# 通过链接下载ts文件
def download(ts_link):
num, link = ts_link
r = requests.get(url=link)
print(f"开始下载 -- {link}")
file_name = f'{num}-{link.split("/")[-1]}'
with open(file_name,"wb")as fp:
fp.write(r.content)
print(f"{link} -- 下载完成!")
# 使用进程池提高下载效率
def main():
tasks = get_ts_links(m3u8_link)
with Pool(8) as pool:
pool.map(download,tasks)
main()
?
实测开太多进程、线程会有服务器响应异常的情况,所以我使用资源为8的进程池,进行下载。
?
?
还有一点,使用异步下载一定要为下载的文件编上号,要不然最后合成的文件播放的时候可能顺序是有问题的。
?
运行代码进行下载:
下载得到的文件:
下载完成后,在当前文件夹目录下打开cmd命令窗口,
输入copy /b .\*.ts .\S05EP01.ts
将所有的ts合并成一个ts,然后用播放器打开就可以观看啦。
?
如果对格式有要求,可以使用格式转化工具转成mp4或其他视频格式。
?
用本教程的方法可以免费下载很多剧,如果对你有帮助,请点赞收藏一波。