文本的网页浏览器可以用于Shell环境中,它不仅可以作为浏览器用,也可以用于抽取数据。
HTML是一种标记语言,抛开图片等不谈,包含其中的文本才是我们关心的。Shell环境下的很多命令或工具也不具备解析HTML的能力。这种情况下就可以考虑先利用文本浏览器把网页转换为文本输出。
以lynx为例,相应的命令是。lynx -dump -raw file.html
lynx -dump -raw file.html
34/44ms