2022年6月22日

HTTP content-type

Content-Type(内容类型),一般是指网页中存在的 Content-Type,用于定义网络文件的类型和网页的编码,决定浏览器将以什么形式、什么编码读取这个文件,这就是经常看到一些 PHP 网页点击的结果却是下载一个文件或一张图片的原因。 Content-Type 标头告诉客户端实际返回的内容的内容类型。 语法格式: Content-Type: text/html; charset=utf-8 Content-Type: multipart/form-data; boundary=something 常见的媒体格式类型如下: text/html : HTML格式 text/plain :纯文本格式 text/xml : XML格式 image/gif :gif图片格式 image/jpeg :jpg图片格式 image/png:png图片格式 以applic…
2022年6月14日

HTTP协议之chunk介绍

当客户端向服务器请求一个静态页面或者一张图片时,服务器可以很清楚的知道内容大小,然后通过Content-Length消息首部字段告诉客户端需要接收多少数据。但是如果是动态页面等时,服务器是不可能预先知道内容大小,这时就可以使用Transfer-Encoding:chunk模式来传输数据了。即如果要一边产生数据,一边发给客户端,服务器就需要使用"Transfer-Encoding: chunked"这样的方式来代替Content-Length。   在进行chunked编码传输时,在回复消息的头部有Transfer-Encoding: chunked   编码使用若干个chunk组成,由一个标明长度为0的chunk结束。每个chunk有两部分组成,第一部分是该chunk的长度,第二部分就是指定长度的内容,…
2022年6月13日

HTTP协议-11:HTTP传输大文件的方法

https://www.suibibk.com/menu/753361107678134272 早期互联网上传输的基本上都是只有几K大小的文本和小图片,现在的情况则大有不同。网页里包含的信息实在是太多了,随随便便一个主页HTML就有可能上百K,高质量的图片都以M论,更不要说那些电影、电视剧了,几G、几十G都有可能。 相比之下,100M的光纤固网或者4G移动网络在这些大文件的压力下都变成了“小水管”,无论是上传还是下载,都会把网络传输链路挤的“满满当当”。 所以,如何在有限的带宽下高效快捷地传输这些大文件就成了一个重要的课题。这就好比是已经打开了冰箱门(建立连接),该怎么把大象(文件)塞进去再关上门(完成传输)呢? 看看HTTP协议里有哪些手段能解决这个问题。 1.数据压缩 能够想到一个最基本的解决方案,那就是“数据压缩”,…
2022年2月25日

获取素材下载工具推荐

​​1.油猴 一切皆可油猴​​​​​2.downloader-for-ig,没人比他更懂ig,点一下几百个图片视频素材打包好,伸手可及​​​​​​​​​3.什么可以一键油管,无论怎么用谷歌how to ,要下应用,free最后都不是免费下载你要的,而是free download一个收费软件。 只有一个阉割版的在线工具iconloader.to,导出所有下载链接,需要自己做一个简单的rpa 流程。 收费软件很多都可以,价格也还好,但是,还是白嫖最香。cr-soft,需要下应用,作者良心,做了收费版,还贴心的告诉你不想给钱就点下面的白嫖版,杀毒软件报毒。​​​4.夸客 手机端直接网页开之后直接下载各个电商平台的视频 需要安卓干,和手机rpa搭配也能做到批量。…
2022年2月16日

百度蜘蛛IP段判断

搜索引擎蜘蛛ip反查 http://www.ab173.com/zhanzhang/spider.php 优质段   116.179.32.*:新版百度蜘蛛,高权重段,一般抓取文章页。IP段位于山西阳泉联通。百度云计算阳泉中心位于世界最大中文搜索引擎百度公司创始人李彦宏的家乡山西省阳泉经济开发区东区。   220.181.108.75:重点抓取更新文章的内页达到90%,8%抓取首页,2%其他。权重IP 段,爬过的文章或首页基本24小时放出来。   220.181.108.77:专用抓首页IP权重段,一般返回代码是304 0 0 代表未更新。   220.181.108.80:专用抓取首页IP权重段,一般返回代码是304 0 0 代表未更新。   220.181.108.82:抓取tag页面。   220.181.108.83…
2022年2月13日

搜索引擎蜘蛛 UserAgent

搜索引擎蜘蛛 UserAgent Google蜘蛛 Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) Bing蜘蛛 Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) 百度蜘蛛 Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) 360搜索蜘蛛 mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.36 (khtml, like gecko) chrome/50.0.2661.102 safari/537.36; 360…
2022年2月5日

301 重定向

https://ahrefs.com/blog/301-redirects/#how-to-do-a-301-redirect  What is a 301 redirect? A 301 redirect indicates the permanent moving of a web page from one location to another. The 301 part refers to the HTTP status code of the redirected page. Example: blog.ahrefs.com redirects to ahrefs.com/blog In simple terms, a 301 redirect tells the browser: “This page has moved permanently. This is the new location and w…
2022年2月5日

List of User Agent Strings

http://useragentstring.com/pages/useragentstring.php  List of User Agent Strings ALL CRAWLERS008ABACHOBotAccoona-AI-AgentAddSugarSpiderBotAnyApexBotArachmoB-l-i-t-z-B-O-TBaiduspiderBecomeBotBeslistBotBillyBobBotBimbotBingbotBlitzBOTboitho.com-dcboitho.com-robotbtbotCatchBotCerberian DrtrsCharlotteConveraCrawlercosmosCovario IDSDataparkSearchDiamondBotDiscobotDot…