首页 >  SEO >  SEO心得 >  正文

答应我以后别这么设计网址路径,迟早会后悔!

 作者:潘某人SEO
149

讲这个话题的起源,今天有人跟我痛诉网站几千的内容,全部被爬走了,一个不剩的那种;然后看了看他的站点,我只能说不爬你爬谁。大家猜猜为什么,我相信很多人的站点都会有这个问题,并且我见过的很多企业站点都有这个通病。

自增连号的URL

一切的始作俑者便是网站采用了自增连号的URL,这种URL结构通常是数据库中自动生成的,每当添加新的内容或记录时,数据库就会自动为新记录分配一个比前一个记录大1的ID,这个ID就是URL的一部分,页面地址(URL)是按照数字顺序连续增加的。

https://www.chateach.com/seo/1
https://www.chateach.com/seo/2
https://www.chateach.com/seo/3
1
2
3
复制

如上所示,也许网站有很多不同栏目目录,但是栏目下的详情页之间是连续自增的数字;这种网址结构潘某人SEO认为实在所有设计中最不可取的形式。但是早期很多的建站都是这种形式,导致很多企业站点也是这种设计;毕竟那时候爬虫没有这么泛滥,也没有这种预防。

带来的危害

这个危害可以说是毁灭性的打击,你想一下你日以继夜付出的心血的内容,只要暴力枚举ID就可以在短短几分钟内,给你爬的渣都不剩。然后如果你站点的全站还不理想的情况下,对方还能比你先收录。
网址url路径
虽然说只要可以被访问的内容都是无法避免被爬虫的命运,但这种自增式的网址还比是家里门开着,别人可以随便进来;把门关上,就有门槛了,不会开锁撬门爬窗户的就进不来。像如果网站的网址是无序的,如果没有爬取路径的内容就很难被直接或者暴力枚举爬取。这里的无序不是简单的ID数字变为无序,简单的数字无序,位数又比较短无非是暴力枚举的久一点而已。

如何解决问题

解决这个问题其实也很简单,只要将网址最后的ID部分,变为无序不可预测的就可以避免被暴力枚举爬取。实现这种功能的方案有很多,比如:UUID、时间戳与随机数结合、哈希值等,网上有很多方法。
如果你坚持看到这里就有福了,潘某人SEO把自己在使用的方法分享给大家,采用数据库自增ID+随机字符串的形式,结构为N未纯数字+N位纯小写字母。

方案实现方法

与原来自增ID的形式时,还是同样的没增加一条记录的时候生成一个连续的自增ID,不同的是另外开辟一个新的字段,存储一个随机生成的字符串,如下所示。

https://www.chateach.com/seo/1000ssddsxdfxc
https://www.chateach.com/seo/1001xdfrfdd
https://www.chateach.com/seo/1002ftyhcef
1
2
3
复制

其中自增ID部分,连续数字推荐从1000或者10000开始,而不是从1开始,否则位数太短影响整体的安全性;随机字符串部分,以随机的纯小写字母,并且位数也可以随机。长度随机很关键,在同样长度下,位数可在保证长度的情况下,一定程度的位数随机可以进一步增加破解难度,推荐字符串长度6-8位左右。
记住一定要自增ID和字符串作为两个字段来实现,然后在网址路径在访问的时候,通过正则差分数字部分,进行数据查询,然后在根据结果来校对字符串部分,这样可以获得最高的索引效率。

方案实现优势:

自增ID在每次插入新记录时都会自动递增,从而确保每个记录都有一个唯一的标识符。生成和管理相对简单,不需要额外的逻辑或算法。自增ID通常是连续的整数,连续的ID值可以减少索引的碎片,提高查询性能。数字的索引速度通常比字母(或字符)要快,尤其当内容数量增多比较庞大的时候,这种差异会变大。

最后,注意一点内容的列表展示一定的页码数量就够了,对于正常用户没人会通过不断翻页的形式访问,对于搜索引擎可以采用sitemap的方式提交,记住sitemap的路径复杂点,不要对外公开。这样对于这部分没有直接显示入口的网址链接,可以在正常收录的情况下,又能避免站点页面被大范围的爬取。快去转给你的还在使用的自增ID作为路径的冤种朋友把。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理 本文地址:https://www.chateach.com/seo/seoxinde/1087dsssxsx
相关文章
  • SEO为什么没办法快速见效?

    seo优化

    SEO为什么没办法快速见效?如何正确的看待seo优化?

    817
    • seo优化
  • 网站多久才不算新站

    网站多久才不算新站

    新站的时间大概在3-6个月不等,判断一个网站是否过了考核期,应当有两个标准,一收录,二排名。有收录,过了一半;有排名了,全过。一般而言,首页和内页的考核期也不同。

    2376
    • 网站多久才不算新站
  • 为什么打击采集行为,采集站还是有很高权重

    采集,权重

    搜索引擎不断的打击采集行为,但是采集站点的收录排名和权重还是非常好;如果你无法理解那么你对于搜索引擎的核心不够了解,本文带你探索搜索引擎和采集的那点事,教你如果正确面对采集行为。

    805
    • 采集
    • 权重
  • 新站SEO关注哪些数据

    新站优化数据指标

    一个新站的优化我们应该关注哪些数据来判定站点目前处于一个什么样的情况。对于新站来说我们迫切希望的是可以快速的获取排名权重,但是我们又可以通过哪些数据来分析优化流程是否有问题,是否是一个正常的发展呢?

    2464
    • 新站优化数据指标
  • 百度蓝算算法打击什么

    新闻源,蓝天算法

    百度蓝天算法是一个比较久远的算法了,是在16年的时候上线的,主要是用于打击新闻源站点售卖目录的行为,还互联网一片蓝天。

    2244
    • 新闻源
    • 蓝天算法
  • 下载站注意,清风算法4.0来了

    清风算法4.0,SEO算法,下载站

    如果你的站点是下载站,那么请一定进来看下百度清风算法4.0版本,2021-09-02百度搜索资源平台发布公告对清风算法进行升级,进入了4.0版本。本次清风算法升级加大了针对不符合规范的低质下载站,将限制其在百度搜索结果中的展现。

    1333
    • 清风算法4.0
    • SEO算法
    • 下载站
  • 新站排名不稳定的原因

    新站排名不稳定

    新站排名不稳定的原因,新站排名不稳定最基础的原因有两个,一是搜索引擎更新算法引起的影响,其实搜索引擎更新算法,不仅影响新站,老站也会被波及到。二是,新站本身权重都很低,搜索引擎对新站有一个观察前,前期信任度低。

    1867
    • 新站排名不稳定
  • SEO关键词优化的必需知道的秘诀

    SEO关键词优化

    SEO关键词优化的必需知道的秘诀?SEO优化的本质上让设置的词有排名,通过搜索,能找到我们的网站(引流)。做优化的时候,我们还是需要掌握一点小技巧,方法策略运用对了。后面优化起来就会比较方便,而关于技巧方面的。

    1111
    • SEO关键词优化
  • 索引量和收录量的区别

    关系区别,收录量,索引量

    索引量和收录量的很容易混淆认清两者的关系对于网站优化十分的有帮助,分析索引量和收录量的数据可以及时的发现网站的问题。

    2308
    • 关系区别
    • 收录量
    • 索引量
  • 百度快照对排名的影响

    快照排名的关系

    百度快照是搜索引擎在抓取页面时候,保留的一份纯文本文档。就是当网站无法访问的时候,访客可以通过快照了解页面的基本的内容;或者说你当前的网络环境很差的时候,因为百度快照是一个纯文本内容,你可以在网络速度极慢的时候还是可以顺利的打开快照页面。

    1179
    • 快照排名的关系
  • 域名注册注意什么

    域名注册注意点

    域名注册注意什么?对于网站优化来说域名的选择是非常重要的,如果在域名的选择注册时发生了错误,那么对于网站后续的SEO优化是一个非常不利的起点,对于任何一件事一个好的开始是成功的一半。

    937
    • 域名注册注意点
  • 是什么在拉低阻碍站点的权重

    影响网站权重的因素

    分析下传统企业建站的站点有哪些问题是影响网站权重提升的因素。如果一个网站的结构上先天不足,那么对于后期优化真的是阻碍重重很折磨人......

    1977
    • 影响网站权重的因素
  • keywords、description已经不重要了?

    keywords和description,SEO标签,关键词和描述

    不要随大众觉得keywords、description,即SEO优化中常说的关键词和描述两大SEO标签不在重要,这种观点过于果断缺乏依据。无论搜索引擎怎么调整。

    2093
    • keywords和description
    • SEO标签
    • 关键词和描述
  • 百度spider抓取过程中涉及的网络协议

    百度spider,抓取

    刚才提到百度搜索引擎会设计复杂的抓取策略,其实搜索引擎与资源提供者之间存在相互依赖的关系,其中搜索引擎需要站长为其提供资源,否则搜索引擎就无法满足用户检索需求;而站长需要通过搜索引擎将自己的 内容推广出去获取更多的受众。

    367
    • 百度spider
    • 抓取
  • Tag标签页面如何优化?

    Tag标签页面

    你知道什么是tag‘页面吗?什么样的站点适合去tag页面呢?tag页面又叫标签页面,是一种网站内容的分类方式。常见的实现方式是通过给各个页面打上标签,然后以这个标签为主题来聚合相关的页面。

    1005
    • Tag标签页面
  • SEO优化移动端时应该注意什么?

    移动端优化

    移动设备上网已经逐渐的成为了现在大家主要的上网途径。因此对于SEO人员来说就需要开始对移动端的优化重视起来,学会抢占先机可以更好的提升胜率。毕竟移动端在将来会成为更加重要的存在。那么我们在移动端优化的时候需要注意什么呢?

    1252
    • 移动端优化
  • 百度下拉关键词怎么做

    下拉词怎么做

    百度下拉又称百度推荐词,是百度为方便用户搜索而提供的一种关键词联想服务,提高了用户搜索效率。 百度下拉、百度搜索下拉、百度下拉框、百度搜索下拉框。

    1394
    • 下拉词怎么做
  • SEO站外优化的方法有哪些?

    seo站外优化

    SEO站外优化的方法有哪些?一个网站如果有比较好的内容,但是客户还是无法看到的话,那么就说明SEO优化没有达到理想的效果。我们做网站首先就是要让用户能够看到,这样才能带来更多的流量,最终实现建设网站的目的就是起到推广或者是营销的效果。

    1169
    • seo站外优化
-- 这已经是底线了,看看别的把! --