首页 > SEO > SEO心得 > 正文

搜索引擎内容原创性之分词技术与文本粒度

发布于：2022-04-24 21:44:56

作者：潘某人SEO

seo优化中内容的原创性是非常重要的，那么对于搜索引擎是如何判断内容的原创性呢？首先就是时间先后上，同样的内容最先被搜索引擎抓取到则为原创；其次就是内容的稀缺性。很多站点为了获得原创性又不想花费过高的时间人力成本就会选择为伪原创的方式，但是其实这种方法意义并不是很大。

伪原创的识别

伪原创的可行性取决于是否可以被搜索引擎识别到，这个就和今天的主题“文本粒度”有密不可分的关系，先说结论伪原创可以被识别。伪原创一般的手法就是，内容中同义词替换，顺序颠倒，但是这些行为并不会影响文本粒度。

什么是文本粒度

文本粒度是一个复杂的概念，在讲粒度之前首先必须明白（Query）分词技术，人与机器处理文档时最大的区别，人是具备思维能力的，是通过对整个文档含义的理解；但是机器是无法理解任何的内容，只能通过算法来分辨文本内容。

分词技术

分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。简单的讲就是分词技术会把整个文档分割成无数个短语。分词技术现今非常成熟了，分为3种技术。

字符串匹配的分词方法

这是种常用的分词法，百度就是用此类分词。字符串匹配的分词方法，又分为3种分词方法。正向最大匹配法、反向最大匹配法、反向最大匹配法、双向最大匹配法。

词义分词法

就是一种机器语音判断的分词方法。很简单，进行句法、语义分析，利用句法信息和语义信息来处理歧义现象来分词，这种分词方法，还不成熟，处在测试阶段。

统计分词法

根据词组的统计，就会发现两个相邻的字出现的频率最多，那么这个词就很重要。就可以作为用户提供字符串中的分隔符，这样来分词。

文本粒度的作用

分词的时候是需要一定逻辑的，分词不能乱分，比如分得过细会导致对于内容识别失去意义。举例，关键词“潘某人SEO优化”，可以分为“潘某人，seo，优化”，这种分词是比较合理的，但是如果分为“潘某，人，s，e，o，优、化”这种显然就失去了意义。
而文本可粒度则正是分词时候的一个度的衡量标准，粒度是衡量文本所含信息量的大小。文本含信息量多，粒度就大，反之就小。有了这个原则，我们就很容易判断文本粒度大小了。

什么是文本的粒度

什么是文本的粒度？，让我们先看看以下几组词汇，可以帮助大家更好的理解本文粒度：

孤独、倒霉、粒子、嚣张
奶茶、冰球、鞋垫、旱冰鞋
打球、跳绳、炒菜、登山
苹果笔记本电脑、IPTV机顶盒、潘某人SEO优化
大头儿子小头爸爸、家有儿女、一个人的精彩

像“孤独”，“倒霉”，“粒子”，“嚣张”这些词，虽然有两个字组成，但是仅表达一个意思，再分割就失去意义了，这些词的粒度是小的。而“冰球”，“奶茶”等词，是由简单词合成的，虽然也可以明确表明一定含义，但是进行查分之后还是存在含义的如“奶”和“茶”，“冰”和“球”。这类词，粒度稍微大一些。而“苹果笔记本电脑”，“IPTV机顶盒”这样的词，粒度就更大了。
文本的粒度
还有一类比较特殊的词，尽管所含字数很多，但其实只表达一个意思，如“大头儿子小头爸爸”，“家有儿女”这样的电影、电视剧的名称，粒度是很小的。将此类词继续分割在搜索上的意义更低。
所以文本粒度的大小和文本的长度没有决定性关系，除去一些较长有特殊含义的短语，文本内容越长粒度就越小。

伪原创意义不大

所以基于粒度和分词技术，伪原创内容的意义有限，简单的内容调换删减，近似同意替换，基本上无法改变整片文章的粒度。就比如微信公众号的原创文章，只有当你把原创文章修改添加内容篇幅足够大的时候才可以不被识别到。
而伪原创原本就是为了降低时间人力成本，深度伪原创的时间成本并不低，或者增强机器伪原创的度，则会因为替换的内容太多导致整体的语义不同，失去了阅读上的价值。
基于这也是搜索引擎实现内容恶意采集，内容拼接，低质量内容识别的基本逻辑原理。

烽火算法持续升级，控制回退按钮失效问题
烽火算法解析，2021年8月百度搜索引擎对于烽火算法进行了升级，此次升级主要是打击移动端退回按钮失效问题。上一个版本的烽火算法2.0更新于2017年2月,严惩“窃取用户数据”和“恶意劫持”的行为:未经用户允许恶意窃取用户手机号码等隐私数据的行为和恶意劫持百度流量的行为。
2021-08-22 1183
- 烽火算法持续
- 退按钮失效
域名总数达到 3187 万，搜索引擎与 SEO 价值凸显
中国家顶级域名“.CN”数量为1956万个，占域名总数的61.4%，连续十年位居全球第一。预示着seo其价值不仅没有衰减，反而随着用户对高质量内容需求的增长而愈发重要。在信息爆炸的时代，SEO已经从单纯的关键词排名工具，进化为连接用户需求与优质内容的核心桥梁。
2025-02-11 137
- 域名
- 搜索引擎
seo优化思维重点是什么呢
你对于SEO优化的核心重要真的了解吗？还在讲把网站的权重流量作为一直努力的方向吗？想方设法的去提升权重排名，但是你想过这一切到底有多大的意义呢？很显然对于SEO优化来说这些不是最核心的。
2020-10-25 1025
- seo思维重点
如何鉴别真假蜘蛛，代码自动化
如何使用代码自动化的识别蜘蛛的真实性，防止被假蜘蛛抓取网站内容。分享一个通过代码自动化鉴别屏蔽加搜索引擎爬虫的思路。
2021-04-25 1370
- 蜘蛛鉴别
- 假爬虫屏蔽
如何利用百度站长工具做seo关键词排名？
为什么选择SEO这条路，因为在多年前，我们见证了许许多多的SEO神话，各种各样一夜暴富的神人，那是SEO飞速发展的时代，但为什么近几年这样的神话越来越少呢？
2020-06-14 1747
- seo关键词排名优化
何为百度快照劫持，如何避免？
百度快照劫持是利用黑客技术拿到了你的ftp，或者应用网站漏洞，来篡改网站的网页内容，主要的通过在网页中插入js代码实现跳转，而当你检查网站代码的时候很难发现问题所在，如果没有一定的技术水平的情况下。
2021-09-15 1033
- 百度快照劫持
Site域名查询的不显示备案信息
Site命令站长们应该非常的熟悉，只要在对应的搜索引擎输入”site:域名”就可以查询到站点的收录数量。同时顶部的小卡片中会显示站点的备案号和备案主体，但是有的时候会遇到有些站点就只有资格收录数量，没有任何的备案信息。
2021-06-15 1249
- 网站备案
- site命令
- 收录量
SEO关键词布局优化方案
网站的关键字布局一直是大多数seoer注重的一个关键方面。关键字布局与用户的需求相关。然后，根据对有效竞争对手的分析，总体规划布局是合理的。你对网站的关键词布局出了问题怎么办？
2020-05-22 1241
- SEO优化方案
原创内容收录更快吗
分析下，原创内容在网站优化时对于收录的作用，从深层阐述了，原创性高不一定就可以获得好的收录和排名。对于seo优化来说正真需要的并不是简单的原创，而是需要........
2020-02-02 2575
- 原创内容的收录
百度几种链接推送方式对比
网站内容如果想要实现快速收录，那么及时的提交新内容链接是直接有效的方法。对于百度搜索来说链接提交方式是比较丰富的，大致分类主动提交、自动提交、手动提交和sitemap提交，那么你知道这四种提交方式有什么区别呢？哪张方式可以更快使内容收录呢?
2020-12-21 1565
- 百度链接推送
网站不收录的原因及如何处理应对
网站不收录问题不管是新站还是老站都会面临的问题，那么当网站遇到收录问题的时候应该如何应对，如何找到问题所在呢？
2023-07-03 587
- 收录
AI大模型或将走上搜索引擎的老路
AI大模型以其强大的生成能力和广泛的应用场景，已逐步的融入到大家的生活中。AI大模的数据污染与低质量内容问题或将成为一个严峻的问题，AI大模型或将走上搜索引擎的老路。
2025-01-02 270
- AI大模
- 搜索引擎
如何防止假蜘蛛抓取内容
如何让网站自动识别蜘蛛的真假，如何自动的屏蔽假蜘蛛抓取网站内容，从而更好的保护网站的原创内容呢？
2021-05-06 1835
- 假蜘蛛
- 防采集
- 原创保护
网站更新和排名之间的关系你知道吗
大多数站长会认为网站的流量靠的是不断的更新才可以稳定的获取流量，那么事实真的是如此吗？加入网站长期不更新，那么站点的流量和排名会消失吗？今天我们就来探索下网站排名流量和网站更新之间的关系。
2022-07-25 727
- 网站更新
- 网站排名
怎么提高网站收录量
怎么提高网站收录量？很多人认为靠着定时定量的更新内容可以得到一个稳定的收录。但是我们完全没有必要去定时定量，收录与否与这些因素并没有任何直接关联。我们应该做的是去控制内容的.....
2020-07-21 1022
- 提高收录量
怎么样增加外链不会被惩罚
怎么样增加外链不会被惩罚，如何规避绿萝算法，安全的增加外链。很简单，做到接近自然生成外链，要有一定的域名广泛性，更重要的外包代发尽量避免，设计到黄赌毒，那就惨绝人员，排名从此与你无缘
2019-09-12 1383
- 怎么样增加外链
SEO站内外优化的差异
SEO优化可以分为站内优化和站外优化，那么在两者之间我们应该重点优化哪一个呢？以及站内的优化的方式各有哪些方面呢？
2020-07-07 1684
- 站内外优化差异
如何搭建网站更利于SEO优化
如何搭建网站才更合适利于SEO，采用cms系统建站、外包建站、还是自己开发呢？内容为王这是一切的根本；技术为辅，但是也同样重要，保证网站基本的稳定性及访问速度。一个优秀的站点需要创造用户的喜爱的内容，通过可以让用户舒服的方式去展示出来。
2022-10-09 517
- wordpress
- SEO优化
- 网站搭建

-- 这已经是底线了,看看别的把！ --

伪原创的识别

什么是文本粒度

分词技术

字符串匹配的分词方法

词义分词法

统计分词法

文本粒度的作用

什么是文本的粒度

伪原创意义不大

烽火算法持续升级，控制回退按钮失效问题

域名总数达到 3187 万，搜索引擎与 SEO 价值凸显

seo优化思维重点是什么呢

如何鉴别真假蜘蛛，代码自动化

如何利用百度站长工具做seo关键词排名？

何为百度快照劫持，如何避免？

Site域名查询的不显示备案信息

SEO关键词布局优化方案

原创内容收录更快吗

百度几种链接推送方式对比

网站不收录的原因及如何处理应对

AI大模型或将走上搜索引擎的老路

如何防止假蜘蛛抓取内容

网站更新和排名之间的关系你知道吗

怎么提高网站收录量

怎么样增加外链不会被惩罚

SEO站内外优化的差异

如何搭建网站更利于SEO优化