HITS算法
之所以存在HITS算法,是因为搜索引擎需要在全球所抓取的网页文档集合当中找到与用户搜索请求查询词匹配度与之相关最高的页面进行符合匹配,而这里的匹配度相关最高的则是一些高质量的“Authority”页面和“Hub”页面,而不是大家常常理解的站内文章优质原创等因素。尤其是一些权威页面,搜索引擎更加亲耐,因为这类站点页面的内容会更加满足用户查询的内容。
百度分词算法
分词技术就是搜索引擎针对用户提交查询关键词进行的查询处理后根据用户的关键词用何种匹配方法进行的一种技术。简单来说就是,如果字符串包含小于等于三个中文字符的话,那就保留不动,当字符串长度大于四个中文字符的时候,百度的分词程序会出现把这个字符串来切割成为不同的词。
TF-IDF算法
实际上就是 TF-IDF,TF表示词条在文章中出现的频率;IDF,其主要思想就是,如果包含某个词 Word的文档越少,则这个词的区分度就越大,也就是 IDF 越大。对于如何获取一篇文章的关键词,我们可以计算这边文章出现的所有名词的 TF-IDF,TF-IDF越大,则说明这个名词对这篇文章的区分度就越高,取 TF-IDF 值较大的几个词,就可以当做这篇文章的关键词。