提升品牌曝光量,让客户主动发现你广告

服务热线:18510193015

首页 > 优化方案 > SEO之搜索引擎的工作原理(二)seo搜索引擎算法

SEO之搜索引擎的工作原理(二)seo搜索引擎算法

发布时间:2024-11-13 23:16:47     来源: 联岸传媒集团

如果您有SEO优化、网站建设需求请致电:18510193015

在部分 SEO 资料里,“预处理” 有时也被叫做 “索引”,毕竟索引是预处理的关键环节。搜索引擎蜘蛛抓取到的原始页面,无法直接用于查询排名的处理。搜索引擎数据库中的页面数量极其庞大,达数万亿之多,若用户输入搜索词后,依靠排名程序即刻对如此海量的页面进行相关性分析,计算量会非常大,根本不可能在一两秒内给出排名结果。所以,抓取的页面必须先进行预处理,为后续的查询排名做准备。如同爬行抓取,预处理也是在后台提前开展的,用户搜索时察觉不到这个过程。1、提取文字当下的搜索引擎主要以文字内容为依托。蜘蛛抓取的页面里的 HTML 代码,除了用户在浏览器中能看到的可见文字,还包含大量诸如 HTML 格式标签、JavaScript 程序等对排名无用的内容。搜索引擎预处理的首要任务就是从 HTML 文件里去除标签、程序,提取出可用于排名处理的网页文字内容。例如: - day/"rel="bookmark"title="Permanent Link to 今天愚人节哈 "> 今天愚人节哈今天愚人节哈

除了可见文字,搜索引擎还会提取出一些包含文字信息的特殊代码,像 Meta 标签中的文字、图片替代文字、Flash 文件的替代文字、链接锚文字等。2、中文分词分词是中文搜索引擎特有的步骤。搜索引擎存储与处理页面以及应对用户搜索都是以词为基础的。英文等语言单词间有空格隔开,搜索引擎索引程序可直接把句子拆成单词集合。但中文词与词之间无分隔符,一个句子里的字和词紧密相连。搜索引擎得先确定哪几个字构成一个词,哪些字本身就是一个词。比如“减肥方法”会被分成“减肥”与“方法”两个词。中文分词方法大致有两种,一是基于词典匹配,二是基于统计。基于词典匹配的方法是,把待分析的一段汉字与预先构建的词典里的词条进行匹配,在待分析汉字串里扫描到词典中已有词条就算匹配成功,即切分出一个单词。按扫描方向,基于词典的匹配法可分为正向匹配与逆向匹配。依据匹配长度优先级不同,又可分为最大匹配与最小匹配。将扫描方向和长度优先混合,就产生了正向最大匹配、逆向最大匹配等不同方法。词典匹配方法计算简便,其准确性在很大程度上取决于词典的完整性与更新状况。基于统计的分词方法是分析大量文字样本,算出字与字相邻出现的统计概率,相邻出现次数越多,越可能组成一个单词。基于统计的方法优势在于对新出现的词反应更快,也有助于消除歧义。基于词典匹配和基于统计的分词方法各有长短,实际使用中的分词系统多是两者混合运用,这样既能快速高效,又能识别生词、新词,还能消除歧义。中文分词的精准度常常影响搜索引擎排名的相关性。例如在百度搜索“搜索引擎优化”,百度把“搜索引擎优化”当作一个词。而在 Google 搜索相同的词,Google 将其切分为“搜索”、“引擎”和“优化”三个词。显然百度的切分更合理,因为搜索引擎优化是一个完整概念。Google 分词相对更细碎。再如在 Google 搜索“点石互动”四个字,Google 把它切分为“点”、“石”及“互动”三个词。“点石互动”作为中文 SEO 领域极为知名的品牌,却未被 Google 收入词典。在百度搜索“点石互动”时会发现,百度将“点石互动”视为一个词。甚至在百度搜索“点石大会报名”,能看到百度把“点石大会”也当成一个词。这种分词的差异可能是一些关键词排名在不同搜索引擎有不同表现的原因之一。比如百度更倾向于搜索词完整匹配地出现在页面上,即搜索“点石互动”时,这四个字连续完整出现更易在百度获得较好排名。Google 则不同,不太要求完整匹配。一些页面有“点石”和“互动”两个词,虽不是完整匹配出现,“点石”在前面,“互动”在页面其他位置,这样的页面在 Google 搜索“点石互动”时,也能取得不错的排名。搜索引擎对页面的分词取决于词库规模、准确性与分词算法优劣,而非页面本身,所以 SEO 人员对分词能做的很少。唯一能做的是在页面上用某种方式提示搜索引擎,某几个字应作为一个词处理,尤其在可能产生歧义时,比如在页面标题、h1 标签及黑体中出现关键词。若页面是关于“和服”的内容,可把“和服”二字特意标为黑体。若页面是关于“化妆和服装”,可把“服装”二字标为黑体。如此,搜索引擎分析页面时就明白标为黑体的是一个词。3、去停止词不管是英文还是中文,页面内容里都会有一些出现频率高但对内容无实质影响的词,像“的”、“地”、“得”等助词,“啊”、“哈”、“呀”等感叹词,“从而”、“以”、“却”等副词或介词。这些词被称为停止词,因为它们对页面主要意思几乎没有影响。英文里常见的停止词有 the,a,an,to,of 等。搜索引擎在索引页面前会去除这些停止词,让索引数据主题更突出,减少不必要的计算量。4、消除噪声绝大多数页面上还有部分内容对页面主题贡献不大,例如版权声明文字、导航条、广告等。以常见的博客导航为例,几乎每个博客页面都会有文章分类、历史存档等导航内容,但这些页面本身与“分类”、“历史”这些词并无关联。用户搜索“历史”、“分类”这些关键词时,只因页面有这些词就返回博客帖子毫无意义,完全不相关。所以这些区域都属于噪声,只会分散页面主题。搜索引擎要识别并消除这些噪声,排名时不考虑噪声内容。消噪的基本方法是依据 HTML 标签对页面分块,区分出页头、导航、正文、页脚、广告等区域,网站上大量重复出现的区块通常是噪声。对页面消噪后,剩下的才是页面主体内容。5、去重搜索引擎还需对页面进行去重处理,同一篇文章常出现在不同网站及同一网站的不同网址上,搜索引擎不喜欢这种重复内容。用户搜索时,若前两页看到的都是来自不同网站的同一篇文章,用户体验会很差,尽管内容相关。搜索引擎希望只返回相同文章中的一篇,所以在索引前要识别并删除重复内容,这一过程就是“去重”。去重的基本方法是对页面特征关键词计算指纹,即从页面主体内容里选取最具代表性的部分关键词,然后计算这些关键词的数字指纹。这里的关键词选取是在分词、去停止词、消噪之后。实验表明,通常选 10 个特征关键词就能达到较高的计算准确性,再多选对去重准确性提升不大。典型的指纹计算方法如 MDS 算法。这类指纹算法的特点是,输入稍有变化,计算出的指纹就会有很大差异。了解搜索引擎的去重算法后,SEO 人员应明白,简单地添加“的”、“地”“得”、调换段落顺序这种所谓伪原创,无法避开搜索引擎的去重算法,因为这样无法改变文章的特征关键词。而且搜索引擎的去重算法很可能不止于页面级别,而是到段落级别,混合不同文章、交叉调换段落顺序也不能把转载和抄袭变为原创。6、正向索引正向索引也可简称索引。经过文字提取、分词、消噪、去重后,搜索引擎得到的是独特的、能反映页面主体内容的、以词为单位的内容。接着搜索引擎索引程序可提取关键词,依照分词程序划分好的词,把页面转化成一个由关键词组成的集合,同时记录每个关键词在页面上的出现频率、出现次数、格式、位置。这样,每个页面都可记录为一串关键词集合,其中每个关键词的词频、格式、位置等权重信息也都记录在案。搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。简化的索引词表形式如下:每个文件对应一个文件 ID,文件内容被表示为一串关键词的集合。实际上在搜索引擎索引库中,关键词也已转换为关键词 ID。这样的数据结构就是正向索引。7、倒排索引正向索引不能直接用于排名。假设用户搜索关键词 2,如果只有正向索引,排名程序需扫描所有索引库中的文件,找出包含关键词 2 的文件,再进行相关性计算。这样的计算量无法满足实时返回排名结果的要求,所以搜索引擎会将正向索引数据库重构为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射,如下表:在倒排索引中关键词是主键,每个关键词都对应着一系列文件,这些文件中都出现了这个关键词。这样当用户搜索某个关键词时,排序程序在倒排索引中定位到这个关键词,就能立即找出所有包含这个关键词的文件。8、链接关系计算GooglePR 值就是这种链接关系的重要体现之一。其他搜索引擎也都有类似计算,只是名称不同。由于页面和链接数量庞大,网上的链接关系又不断更新,所以链接关系及 PR 的计算耗时很久。9、特殊文件处理除了 HTML 文件,搜索引擎通常还能抓取和索引多种以文字为基础的文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也常能看到这些文件类型。但目前的搜索引擎还不能处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序。虽然搜索引擎在识别图片及从 Flash 中提取文字内容方面有了一定进展,但离直接读取图片、视频、Flash 内容并返回结果的目标还相差甚远。对图片、视频内容的排名通常还是依据与之相关的文字内容,详情可参考后面的整合搜索部分。