• 郑州网站建设_网站制作_网页设计_手机建站-郑州建站

  • 手机网站 专注网站建设 品牌的力量 值得信赖

    服务热线: 15136144056/15638281969

当前位置:首页 > 建站知识 > 新速观点 > 正文

新速观点 - seo学习笔记 - 搜索引擎原理

发布时间:2015年01月16日 02:53 | 发布者:新速科技 | 浏览次数:2160次


最近一直在学习wordpress,这个是一个非常有利于优化的一套程序

搜索引擎原理

SEO就是搜索引擎优化的意思,通过优化自己的网站来提升自己在搜索引擎的排名。对于seo,只有理解了搜索引擎的工作原理,很多的seo技巧很自然的可以想到。
搜索引擎的工作原理,大概分为三步:

  • 爬行和抓取
  • 索引
  • 排名

爬行和抓取

搜索引擎用来爬行和访问页面的程序叫spider(蜘蛛)或者bot(机器人)。搜索引擎访问页面时候类似于用户通过浏览器访问,拿到的都是html文件,存储到原始的数据库中。

为了尽可能多的抓取网上的所有链接,蜘蛛会跟踪一个页面上的链接,从一个页面爬到另一个页面。(因此,我们在一些论坛,或者其他地方放上自己网站的链接,自己的网站就可以很快被收录。)理论上,这样是可以把网上所有的网页都抓取到的。但是实际上并不能实现。蜘蛛只会抓取他认为比较重要的页面。那么,哪些是他认为比较重要的呢?下面就是其中两条:

  • 网站和页面权重比较高的
  • 更新频率比较快的。如果蜘蛛发现一个网站不怎么更新,自然没必要经常跑过来看。

这些都给我们一些启示,比如经常更新网站,或者写好的文章定时发布,不要出现间断等等。

索引

在前面,蜘蛛将抓取的html文件存入原始的数据库,还需要进一步处理。这个过程,就相当于我们的语文题目“用一句话概括全文”了,当然搜索引擎是用几个关键词来概括全文。怎样用几个词来概括全文呢?如果让人来做,大概会如此进行:先把哪些多余的html标签删除了,在把哪些版权信息之类的东西去掉,再把“之乎者也”或者“的得地”这些不影响意思的词语去掉等等。搜索引擎的大致步骤也是如此。经过一些列的处理,搜索引擎交出了这样的答卷:

网页id 关键词
网页1 关键词1,关键词2
网页2 关键词3,关键词4
··· ······

这样,其实是得到一个网页对应若干关键词,(这种数据结构被称为正向索引)这是没办法直接用的。比如,用户要搜索关键词2,搜索引擎要把含有关键词2的所有网页显示出来,就要把在整个数据库李查找一遍。进一步的加工就是,一个关键词对应若干个网页,就是反向索引。形式如下:

关键词 网页
关键词1 网页1,网页2
关键词2 网页3,网页4
··· ······

排名

蜘蛛抓取了页面,索引程序计算得到了反向索引就可以等着用户的输入了。比如用户输入“wordpress教程”,搜索引擎显示找到了N个包含这个关键字的网站,然后来个兵器谱排名显示。(不知道www.xinsu360.com能否夺得兵器谱上第一名呢?)

实际上,很多网页都会包含“wordpress教程”这个关键词,可能有几十万,几百万,都计算他们的相关性也挺复杂的,但是绝大多数人用百度的时候只看前两页的。这个有点像华山论剑,要给天下高手来个排名,也不是每个人都有资格去华山的,也不是每个网页都有资格参与相关性计算的。实际上,选出前1000个网页进行相关性计算就可以满足要求。海选之后,就剩下了1000个人参加华山论剑了。

但是,问题来了:还没有进行相关性计算,怎么知道哪1000个相关性最高?因此,海选是不需要比武(相关性计算),主要是根据页面权重来的。

海选之后,就是另一轮比拼——相关性计算,相关性高的排前面,相关性低的排在后边。这么,自然没什么问题。

相关性的计算方法,与下面的几个因素有关:关键词密度,关键词位置等等。关键词在title,h1标签中,相关性会高一些。可以理解,看文章先看看各级标题就可以大概了解内容。我的一点点感受就是写文章的时候,标题中含关键字(否则就是作文离题了,不仅仅是迎合seo);可以先把文章的大纲列出来,把各级标题放在h1标签中,这个不但是利于搜索引擎的优化,而且对自己可以理清思路,纲举则目张,对用户可以更清楚文章的思路,快速检索需要的信息。

海选玩了(选出匹配子集),计算相关性完了,排名大体就确定了,然后搜索引擎进行一些调整,之后显示出来,就是用户看到的了。