什么是SEO?什么是搜索引擎优化?
搜索引擎优化(Search Engine Optimization,简称SEO)是一种利用搜索引擎的搜寻规则来提高目的网站在有关搜索引擎内的排名的方式。由于不少研究发现,搜索引擎的用户往往只会留意搜寻结果最前面的几个条目,所以不少网站都希望透过各种形式来影响搜索引擎的排序。当中尤以各种依靠广告维生的网站为甚。
所谓「针对搜索引擎作优化的处理」,是指为了要让网站更容易被搜索引擎接受。搜索引擎会将网站彼此间的内容做一些相关性的数据比对,然后再由浏览器将这些内容以最快速且接近最完整的方式,呈现给搜寻者。
搜索引擎优化对于任何一家网站来说,要想在网站推广中取得成功,搜索引擎优化都是至为关键的一项任务。同时,随着搜索引擎不断变换它们的排名算法规则,每次算法上的改变都会让一些排名很好的网站在一夜之间名落孙山,而失去排名的直接后果就是失去了网站固有的可观访问量。所以每次搜索引擎算法的改变都会在网站之中引起不小的骚动和焦虑。可以说,搜索引擎优化是一个愈来愈复杂的任务。
历史
早期搜索引擎
网站管理员以及网络内容提供商在90年代中期开始使用搜索引擎来优化网站。此时第一代搜索引擎开始对因特网分门别类。一开始,所有网站管理员得做的事只有提交所属网站到各家搜索引擎。这些引擎跑一些蜘蛛机器人(spider)──撷取于网页程序中到连至其他网页的连结──并且储存所到的数据。过程中同时包含了将网页下载并储存至搜索引擎拥有者的服务器中,这时有另外一个软件称为Indexer来撷取页面中不同的信息——页面中的文字、文字的位置、文字的重要性以及页面所包含的任何连结,之后将页面置入清单中等待过些时日后,再来撷取一次。随着在线文件数目日积月累,越来越多网站员意识到基本搜寻(organic search,亦翻为随机搜寻[1])条目的重要性,所以较普及的搜索引擎
公司开始整理他们的列表,以显示根据最洽当适合的网页为优先。搜索引擎与网站员的战争就此开始,并延续至今。
一开始搜索引擎是被网站管理员本身牵着走的。早期版本的搜寻算法有赖于网站员提供信息,如关键词的基本定义卷标(meta tag)。当某些网站员开始滥用标签,造成该网页排名与连结无关时,搜索引擎开始舍弃标签并发展更复杂的排名算法。由于数繁不及备载,仅列举数个分析目标如下:
在标题签里的文字,如<h1>引擎</h1>
域名,如
统一资源定位符下属的目录与文件名,如/wiki/Seo
关键词密度
关键词接近度,如'软盘、软盘' '硬盘、硬盘'
图形链接的Alt 属性,如<img src=".../powerby_mediawiki_88x31.png"
alt="MediaWiki" />
由于这些都还在网站人员的眼皮下打滚,搜索引擎陆陆续续碰到诸多滥用与操纵排名等难题。为了要提供较好的结果给使用者,搜索引擎必须调适到让他们的搜索结果表现出最适当的结果,而非某些不道德的网络员产生的、只有塞满关键词的无用网页。由此,新种类的搜索引擎应运而生。
当代搜索引擎
Google由两名在斯坦福大学深造的博士生拉里·佩奇(Larry Page)和谢尔盖·布尔(Sergey Brin)开始。他们带来了一个给网页评估的新概念,称为「网页级别」(PageRank),是Google搜索引擎算法[2]重要的开端。网页级别十分倚赖导入链结(incoming link),并利用这种每个导入某网页的链结相当于给该网页价值投一票的理论建立起逻辑系统。越多导入链结意味着该网页越有“价值”。而每个导入链结本身价值直接根据该链结从何而来的网页级别,以及相反的该页导出链结(outgoing link)。
在网页级别帮助下,Google 在服务相关的结果上证明它相当优异。Google 成为了最普遍和最成功的搜索引擎。由于网页级别度量了站点外因子,Google 感到它会比页内因子难以动手脚。
然而网站员们已经开发出对付Inktomi搜索引擎的链结操作工具和计划。这些方法证明对Google 算法一样管用。许多站集中于交换、买卖大量链接。随着网站员寻求获取链结只单单要影响Google送更多流量给该站,而不管是否对站点访客有用否这种行为增加,网页级别对原始算法的信赖度渐渐被破坏了。
此时,是Google 和其它查寻引擎对广大范围的站外因子仔细检视的时候。开发更加聪明的算法有其他原因。因特网已经膨胀到拥有非技术的广大族。他们经常无法使用先进的提问技术来取得信息;而且他们得面对比起发展早期更庞大数据、更复杂的索引。搜索引擎必须开发具备预测性、语义性、语言性和启发性算法。
目前,网页级别的缩小版仍然被显示在Google 工具条上,不过网页级别只不过是Google考虑在网页分级时超过100个因素里中的一个。
今天,大多数搜索引擎对它们的如何评等的算法保持秘密。搜索引擎也许使用上
百因素在排列目录;每个因素本身和因素所占比重可能不断的在改变。
大部分当代搜索引擎优化的思路──哪些有效、哪些没效──这些很大部分在于观察与根据内线消息来的
猜测。某些优化员得执行控制下的实验以取得不同优化方法的结果。
尽管如此,以下是搜索引擎发展它们算法时的一些考虑,这份Google专利清单[3]也许可让读者可猜出他们会走哪条路线:
站点的年龄
自该网域注册后过多久
内容的年龄
新内容增加的规律性
链接的年龄,连接站点的名誉和其相关程度
一般站内因素
负面站内因素(例如,太多关键词汇标(meta tag),很显然被优化过,会对站点造成伤害)
内容的独特性
使用于内容的相关术语(搜索引擎关联到的术语的方式视同如何关联到网页的主要内容)
Google网页级别(只被使用在Google 的算法)
外在链接、外部链接的链结文字、在那些和在站点/网页包含的那些链接
引证和研究来源(表明内容是研究性质)
在搜索引擎数据库里列举的词根与其相关的术语(如finance/financing)
导入的逆向链结,以及该链结的文字
一些导入链结的负面计分(或许那些来自低价值页、被交换的逆向链结等)
逆向链结取得速率:太多太快意味着“不自然”的链结购买活动
围绕在导出链结、导入的逆向链结周围的文字。例如一个链结如果被"Sponsored Links" (赞助商连结)包围,该链结可能会被忽略。
用"rel=nofollow" 建议搜索引擎忽略该链接
在站点该文件的结构深度
从其他资源收集的网格表,譬如监视当搜寻结果导引用户到某页后,用户有多频繁按浏览器的返回钮
从来源像:Google AdWords/AdSense、Google 工具条等程序收集的网格表
从第三方数据分享协议收集的网格数据(譬如监测站点流量的统计程序提供商)删除导入链结的速率
使用子域、在子网使用关键词和内容质量等等,以及从这些活动来的负面计分和主文档语意上的连结
engine什么意思
文件增加或改动的速率
主机服务商IP 和该IP 旗下其它站点的数量/质量
其他链结站会员(link farm / link affiliation)与被链结的站(他们分享IP吗? 有一个共同的邮递地址在"联络我们(Contact Us)" 页吗?)
技术细节像利用301复位向被移除的网页、对不存在网页显示404服务器标头而非200服务器标头、适当的利用
主机服务商正常运行时间
是否站点对不同类的用户显示不同的内容(称为「掩饰」(cloaking))
未及时矫正、无效的导出的链结
不安全或非法内容
HTML代码质量,以及错误出现数
由搜索引擎自他们搜寻结果观察到的实际点击通过率评等
由最常存取搜寻结果的人手动评等
搜索引擎分类
搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、垂直搜索引擎(Vertical Search Engine)和元搜索引擎(Meta Search Engine)。
全文搜索引擎. 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。
垂直搜索引擎. 垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用
户。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人或某一特定需求提供的有一定价值的信息和相关服务。例如,著名的百度图片搜索,互联统计网[4]等都是针对某一领域而采用
的垂直搜索引擎。
元搜索引擎. 元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的
规则将结果重新排列组合,如Vivisimo。
搜索引擎优化和搜索引擎之间关系
在第一代搜索引擎发表后,搜索引擎操作员变得对搜索引擎优化小区感兴趣。在一些早期搜索引擎,譬如INFOSEEK,要得到第一名不过是把顶尖的网页代码
抓下、放在您的网站、并提交个URL让搜索引擎立即索引并排名该页这么简单。
由于搜寻本身的高价值和标定性,搜索引擎和搜索引擎优化员间自始便存在对抗的关系。最近一次于2005 年召开的AirWeb年会,旨在谈论缩小这种敌对关系
差距,和如何最小化某些太过于侵略性优化造成的损坏效果。
某些更具侵略性的优化员产生自动化的站点,或者使用某些最终会让该网域被搜索引擎扫地出门的技术。而大多数优化公司则销售长期、低风险的策略服务,而且大部分使用高风险战略的优化公司,则在他们旗下的会员点使用、产生商业线索、或者纯内容站点,而非让它们客户站亲身涉险。
这里提供一个使用侵略性优化技术的优化公司让他们客户被取缔的案例。华尔街时报描述了某个使用高风险技术和涉嫌没有透露客户得承担那些风险的公司[5]。Wired报告了该公司起诉某部落格,因为提及该公司被取缔[6]。Google 的克特
斯(Matt Cutts)稍后确认Google 确实取缔了Traffic Power以其他们的客户[7]。
某些搜索引擎对搜索引擎优化产业提供了援助,而且是常常是优化会议和研讨会的赞助商和来访贵宾。实际上,自从付费收录(paid inclusion)降临,一些搜索引擎现在在网站优化小区的健康有了既得利益。所有主要搜索引擎都提供信息/指南以协助站点优化: Google[8] 、Yahoo [9],和MSN[10]。Google提供了Sitemaps 程序[11]帮助网站员学习如果Google 有任何问题检索他们的网站时该
如何做,并且提供Google流量与您网站关系间无价的丰富数据。雅虎的SiteExplorer[12],旨在提供一个免费方式递交您的URL,该方法能让你决定打算让雅虎索引多少页、索引多深。雅虎的Ambassador Program[13] 与Google的Advertising Professionals[14] 提供专家级的认证。
搜索引擎入手
新站点不需要"提交"到搜索引擎才能登记上市。一个来自于以建立好的、其他站点的简单链结就会让搜索引擎拜访新站点,并且开始『爬』过该站内容。它可能得花几天甚或几周从这样一个已建立站点取得连结,并使所有主要搜索引擎开始拜访并索引新站点。
一旦搜索引擎发现了新站点,它一般将拜访和开始索引该站,直到所有标准的<a href> 超链接被链结的页索引到为止。只能透过Flash或JavaScript才能拜访的链结可能不会被蜘蛛机器人到。
当搜索引擎的蜘蛛机器人爬过一个站点时会取决相当数量的不同因子,并且该站