pagerank™ 和 索引

google使用一种名为pagerank™的算法,配合搜寻字串来排名网页。pagerank™算法根据加权系数,推断该其他连结到网页的价值来处理。pagerank™如此取得由人所建立的连结,与及与人关联的重要性。先前的排名搜寻方法,采用了许多搜寻器,以搜寻的关键词和何时搜寻来排名页面,或有多相关地关联该搜寻。 另外,google亦采用其他秘密准则,决定排名网页的结果。
google不止索引和缓冲html档案,亦索引13种其他档案类型,例如pdf、word文件、excel试算表,以及纯文字档案。除了文本文件,其他文件的是先转换为html版本后缓存的。 所以借助google可以不需要有这些文件的相应程序就可以看见这些非网页文件,如word或是excel。
google创新的搜索技术和典雅的用户界面设计使google从第一代搜索引擎中脱颖而出。google并非只使用关键词或代理搜索技术,它将自身建立在高级 pagerank™ (网页级别)技术基础之上。这项专利技术可确保始终将最重要的搜索结果首先呈现给用户。网页级别可对网页的重要性进行客观的分析。用于计算网页级别的公式包含5亿个变量和20多亿个项。网页级别利用巨大的网络链接结构对网页进行组织整理。当从网页a链接到网页b时,google就认为“网页a投了网页b一票”。google还对投票的网页进行分析。google复杂的自动搜索方法和结构设计被认为可以避免任何人为感情因素提供公正的搜索结果。随着搜索引擎优化(seo)和各种针对pagerank的交换链接的行为的流行,google的pagerank™及公正性也越来越受到人们的质疑。
使用者能自定义搜寻引擎。他们能设定一个缺省语言或使用 "safesearch" 过滤技术,设定在每页上被显示的结果多少。google受争议的放置永久cookie在用户的机器上以储存这些信息,这使他们能够了解过去用户的搜索内容。任何一次搜索请求(只有头10个关键字被查询),每次最多查询头1000个结果(以每一页最多100个结果的方式显示)。
尽管它有极大的索引数目,仍然有相当多数量的数据库的数据只能是从网站访问到,而不是藉由连接。这所谓的深网暂时不能被google数据库所覆盖,举例来说包含了图书馆的目录,官方的法定(政府)公文,电话簿等。

google adsense

google adsense 是一种获取收入的快速简便的方法,适合于各种规模的网站发布商。它可以在网站的内容网页上展示相关性较高的 google 广告,并且这些广告不会过分夸张醒目。由于所展示的广告同用户在您的网站上查找的内容相关,因此,最终您的内容网页不仅会为您带来经济效益,还能够得以充实。

google adwords

google adwords 是一种快速简单的广告方式,它针对性强,按广告点击或展示次数计费。adwords 广告随搜索结果一起显示在 google 上,还可以展示在规模不断扩大的 google 联网中的搜索网站和内容网站上,包括 aol、earthlink、howstuffworks 和 blogger 等。

“google跳舞”和seo

google跳舞是一种经常被讨论的现象,google跳舞指的是google月底大量更新数据库和算法的几天时间,因为可以发现,这几天对google搜索关键字如www.yahoo.com得到的结果数是不一样的。
在跳舞期间,一个站点的等级可能在短时间里戏剧般的改变,而且不同的google服务器(举例来说,www.google.com,www2.google.com,www3.google.com,www.google.co.uk,www.google.com.tw等)可能为相同的关键字提供不同的结果。跳舞似乎当是googlebot机器人抓取网页期间随即发生的。快速更新的网站,高级别的网页和新闻网站是最经常被检查的,虽然新闻不一定如此。小的调节在每月里持续进行以确定网页级别。在一些情况下,可能需要二到三个月让新建页面出现在搜索结果里。 从2003年的夏季开始,每月的搜索,索引和等级更新被不间断的持续更新所取代。这种改变大大减少了google搜索结果的不稳定性。2003年11月15日,google似乎进行了有史以来最重要的一次算法升级,后来被称为“佛罗里达更新”。在这次更新中,几乎所有商业领域的关键词都受到了影响,尤其是一些热门的关键词,google搜索的结果页完全变了个样儿,很多头一天还排在首位的网站被远远甩到了500名之后。
google目前的主要挑战之一是,它的算法和结果越是得到网路使用者的信赖,商业网站为了利益而暗中破坏结果的风险就越戏剧般的增加。一些搜索引擎优化公司已经开始尝试使用各种不同的技巧提升google网页评级,以使他们客户的网站更多的被搜索到。google已经设法减少了一些已知的使用这种方法的网站的google页面评级。
由于google实际上已经成为最流行的搜索引擎之一,很多网站管理员十分热衷于跟踪他们网站在google上的左侧排名,并试图解释他们排名变化的原因。现在已有不少网站提供排名google搜索引擎优化(search engine optimization,seo)服务,如在一些高流量的讨论区内刻意加入商业网站的链接,从而使该网站在google的排名提高。这种“发明”虽然的确有一定成效,但这种收取客户金钱,在第三者的讨论区上大卖广告,一方面对讨论区的读者造成困扰,也侵害了讨论区的商业利益;这种做法也明显违反了商业道德。
还有一种被普遍采用的技术是很多网站使用一个相同的关键字连接到某一个特定的网站,以使用户在google搜索这个关键字的时候,这个网站的排名会出现在结果的较前面。这种方法被称为google炸弹。现在google算法更新的频率非常快,据猜测,现在算法公式中涉及的变量有300多个,pagerank™在整个google算法中的影响力已经下降到20%左右,最终平衡的算法中最重要的变量所占的比例不会超过10%,单纯靠技术手段提升排名的网站已经禁不住时间的考验。
google发布了一系列的文章以指导站长们提升他们网站的页面评级。

其他的google服务

以下是google网站上提供的服务。

google网上论坛(新闻组)和google图片搜索服务

google维护着一个重要的新闻组存档,它被叫做google网上论坛(即从前一个叫做dejanews的独立网站)和一个 图像搜索服务(被叫做“google图像”)。前者保存了几十年内几乎所有的新闻组帖子,后者的搜索则是以与图片相关的网页的文本,图片的标题为基础进行的,图片被以合理使用原则缓存进了google服务器。
google现在正在尝试一个新版的网上论坛服务(google group-beta),它除了增加新闻组投递功能外还有邮件列表功能,可以使用如类似gmail这类的接口完成操作。
google group-beta 目前还存在一些未解决的缺陷。

google新闻

google有一个测试版的自动化新闻服务,2004年9月“google新闻”包括有美国版、英国版、德国版、法国版、西班牙版、意大利版、新西兰版、印度版、澳洲版、台湾版、韩国版、日本版、中国版和香港版。为了公正客观没有偏见地报道任何新闻,google新闻的产生是完全由电脑算法决定的,没有人类编辑参与其中。不过在2006年1月,中国版的“google新闻”改名为“google资讯”,同时其中的内容经过了审查。
该服务包括在过去30天内所含语言新闻网站上出现新闻的存档,不同的国家有不同数量的新闻来源;对于英语它包括大约4,500个新闻源,其他语言比较少一些。并且提供新闻的大约头200个字和一个指向全文的连接。一些需要先订阅才能阅读的网站;google新闻标题中还会有明显的提示信息。
google新闻提供搜索服务,结果可以以新闻发生日期(这样就不会再对新闻发生的时间感到困扰了)或相关性成类排序(也可以直接分类查看)。在英语版中,有一个可以选择对应国家的选项。
还可以使用关键字订阅google新闻快讯。这样,当与关键字相关的新闻发生时,google新闻会发出一封电子邮件通知订阅者。
2005年3月10日google新闻增加了自定义功能,用户可以自己随意定义自己喜欢看的新闻,甚至不同语言的新闻也可以混和在一页内。这是网络新闻提供方式的一个重大革新。
google新闻服务也可以按来自国家分别查看。

 

版权所有,欢迎转摘,转摘请注明作者和出处!

或者:王通

发表评论

电子邮件地址不会被公开。 必填项已用*标注

Post Navigation