您好,欢迎来到易榕旅网。
搜索
您的当前位置:首页信息检索技能训练

信息检索技能训练

来源:易榕旅网
专业:信息管理与信息系统11 Hebei Normal University of Science & Technology

学号: 0612110316 信息检索技能训练

2012-2013第2学期

题 目: 百度、谷歌搜索引擎优化分析

院(系、部):工商管理学院信息管理教学部

学 生 姓 名:庞超 指 导 教 师:刘书霞

2013年 4月 17日

摘要

目前,搜索引擎是大多数用户使用频率最高的网络应用程序。最近,以提高网站在搜索结果中排名的搜索引擎优化是目前研究的焦点。本文作者详细阐述了基于搜索引擎的网站优化策略。通过优化网站的搜索引擎,方便的搜索引擎,网站的排名,从而提高网站的访问者,并实现网站推广的目的,为企业带来了机会,实现更多的利润。

关键字:搜索引擎优化、优化策略、网站优化、SEO

Abstract

Currently,search engine is a network application that has the most of users and highest of use frequency. Moreover,search energy optimization(SEO)that in order to improve website ranking in search result is the focus recently. This paper researchers in detail the website optimization strategy base on search engine. By optimization of the website search engine ,convenience of search engine ,the rank of website, so as to enhance the website visitors and achieve the aim of website promotion ,to bring the opportunity for enterprise ,to realize more profit.

Key Word: search engine optimization、optimization strategy、website optimization、SEO

引言

搜索引擎优化(Search engine optimization,简称SEO),指为了提升网页在搜索引擎自然搜索结果中(非商业性推广结果)的收录数量以及排序位置而做的优化行为,这一行为的目的,是为了从搜索引擎中获得更多的免费流量,以及更好的展现形象。而SEM(Search engine marketing,搜索引擎营销),则既包括了SEO,也包括了付费的商业推广优化。本文通过详细比较百度和谷歌搜索引擎优化的方法,阐述如何提升网站在两大搜索引擎中的排名策略。此外,本文还提供了一些提升网站在搜索引擎中排名的方法,可以在日后网站开发中多加注意。

目 录

摘要................................................................ 2 Abstract............................................................ 2 引言................................................................ 2 1搜索引擎优化简介 .................................................. 4

1.1搜索引擎优化概念........................................................................................... 4 1.2国内发展趋势................................................................................................... 4 1.3国外发展趋势................................................................................................... 5 2百度搜索引擎优化 .................................................. 7

2.1前期域名注册及服务器、空间租用............................................................... 7 2.2面向搜索引擎的网站建设............................................................................... 7 2.3网站运营........................................................................................................... 8 2.4 作弊与惩罚...................................................................................................... 8 3谷歌搜索引擎优化 .................................................. 8

3.1优化网站结构................................................................................................... 8 3.2优化内容........................................................................................................... 9 3.3处理页面抓取................................................................................................... 9 4 自我总结搜索引擎优化策略.......................................... 9

4.1标签................................................................................................................... 9 4.2关键字的比例................................................................................................... 9 4.3蜘蛛的抓取页面的方向................................................................................. 10 4.4图片的ALt属性 ............................................................................................ 10 4.5关键字的位置和链接的锚文本..................................................................... 10 结论............................................................... 11 参考文献........................................................... 11 国外外文文献原文................................................... 12 国外外文文献译文................................................... 19

1搜索引擎优化简介

1.1搜索引擎优化概念

搜索引擎优化(Search engine optimization,简称SEO),指为了提升网页在搜索引擎自然搜索结果中(非商业性推广结果)的收录数量以及排序位置而做的优化行为,这一行为的目的,是为了从搜索引擎中获得更多的免费流量,以及更好的展现形象。而SEM(Search engine marketing,搜索引擎营销),则既包括了SEO,也包括了付费的商业推广优化。

SEO自从1997年左右出现以来,逐渐分化成两类SEO行为:一类被称为“白帽SEO”,这类SEO起到了改良和规范网站设计的作用,使之对搜索引擎和用户更加友好,并从中获取更多合理的流量。搜索引擎鼓励和支持“白帽SEO”。另一类被称为“黑帽SEO”,这类SEO行为利用和放大搜索引擎的策略缺陷(实际上完美的系统是不存在的)获取更多用户访问量,而这些更多的访问量,是以伤害用户体验为代价的,所以,面对后一种SEO行为,搜索引擎会通过一些策略进行遏制。搜索引擎与SEO行为间是一种良性的共生关系,比如很多优质的网站是用Flash或者Ajax做的,搜索引擎就无法很好的爬取和索引。建站者在了解了SEO的一些基本原理后,可以通过对网站的合理优化,使这些优质资源更好的发挥其检索效果,改善用户的搜索体验。

1.2国内发展趋势

总体来说,SEO 在中国还属于新生事物。

2001 年之前:免费搜索引擎营销阶段,以免费分类目录登录为主要方式; 2001 年中期-2003 年中期:因网络经济环境、搜索技术、收费等原因带来搜索引擎营销市场进入调整期;

2003 年后期开始:各种形式的搜索引擎广告快速发展,同时基于自然检索结果的搜索引擎优化开始受到重视;

2004 年-2005 年:搜索引擎广告进入快速增长期,并且营销效果逐步为企业所认可;新的搜索引擎不断出现;

2005 年开始:垃圾SEO 泛滥,严重破坏搜索引擎营销市场秩序,引起主流搜索引擎大规模清理。

相对于 03、04 年的混乱来说,经过了优胜劣汰的洗礼,国内SEO 市场正逐渐向正规化、专业化发展,但是仍然存在着规模小、实际操作性不强等情况。

规模方面:从事SEO 行业的仍然以个人工作室和小公司为主体,同时,部分国外知名企业也开始进驻中国,竞争更为激烈。

技术方面:由于国内缺乏学术交流,从业人员缺乏对技术的探索与追求等因素,SEO技术在国内来说仍然处于较低水平。不过随着国外企业的到来,必将推动技术方面的升级。

市场方面:由于算法的改进,原有的所谓优化方法已经行不通,国外正规企业的加入迫使那部分对SEO 理解比较粗浅者放弃或转向正当方式。行业得到了一定程度的净化。

Google 曾对搜索引擎规则进行调整,很多SEO 公司做过的网站从原先较好的排名消失得无影无踪。

05 年以来,Google 在算法方面有两个比较大的改进。第一,调整反向链接的权重,加强了反向链接相关度的权重。第二,“沙盒效应”。“沙盒效应”主要是针对新网站,以域名正常运作时间,网站内容丰富与否,更新频率等作为一个决定最终排名的权重,而且占着极大的份量。这使得原来所谓的优化方法已经不能奏效,也加长了作业的时间。之前那种靠垃圾链接及堆叠关键词方式作业的SEO 难以为继。

搜索引擎优化的方法有许多种。搜索引擎优化并没有什么像外界说的那样有各种各样的方法,百变不离其宗,都是在围绕搜索引擎排名算法而进行。但是国外对于搜索引擎算法变动比较敏感,看法也比较深刻,从而能及时做出相应对策。而国内只能跟着国外的步伐艰难前进。这取决于学术环境、学术气氛及业内人士对知识的追求程度等因素。

一方面,企业意识到搜索引擎优化的重要性,但又片面追求低投入、短时间、高回报;另一方面,部分从事SEO的企业或个人为了迎合客户需求,不惜作出种种承诺、降低投入来控制成本。这很大程度上取决于从业者的立场、原则,更重要的是他们对SEO 的片面理解及对搜索引擎优化认识的严重缺乏。许多所谓的SEO 认为,做优化不外乎关键词、外部链接从而陷入作弊误区不能自拔。

我们前面提到的Google 搜索规则改变,是不是暗示着国内SEO 发展畸形呢?搜索引擎算法完善的过程是一个不断改进的过程。当搜索引擎开发者发现自身算法缺陷时就会进行改进,发现者可能是搜索引擎的开发者本身,也可能是使用者。两者是一种相互监督、相互促进的关系。

Google 排名规则的改变并不可以说是针对中国SEO 业界,更准确地说是国外从事SEO的部分人员利用了算法的缺陷使用了某种非法手段获得更好的排名,这种手法到了中国就变

得更加普遍,从而迫使Google 进行算法改进。目前国内存在的一些问题与矛盾并不能说国内SEO 发展出现畸形了,而应该说是不断进化。如果哪一天,中国从事SEO 的人士能Google 因其行为而改进算法,那说明我们已经在一定程度上超越国外了。

从各方面看来,SEO 在中国的发展并不顺利,并且造成了一定的负面影响。大概是从02 年开始,国内陆陆续续有人涉足SEO 这一领域。经历过市场洗礼、优胜劣汰,国内SEO 行业正慢慢朝着正规化、规模化方向前进。SEO 行业能否健康发展,在很大程度上取于从业者自身的技术水平与职业素质,也与广大关心及参与搜索引擎营销者息息相关。首先,从业者应该端正作风、坚持立场、坚持原则、坚持以用户为中心。这也是一个SEO 从业者所必需的素质;其次,在学术交流方面,我们应该更积极地参与各种形式的交流与研讨,慢慢形成一种相互交流、相互促进的学术环境;最后,网络营销者应加深对搜索引擎优化行业的认知与理解,搜索引擎优化是一个长期的过程也是一个循序渐进的过程。

1.3国外发展趋势

Yahoo 是最早使用SEO 技术的公司之一,那个时候,他们还没有估计到搜索产业的巨大增长潜力。世纪之交,Yahoo 的联合创始人大卫•费罗和杨致远为了增加站点的曝光度,想办法让他们的网站能被互联网上其他搜索引擎发现。通

过对站点结构的优化和一些“狡猾”的代码编写技巧,他们的网站变得很容易被那些新用户检索到。他们当时也没有考虑将这种服务的商业化操作,因为当时没有人清楚这样做到底是否符合商业道德,也没有可以参考的简单标准。

随着搜索引擎开始对网上的信息进行归类,企业主开始意识到站点被显示在搜索引擎上的价值了,最显而易见的是可以增加站点的访问量。他们开始不断向搜索引擎递交他们站点的网址,为了适应搜索引擎蜘蛛(Robots)而对他们的站点做出改变。前期的努力就集中在站点的递交,不久以后,自动向搜索引擎递交站点的程序诞生了,同样,臭名昭著的搜索引擎垃圾(Spam)也开始存在了。

1994 年,Yahoo、Lycos 等分类目录型搜索引擎相继诞生,搜索引擎表现出网络营销价值,搜索引擎营销思想开始出现;

1995 年,自动提交到搜索引擎的软件诞生,搜索引擎营销“智能化”,此后不久许多搜索引擎开始拒绝自动登录软件提交的信息;

1995-1996 年,基于网页HTML 代码中META 标签检索的搜索引擎技术诞生。利用META 标签改善在搜索引擎中排名的技术很快成为搜索引擎营销的重要内容,这就是搜索引擎优化方法的萌芽;

1997 年,搜索引擎优化与排名自动检测软件问世,网络营销人员可以据此制定针对性的搜索引擎营销策略;

1998 年,“搜索引擎算法”开始关注网站外部链接,“网站链接广度”(link popularity)概念诞生。

SEO 专家开始出现还是近5 年的事情。因为在较早的2001 年,精力充沛的网站管理员们迅速认识到他们可以通过反复向搜索引擎递交来征服搜索结果。然后,不幸的是,随着互联网行业的发展,对于那些不管公正不公正,道德不道德,也不管任何代价,试图将用户引向他们客户站点的SEO 公司来说,搜索引擎已经变得很危险。一些常用伎俩比如关键词堆积、门页、隐形页面或文字(比如将网页字体和背景都设置为白色),已经超出了搜索引擎可以容忍的范围。最终导致的后果是,搜索引擎将这些乱七八糟的手法列为作弊。他迫使那些有道德的SEO 公司开始使用正确的手法去帮助他们客户的站点在搜索引擎上获得好的排名。

Google、Msn、Yahoo 三大搜索引擎,也开始意识到搜索引擎优化这个行业的存在,可以维持和改善搜索结果的有效性,他们需要敞开怀抱接受这个行业。搜索引擎公司也开始跟一些成功的、有道德的SEO 公司合作,建立了一系列公正的合法的优化标准。确保信息对于使用者来说是相关的和有效的非常重要,这样做对于那些在自己站点提供相关内容的人也不存在任何偏见。

2000 年,出现按点击付费(Pay-per-click)的搜索引擎关键词广告模式,搜索引擎广告诞生;

2001 年,搜狐等部分中文分类目录开始收费登录,网站登录每年要交纳数百元到数千元不等的费用,付费搜索引擎营销开始走向主流;

2002 年后半年,在网络广告市场最低潮中,搜索引擎关键词广告市场增长强劲,占2002 年网络广告市场的15%,搜索引擎带动整个网络经济复苏;

2003 年,出现基于内容定位的搜索引擎广告(Google AdSense);

2004 年,搜索引擎全面引领互联网经济潮流,搜索引擎营销的价值被企业普遍接受。

2百度搜索引擎优化

2.1前期域名注册及服务器、空间租用

域名是用户对网站的第一印象,能否让用户迅速记住域名对网站发展非常重要。注册域名时选择容易让用户记忆、容易产生信任感的域名,这样可以提高回头率,并方便用户推荐。

服务器、空间的速度和稳定性直接影响网站的用户体验,也会影响搜索引擎的抓取。选择服务稳定、速度快的服务器或者空间。

2.2面向搜索引擎的网站建设

1.良好的收录

(1)机器可读:百度通过一个叫做Baiduspider的程序抓取互联网上的网页,经过处理后建入索引中。目前Baiduspider只能读懂文本内容,flash、图片等非文本内容暂时不能处理,放置在flash、图片中的文字,百度无法识别。建议使用文字而不是flash、图片、avascript等来显示重要的内容或链接,搜索引擎暂时无法识别Flash、图片、Javascript中的内容,这部分内容无法搜索到;仅在flash、Javascript中包含链接指向的网页,百度可能无法收录。

(2)网站结构:网站应该有清晰的结构和明晰的导航,这能帮助用户快速从你的网站中找到自己需要的内容,也可以帮助搜索引擎快速理解网站中每一个网页所处的结构层次。网站结构建议采用树型结构,树型结构通常分为以下三个层次:首页——频道——文章页。像一棵大树一样,首先有一个树干(首页),然后再是树枝(频道),最后是树叶(普通内容页)。树型结构的扩展性更强,网站内容变多时,可以通过细分树枝(频道)来轻松应对。理想的网站结构应该是更扁平一些,从首页到内容页的层次尽量少,这样搜索引擎处理起来,会更简单。

(3)子域名与目录的选择:选择使用子域名还是目录来合理的分配网站内容,对网站在搜索引擎中的表现会有较大的影响。

(4)规范、简单的url:创建具有良好描述性、规范、简单的url,有利于用户更方便的记忆和判断网页的内容,也有利于搜索引擎更有效的抓取您的网站。网站设计之初,就应该有合理的url规划。

2.良好排序

(1)涵盖网页上主要内容的title:每个网页应该有一个独一无二的标题,切忌所有的页面都使用默认标题:

• 标题要主题明确,包含这个网页中最重要的内容 • 简明精练,不罗列与网页内容不相关的信息

• 用户浏览通常是从左到右的,重要的内容应该放到title的靠前的位置 • 使用用户所熟知的语言描述。如果你有中、英文两种网站名称,尽量使用用户熟知的那一种做为标题描述

(2)良好的内容建设:网站内容建设以服务网站核心价值为主,提供给搜索引擎收录。

的也应该是对自己核心价值有帮助的内容。网站的内容应该是面向用户的,

搜索引擎只是网站的一个普通访客,提供符合用户需求的原创内容至关重要。写好锚文本。资源较丰富的内容,可以以专题等更丰富的内容组织形式提供给用户,让用户以最低的成本获取所有需要的信息。百度爬虫在进行抓取和处理时,是根据http 协议规范来设置相应的逻辑的,所以请站长们也尽量参考http 协议中关于返回码的含义的定义来进行设置。了解404、301、503、403返回码的含义以及爬虫对这些返回码的处理方式。赢得用户对网站的推荐。当网站上的内容对用户有用时,用户会推荐给别人,这些推荐信息,都会被搜索引擎用来判断网页/网站价值的高低。适当的鼓励、引导用户推荐网站,对网站在搜索引擎中的表现有很大帮助。

(3)良好的展现:用户在百度网页搜索中搜索到网页时,title会做为最重要的内容显示在摘要中,一个主题明确的title可以帮助用户更方便地从搜索结果中判断网页上内容是否符合需求。Meta description是对网页内容的精练概括。如果description描述与网页内容相符,百度会把description当做摘要的选择目标之一,一个好的description会帮助用户更方便的从搜索结果中判断网页内容是否和需求相符。

2.3网站运营

1 目标=转化率:从搜索引擎获取流量的最终目的是不断提高网站的核心价值。从搜索引擎获得的流量,有多少能转化为网站的核心价值,这就是转化率。在统计搜索引擎收益时,建议将转化率列为最重要的衡量效果指标。

2 搜索引擎流量分析:可以从跳出率、退出率、用户停留时间这三个方面来衡量网页质量。

2.4 作弊与惩罚

任何利用和放大搜索引擎的策略缺陷,利用恶意手段获取与网页质量不符的排名,引起用搜索结果质量和用户搜索体验下降的行为都会被搜索引擎当做作弊行为。作弊行为在不断的发展,我们的处理手段也在不断的变化,但始终都会维持“轻者轻罚,重者重罚”的原则:对用户体验及搜索结果质量影响不大的,去除作弊部分获得的权值对用户体验及搜索结果质量影响严重的,去除作弊部分获得的权值并降低网站的权重,直至从搜索结果中彻底清理掉。

3谷歌搜索引擎优化

3.1优化网站结构

1 优化URL结构:使用简单易懂的URL表达内容信息。Google擅长于抓取各类型的URL结构 , 即使它们异常复杂 , 但是花一些时间让网站的URL尽可能的简单 , 对于用户和搜索引擎都是有帮助的。在URL中使用包含网站内容和结构的单词会更便于用户浏览网站。 2 网站的导航功能:基于主页来规划网站的导航功能。所有网站都会有它的主页或者“根”页面。这种页面往往是用户访问最多的 , 也是用户检索和浏览该网站的起始点。除非网站

只有屈指可数的几个页面 , 否则应该思考一下如何更好地将用户从主页(根页面)带到有特定内容的页面。面包屑导航是指在网页顶端或者底部放置的一排内部链接 , 它使用户可以方便地回到上一层结构中的网页或者根页面。通过“面包屑导航”给用户带来更多便捷。

3.2优化内容

用户很容易分辨您提供的内容是否是高质量的,并且他们也乐意于通过博客文章、社交媒体服务、电子邮件,论坛和其他方式向自己的朋友推荐您的网站。充分考虑到用户理解您的主题时可能存在的差异性 , 向用户提供独特的、排他性的内容。同样写好锚文本也很重要,合适的锚文本使被链接内容更易于传递。学会使用heading标签来强调重要的文字,便于用户更直观地看出这些文字的重要性。

3.3处理页面抓取

更加有效地使用robots.txt文件。“robots.txt”文件主要用来告知搜索引擎它们是否有权抓取您网站的特定部分。用这个文件来限制网页的抓取。同时慎用Nofollow标签,如果把某一链接的“rel”属性设置成“nofollow”,这意味着是在向Google传达这样的信息:不希望Google继续跟踪抓取这些特定链接所指向的页面,并且也不希望将自己网页的声誉传给这些链接指向的网页。而且我们要学会使用它来打击垃圾留言。

4 自我总结搜索引擎优化策略

4.1标签

对于Keywords和Description标签在书写的时候,可以选择将相同的内容文本在书写。当然了还可以有意的把keywords中的关键词放在Description标签里面,特别是标签的开头位置。(因为关键字越往前,权重越高),当然了要是重复出现就更好了。但是得提醒一下,如果要是优化百度,那么重复的次数就别太多了,反之如果主要是针对谷歌的话,那多重复几次更好。最后在Keywords和Description两个标签中尽量避免出现and/or/the这样的单词。

4.2关键字的比例

可能很多人都知道在一个页面中关键词的比例最好是保持在7%~8%之间,提醒大家千万不要有意的去把关键字的比例提升的太高(这里包括两个方面:Keywords-weight(关键字在页面中出现的次数);Keywords-density(关键字和页面中其它单词的比值))。因为咱们如果刻意的把这个比例提高,反而会被搜索引擎认为是在对其关键字(Keywords-stuffing),进而引来搜索引擎的惩罚。当然了还有一些人在页面中关键词往往都只能达到1%~2%,其实也无所谓的,因为只要不是高于8%,首先就保证了搜索引擎不把当做作弊,那么剩下的就可以通过其他的方式来弥补。毕竟这里在网站的整个优化过程中权重是有限的。

4.3蜘蛛的抓取页面的方向

作为seo应该知道,搜索引擎是从网站的左边到网站的右边,再从网站的上方到网站下方。当然,一般情况下蜘蛛对先从网站中抓取的100个词的权重是最高的。所以在这里如何书写和排列关键字就显得比较重要了。所以要求尽量书写keywords和Description的时候在文章中应该放在中间,甚至得网页下方,总之千万别放在页面的左侧。

4.4图片的ALt属性

蜘蛛是不能直接识别图片的,所以这里就必须使用alt属性了,因为alt属性不仅能帮助蜘蛛来识别图片,同时也是蜘蛛识别网页图片的唯一方法。同时合理的使用alt属性,也能提高一下关键词在页面的比例。

4.5关键字的位置和链接的锚文本

如果站点是关于某个主题的,那么主要的观点或者说关键字应该出现在文章的开始,并贯穿全文,然后在结尾结论时突出。如果已经将导航链接和javascript放在页面的底部,可以在 html结束之前放上相关的文本。如果搜索引擎发现有很多链接使用相同的文本却指向同一个站点,那么它可能就会判断这个站点是和这个关键字相关的,那么在其它人使用这个关键字搜索时就会把这个站点作为结果之一。通常很少有人会注意到去利用链接的文本。不过要注意,这个方法不要使用在互惠链接交换当中,相反在互惠链接交换当中要使用相关但是不相同的文本来做同一个链接的文本。

结论

通过学习搜索引擎优化策略,我逐步的了解了网站优化的一些策略以及搜索引擎的一些工作原理,比如说搜索引擎的分类、搜索引擎的发展史,搜索引擎是如何抓取网页的、网络爬虫是如何工作的、网页是如何查重的、不重复抓取策略、中文分词的方法、PageRank算法等等许多。也了解了一些国内国外的学术搜索引擎及文献库,如CNKI(中国知网)、SCI、EI等等,并且掌握了如何利用百度、谷歌的高级搜索来精确的查找自己需要的内容。

此外,在做本篇文章的同时,通过搜集资料,我也了解了更多关于基于搜索引擎的网站优化、网站推广方式,知道如何提升一个网站在各大搜索引擎的排名、如何判断、排除作弊网站的方法。更深一步的认识到百度和谷歌的排名方式以及网络爬虫的工作原理。

参考文献

[1]ComScore.com 《Press Release:Baidu Third Largest Worldwide Search Property by comScore in December 2007》 comScore.com January 24,2008

[2] ZHANG Tao,LIAO Li(The Network Center,Electrical College,Wubei Uvin.of Tech.,Wuhan 430068,China);On Optimization Strategy of Searching Engine Based on Link[J];Journal of Hubei University of Technology;2010-05

[3] 116024,China 2.College of Information Engineering,Dalian Aquatic Product College,Dalian 116023,China);Search engine optimization strategies based on key words and links[J];Journal of Bohai University(Natural Science Edition);2006-03

[4]ZHANG Tao(Network Centre of Hubei University of Technology,Wuhan 430068,China);Optimization Strategy of Searching Engine for Enterprise Website[J];Journal of Hubei University of Technology;2009-05

国外外文文献原文

Academic Search Engine Optimization (aseo)

——optimizing scholarly literature for google scholar

& co.jo¨ran beel, bela gipp, and erik wilde

This article introduces and discusses the concept of academic search engine optimization (ASEO). Based on three recently conducted studies, guidelines are provided on how to

optimize scholarly literature for academic search engines in general, and for Google Scholar in particular. In addition, we briefly discuss the risk of researchers’ illegitimately ‘over-optimizing’ their articles.

Keywords: academic search engines, academic search engine optimization, ASEO, Google Scholar, ranking algorithm, search engine optimization, SEO

introduction

Researchers should have an interest in ensuring that their articles are indexed by academic search engines2 such as Google Scholar, IEEE Xplore, PubMed, and SciPlore.org, which greatly improves their ability to make their articles available to the academic community. Not only should authors take an interest in seeing that their articles are indexed, they also should be interesting in where the articles are displayed in the results list. Like any other type of ranked search results, articles displayed in top positions are more likely to be read.

This article presents the concept of academic search engine optimization (ASEO) to optimize scholarly literature for academic search engines. The first part of the article covers related work that has been done mostly in the field of general search engine optimization for Web pages.

The second part defines ASEO and compares it to search engine optimization for Web pages. The third part provides an overview of ranking algorithms of academic search engines in general, followed by an overview of Google Scholar’s ranking algorithm. Finally, guidelines are provided on how authors can optimize their articles for academic search engines. This article does not cover how publishers or providers of academic repositories can optimize their Web sites and repositories for academic search engines.

The guidelines are based on three studies we have recently conducted and on our experience in developing the academic search engine

related work

On the Web, search engine optimization (SEO) for Web sites is a common procedure. SEO involves creating or modifying a Web site in a way that makes it ‘easier for search engines to both crawl and index [its] content. There exists a huge community that discusses the latest trends in SEO and provides advice for Webmasters in forums, blogs, and newsgroups.5 Even research articles and books exist on the subject of SEO.

When SEO began, many expressed their concerns that it would promote spam and tweaking, and, indeed, search-engine spam is a serious issue. Today ,however, SEO is a common and widely accepted procedure and overall, search engines manage to identify spam quite well.

Probably the strongest argument for SEO is the fact that search engines themselves publish guidelines on how to optimize Web sites for search engines. But similar information on optimizing scholarly literature for academic search engines does not exist, to our knowledge.

introduction to academic search engine optimization (aseo)

Based on the definition of search engine optimization for Web pages (SEO), we define academic search engine optimization (ASEO) as follows: Academic search engine optimization (ASEO) is the creation, publication, and modification of scholarly literature in a way that makes it easier for academic search engines to both crawl it and index it.

ASEO differs from SEO in four significant respects.

First, for Web search, Google is the market leader in most (Western) countries .This means that for Webmasters (focusing on Western Internet users), it is generally sufficient to optimize their Web sites for Google. In contrast, no such market leader exists for searching academic articles, and researchers

would need to optimize their articles for several academic search engines. If these search engines are based on different crawling and ranking methods, optimization can become complicated.

Second, Webmasters usually do not need to worry about whether their site is crawled and indexed by a search engine: as long as any Web page is linked to an already indexed page, it will be crawled and indexed by Web search engines at some point. The situation is different in academia, where only a fraction of all published material is available on the Web and accessible to Web-based academic search engines such as Cite Seer. Most academic articles are stored in publishers’ databases; they are part of the academic invisible web, and (academic) search engines usually cannot access and index these articles. A few academic search engines, such as Scirus and Google Scholar, cooperate with publishers, but still they do not cover all existing articles.Researchers therefore need to think seriously about how to get their articles indexed by academic search engines.

Third, Webmasters can alter their pages by adding or replacing words and links, deleting pages, offering multiple versions with slight variations, and so on; in this way they can test new methods and adapt to changes in ranking algorithms. Scholarly authors can hardly do so: once an article is published, it is difficult and sometimes impossible to alter it. Therefore, ASEO needs to be performed particularly carefully. Finally, Web search engines usually index all text on a Web site, or at least the majority of it. In contrast, some academic search engines do not index a document’s full text but instead index only the title and abstract. This means that for some academic search engines authors need to focus on the article’s title and abstract, but in other cases they still have to consider the full text for other search engines.

An overview of academic search engines’ ranking algorithms

The basic concept of keyword-based searching is the same for all major (academic) search engines. Users search for a search term in a certain document field (e.g., title, abstract, body text), or in all fields, and all documents containing the search term are listed on the results page.

Academic search engines use different ranking algorithms to determine in which position the results are displayed. Some let the user choose one factor on which to rank the re

sults (common ranking factors are publication date, citation count, author or journal name and reputation, and relevance of the document); others combine the ranking factors into one algorithm, and, more often than not, the user has no influence on the factor’s weighting.

The relevance of a document is basically a function of how often the search term occurs in that document and in which part of the document it occurs. Generally speaking, the more often a search term occurs in the document, and the more important the document field is in which the term occurs, the more relevant the document is considered. This means that an occurrence in the title is weighted more heavily than an occurrence in the abstract, which carries more weight than an occurrence in a (sub) heading, than in the body text, and so on. Possible document fields that may be weighted differently by academic search engines are as follows:

_ Document text _ Title

_ Abstract

_ (Sub) headings _ Author keywords _ Body text

_ Tables and figures _ Document metadata _ Author names _ _ _ _

Publication name (name of journal, conference, proceedings ,book, etc.) Social tags

Social annotations

Metadata of electronic files

_ Title _ Author _ Description _ Keywords _ Filename

_ URI

The metadata of electronic files are especially important for academic search engines crawling the Web. When a search engine finds a PDF on the Web, it does not know whether this PDF represents an academic article, or which one it belongs to; therefore, the PDF must be identified, and one way to do this is by extracting the author and title. This can be done by analysing the full text of the document or the metadata of the PDF.

It is also important to note that text in figures and tables usually is indexed only if it is embedded as real text or within a vector graphic. If text is embedded as a raster graphic (e.g., *.bmp, *.png, *.gif, *.tif,*.jpg), most, if not all, search engines will not index the text.

To our knowledge, none of the major academic search engines currently considers synonyms. This means that a document containing only the term ‘academic search engine’ would not be found via a search for ‘scientific paper search engine’ or ‘academic database.’ What most academic search engines do is stemming: words are reduced to their stems

(e.g., ‘analysed’ and ‘analysing’ would be reduced to ‘analyse’).

google scholar’s ranking algorithm

Google Scholar is one of those search engines that combine several factors into one ranking algorithm. The most important factors are relevance, citation count, author name(s), and name of publication.

A. Relevance

Google Scholar focuses strongly on document titles. Documents containing the search term in the title are likely to be positioned near the top of the results list. Google Scholar also seems to consider the length of a title: In a search for the term ‘SEO,’ a document titled ‘SEO: An Overview’ would be ranked higher than one titled ‘Search Engine Optimization (SEO): A Literature Survey of the Current State of the Art.’ Although Google Scholar indexes entire documents, the total search term count in the document has little or no impact. In a search for ‘recommender systems,’ a document containing fifty instances of this term would not necessarily be ranked higher than a document containing only ten instances.

Like other search engines, Google Scholar does not index text in figures and tables inserted as raster/bitmap graphics, but it does index text in vector graphics. It is also known that neither synonyms nor PDF metadata are considered.

B. Citation Counts

Citation counts play a major role in Google Scholar’s ranking algorithm, as illustrated in which shows the mean citation count for each position in Google Scholar.

It is clear that, on average, articles in the top positions have significantly more citations than articles in the lowest positions. This means that to achieve a good ranking in Google Scholar, many citations are essential. Google Scholar seems not to differentiate between self-citations and citations by third parties.

C. Author and Publication Name

If the search query includes an author or publication name, a document in which either appears is likely to be ranked high. For instance, seventy-four of the top 100 results of a search for ‘arteriosclerosis and thrombosis cure’ were articles about various (medical) topics from the journal Arteriosclerosis, Thrombosis, and Vascular Biology, many of which did not include the search term either in the title or in the full text.

D. Other Factors

Google Scholar’s standard search does not consider article publication dates. However, Google Scholar offers a special search function for ‘recent articles,’ which limits results to articles published within the past five years. Furthermore, Google Scholar claims to consider both publication and author reputation. However, we could not research the influence of these factors because of a lack of data, and therefore we do not consider them here.

E. Sources Indexed by Google Scholar

Bert van Heerde, a professional in the field of SEO, uses the term ‘invitation based search engine’ to describe Google Scholar: Only articles from trusted sources and articles that are ‘invited’ by articles already indexed are included in the database. ‘Trusted sources,’ in this case, are publishers that cooperate directly with Google Scholar, as well as publishers and Webmasters who have requested that Google Scholar crawl their databases and Web sites.

Once an article is included in Google Scholar’s database, Google Scholar searches the Web for corresponding PDF files, even if a trusted publisher has already provided the full text. It makes no difference on which site the PDF is published; for instance, Google Scholar has indexed PDF files of our articles from the publisher’s site, our university’s site, our private home pages .PDFs found on the Web are linked directly on Google Scholar’s results pages, in addition to the link to the publisher’s full text.

If different PDF files of an article exist, Google Scholar groups them to improve the article’s ranking. For instance, if a preprint version of an article is available on the author’s Web page and the final version is available on the publisher’s site, Google indexes both as one version. If the two versions contain different words, Google Scholar associates all contained words with the article. This is an interesting feature that we will discuss in more detail in the next section.

Optimizing scholarly literature for google scholar and other academic search engines

A. Preparation

In the beginning it is necessary to think about the most important words that are relevant to the article. It is not possible to optimize one document for dozens of keywords, so it is better to choose a few. There are tools that help in selecting the right keywords, such as Google Trends, Google Insights, Google Adwords keyword tool, Google Search–based keyword tool, and Spacky.

It might be wise not to select those keywords that are most popular. It is usually a good idea to query the common academic search engines using each proposed keyword; if the search already returns hundreds of documents, it may be better to choose another keyword with less competition.

B. Writing Your Article Once the keywords are chosen, they need to be mentioned in the right places: in the title, and as often as possible in the abstract and the body of the text (but, of course, not so often as to annoy readers). Although in general titles should be fairly short, we suggest choosing a longer title if there are many relevant keywords. Synonyms of important keywords should also be mentioned a few times in the body of the text, so that the article may be found by someone who does not know the most common terminology used in the research field. If possible, synonyms should also be mentioned in the abstract, particularly because some academic search engines do not index the document’s full text. Be consistent in spelling people’s names, taking special care with names that contain special characters. If names are used inconsistently, search engines may not be able to identify articles or citations correctly; as a consequence, citations may be assigned incorrectly, and articles will not be as highly ranked as they could be. For instance, Jo¨ran, Joeran, and Joran are all correct spellings of the same name (given different transcription rules), but Google Scholar sees them as three different names.

The article should use a common scientific layout and structure, including standard sections: introduction, related work, results, and so on. A common scientific layout and structure will help Web-based academic search engines to identify an article as scientific. Academic search engines, and especially Google Scholar, assign significant weight to citation counts. Citations influence whether articles are indexed at all, and they also influence the r

anking of articles. We do not want to encourage readers to build ‘citation circles,’ or to take any other unethical action. But any published articles you have read that relate to your current research paper should be cited. When referencing your own published work, it is important to include a link where that work can be downloaded. This helps readers to find your article and helps academic search engines to index the referenced article’s full text. Of course, this can also be done for other articles that have well-known.

C. Preparing for Publication

Text in figures and tables should be machine readable (i.e., vector graphics containing font-based text should be used instead of rasterized images) so that it can easily be indexed by academic search engines. Vector graphics also look more professional, and are more user friendly, than raster/bitmap graphics. Graphics stored as JPEG, BMP, GIF, TIFF, or PNG files are not vector graphics.

When documents are converted to PDF, all metadata should be correct (especially author and title). Some search engines use PDF metadata to identify the file or to display information about the article on the search results page. It may also be beneficial to give a meaningful file name to each article.

D. Publishing

As part of the optimization process, authors should consider the journal’s or publisher’s policies. Open-access articles usually receive more citations than articles accessible only by purchase or subscription; and, obviously, only articles that are available on the Web can be indexed by Web-based academic search engines. Accordingly, when selecting a journal or publisher for submission, authors should favour those that cooperate with Google Scholar and other academic search engines, since the article will potentially obtain more readers and receive more citations. If a journal does not publish online, authors should favour publishers who at least allow authors to put their articles on their or their institutions’ home pages.

E. Follow-Up

There are three ways to optimize articles for academic search engines after publication. The first is to publish the article on the author’s home page, so that Web-based academic search engines can find and index it even if the journal or publisher does not publish the article online. An author who does not have a Web page might post articles on an institutional Web page or upload it to a site such as Sciplore.org, which offers researchers a personal publications home page that is regularly crawled by Google Scholar (and, of course, by SciPlore Search). However, it is important to determine that posting or uploading the article does not constitute a violation of the authors agreement with the publisher.

Second, an article that includes outdated words might be replaced by either updating the existing article or publishing a new version on the author’s home page. Google Scholar, at least, considers all versions of an article available on the Web. We consider this a good way of making older articles easier to find. However, this practice may also violate your publisher’s copyright policy, and it may also be considered misbehavior by other researchers. It could also be a risky strategy: at some point in the future, search engines may come to classify this practice as spamming. In any case, updated articles should be clearly labelled as such, so that readers are aware that they are reading a modified version.

Third, it is important to create meaningful parent Web pages for PDF files. This mea

ns that Web pages that link to the PDF file should mention the most important keywords and the PDFs metadata (title, author, and abstract). We do not know whether any academic search engines are considering these data yet, but normal search engines do consider them, and it seems only a matter of time before academic search engines do, too.

Discussion

As was true in the beginning for classic SEO, there are some reservations about ASEO in the academic community. When we submitted our study about Google Scholar’s ranking algorithm to a conference, it was rejected. One reviewer provided the following feedback: ‘I’m not a big fan of this area of research. I know it’s in the call for papers, but I think that’s a mistake.’ A second reviewer wrote,[This] paper seems to encourage scientific paper authors to learn Google scholar’s ranking method and write papers accordingly to boost ranking [which is not] acceptable to scientific communities which are supposed to advocate true technical quality/impact instead of ranking. ASEO should not be seen as a guide on how to cheat academic search engines. Rather, it is about helping academic search engines to understand the content of research papers and, thus, about how to make this content more widely and easily available. Certainly, we can anticipate that some researchers will try to boost their rankings in illegitimate ways. However, the same problem exists in regular Web searching; and eventually Web search engines manage to avoid spam with considerable success, and so will academic search engines. In the long term, ASEO will be beneficial for all—authors, search engines, and users of search engines. Therefore, we believe that academic search engine optimization (ASEO) should be a common procedure for researchers, similar to, for instance, selecting an appropriate journal for publication.

国外外文文献译文

学术搜索引擎的优化 (aseo)

——对于 google 学术搜索 & co 的优化学术文献

jo¨ran beel,贝拉 gipp 和埃里克 • 王尔德

这篇文章介绍并讨论学术搜索引擎的优化 (ASEO) 的概念。基于三个最

近一项研究,指导方针提供关于如何在一般情况下,优化学术文献学术搜索引擎和 Google 学者特别是。此外,我们简要地讨论风险的研究人员的非法地 “过度优化”他们的文章。

关键字: 学术搜索引擎,学术搜索引擎的优化,ASEO、 Google 学术搜索,搜索排名算法,搜索引擎的优化,SEO

简介

研究人员应当有兴趣在确保他们的文章由学术搜索引擎如 Google 学术搜索、 Ieeexplore、 PubMed 和 SciPlore.org索引,从而大大提高他们的能力,使其文章可供学术界使用。不仅作者应采取有兴趣看,他们的文章被编入索引,他们也应该对文章在结果列表中的显示位置很在意。像任何其他类型的排名的搜索结果,显示在最高职位的文章更有可能被读取。

本文介绍了学术搜索引擎的优化 (ASEO) 来优化学术文献的概念。文章的第一部分包括的大部分是在一般的搜索引擎优化的 Web 页字段中的相关的工作。第二部分定义 ASEO ,并将其搜索引擎优化为 Web 页进行比较。第三部分提供的是一般情况下使用排名算法的学术搜索引擎,其次是 Google 学术搜索的概述及排名算法。最后,是关于作者如何优化他们的文章使之为学术搜索引擎提供的原则。这篇文章并不包括出版商或供应商如何的优化他们的 Web 站点的学术资料库和学术搜索引擎的存储库。

根据我们最近进行的三个研究 和我们发展的学术搜索引擎相关的工作经验,对 Web 搜索引擎、搜索引擎优化 (SEO) 的 Web 站点是一个共同的做法。涉及到创建或修改,使它在一个 Web 站点的 SEO '的两个搜索引擎抓取和索引它的内容更容易。最近社会上大量讨论 SEO 的最新趋势,并且有在论坛、 博客和新闻组中的网站管理员提供咨询意见。甚至研究文章和书籍上的主题都存在SEO。

当 SEO 开始,许多人表示他们的关注,它将促进垃圾邮件的调整,事实上,搜索引擎的垃圾邮件是一个严重的问题。 今天,然而,在SEO被广泛接受的过程的同时,总体而言,搜索引擎管理很好的识别了垃圾邮件。

可能有关SEO 的最强有力的论据是搜索引擎自身发布关于如何优化搜索引擎网站指导方针的事实。 但就我们所知的类似资料,关于优化学术文献的学术搜索引擎却并不存在。

学术搜索引擎的优化 (aseo) 简介

基于Web 页的搜索引擎的优化(SEO) 的定义,我们将定义学术搜索引擎的优化 (ASEO),如下所示: 学术搜索引擎的优化 (ASEO) 是学术文献创建、 发布和修改的方式,使它更容易为两个学术搜索引擎抓取和索引。

ASEO 不同于 SEO 在四个重要方面。

首先,对于 Web 搜索,谷歌是大多数 (西部) 国家的市场领导者。这意味

着网站管理员 (重点西方互联网用户),是一般足以为谷歌优化他们的 Web 站点。相比之下,搜索学术文章则没有这种市场领导者存在,研究人员将需要进行优化他们的几个学术搜索引擎。如果这些搜索引擎基于不同的爬行和排序方法,优化可以变得复杂。

第二,网站管理员通常不需要担心他们的网站是否是爬网和索引的搜索引擎: 只要任何 Web 页链接到已索引的页时,它将被Web 搜索引擎抓取和索引。这种情况在学术界是不同的,所有已出版材料只有一小部分在基于 Web 的学术搜索引擎的 Web 上可用和可以访问,如 CiteSeer。大多数的学术文章存储在“出版者数据库” ;他们属于学术不可见 的web, (学术) 搜索引擎通常不能访问和索引这些文章。几个学术搜索引擎,如 Scirus 和 Google 学术合作的出版商,他们仍然并不涵盖所有现有文章。因此,研究人员需要认真思考如何能让他们通过学术搜索引擎索引文章。

第三,网站管理员可以通过添加或替换单词和链接,删除页面,提供多个版本略有差别,等等改变他们的页面; 以这种方式他们可以测试新的方法和适应变化的排名算法。学术作者几乎不可以这样做: 一旦发表了一篇文章,这种更改是困难的有时甚至是不可能的。因此,ASEO 需要特别仔细地执行。最后,Web 搜索引擎通常索引所有文本都在一个网站上,或在至少多数在同一个上。相反,一些学术搜索引擎并不索引文档全文,而只索引仅标题和摘要。这意味着对于一些学术搜索引擎作者需要侧重于文章的标题和摘要,但在其他情况下他们仍必须考虑其他搜索引擎的完整文本。

概述学术搜索引擎排名算法

所有主要 (学术) 搜索引擎来说,基于关键字的搜索基本概念是相同的。用户在某些文档字段 (例如,标题、 抽象的正文文本)或在所有领域搜索搜索词,并在结果页上列出了包含搜索词在内的所有文档。

学术搜索引擎使用不同的排名算法来确定在哪个位置中显示结果。有些让用户选择其中一个因素来决定排名的结果 (共同排名的因素是出版日期、 引文数、 作者或杂志名称和声誉和相关性的文档) ;其他人将排名的因素合并成的一种算法,而且用户往往因素权重上不受影响。

一个文件的相关性功能基本上就是如何的确定经常搜索字词出现在该文件中,并发生在文档的哪一部分。一般来说,搜索字词出现在文档中的次数越多,表明文档越关联。这意味着发生在标题中的加权比重比发生在正文中更有份量,依此类推。按学术搜索引擎可能会以不同的方式加权的可能文档字段,如下所示:

_ 文档文本 _ 标题 _ 摘要

_ (分) 标题 _ 作者关键字 _ 正文文本 _ 表和图

_ 文档元数据 _ 作者姓名

_ 发布名称 (杂志、 会议、 诉讼程序、 书等名称)。 _ 社会标签 _ 社会批注

_ 电子文件的元数据 _ 标题 _ 作者 _ 说明 _ 关键字 _ 文件名 _ URI

在学术搜索引擎抓取网站时电子文件的元数据是特别重要的。当一个搜索引擎在网络上找到的 PDF 时,它不知道是否这个 pdf 文件表示一篇学术文章,或者它属于哪一个;因此,必须查明 PDF,执行此操作是通过提取作者和标题。这可以通过分析文档的完整文本或 PDF 的元数据。

尤为重要的是要注意到通常索引文本框中的数字和表,只有当它嵌入作为真实的文本或矢量图形内。如果文本作为光栅图形 (例如,应用、 *.png、 *.gif、 *.tif、 *.jpg)、 嵌入的大多数,如果不是全部,搜索引擎不会索引文本。对我们的知识,没有一个主要的学术搜索引擎目前考虑同义词。这意味着,一个包含仅一词的文档的学术搜索引擎通过搜索会找不到'科学论文搜索引擎'或'学术数据库。学术搜索引擎做的最多的是: 字减少到其茎 (例如, '分析'和'分析'将减少到'分析').

google 学术搜索排名算法

Google 学术搜索是那些将几个因素合并成一个排序算法的搜索引擎之一。最重要的因素是相关性、 引文数、 作者姓名和发布的名称。

A.相关性

Google 学者强烈侧重于文档标题。包含在标题中的搜索词的文档很可能要定位在结果列表的顶部附近。谷歌学者似乎也考虑一个标题的长度: 在搜索词 'SEO,'文档标题为'SEO: 概述'将排名高于一个题为'搜索引擎优化 (SEO)。虽然 Google 学术搜索索引整个文档,在文档中的总搜索词计数已很少或没有影响。在搜索'推荐系统'这个词的文档时,包含五十实例的将不一定排名高于包含只有十个实例文档。

像其他搜索引擎,Google 学术搜索没有索引的数字和作为光栅/位图图形,插入的表中的文本,但它会索引矢量图形中的文本。它也已知既不是同义词,也不是 PDF 被认为是元数据。

B.引文计数

引证发挥重大作用,Google 学术搜索的排名算法,显示在 Google 学术搜索的每个位置的平均引文数。这意味着要获得一个好的排名在谷歌学术搜索,许多引文必不可少的。谷歌的学者似乎不区分自引和由第三方的引文。

C.作者和出版刊物名称

如果搜索查询包括作者或刊物名称,一份文件,其中显示的是可能会高的排名。例如,有关各种主题(医疗)杂志“动脉硬化,血栓和血管生物学,动脉粥样硬化血栓形成和血管生物学的各种 (医疗) 话题的文章,搜索结果的前100名74其中许多不包括搜索词或标题中的完整文本。

D.其他因素

Google 学术搜索的标准搜索不考虑文章发表日期。然而,Google 学者提供特殊的搜索功能'最近的文章',的结果限制为文章发表在过去五年之内。此外,Google 学者声称考虑出版物和作者的声誉。然而,我们无法考证这些因素的影

响,因为缺乏数据,因此,在这里我们并不认为他们。

E.由 Google 学术搜索编入索引的来源

Bert van Heerde,专业的 SEO,字段中使用的术语'邀请基于搜索引擎'来描述谷歌学者: 只有文章从受信任的来源和文章的是'邀请' 的已经索引包含在数据库中。可信来源,在这种情况下,出版商,直接与谷歌学术合作,以及出版商和网站管理员已要求谷歌学术搜索抓取他们的数据库和网站。

若一篇文章包含在 Google 学术搜索的数据库中,Google 学术搜索为相应的 PDF 文件,网页,即使受信任的发行者已提供的完整文本。它在网站发布 PDF上没有区别 ; 例如,Google 学术搜索已索引我们从发布服务器的文章的 PDF 文件的网站、 我们的大学的网站、 我们的私人主页和在网上找到的 pdf 文件链接直接在 Google 学术搜索上的结果页,除了到发布服务器的完整文本的链接。

如果存在的一篇文章,不同的PDF文件, Google学术团体,他们以提高文章的排名。比如说,如果预印本版的一篇文章是作者的网页上提供的最终版本是在出版商的网站, Google索引的一个版本。如果两个版本包含不同的话,谷歌学术联营包含的所有单词的文章。这是一个有趣的功能,我们将在下一节中更详细讨论。

优化学术文献为谷歌的学者和其他学术搜索引擎 A. 制备

在开始的时候是必要去想了大多数重要的话,有关的文章。这是不可能为几十个关键字来优化一个文档,所以最好是选择一些。有一些工具,帮助选择合适的关键字,如GoogleTrends ,谷歌的见解,谷歌的Adwords关键字工具,谷歌基于搜索的关键字工具, Spacky 。

它可能不要选择那些最流行的关键字。使用每个建议关键字查询常见的学术搜索引擎,它通常是一个好主意,如果搜索已经返回数百页的文件,它可能是更好的选择竞争不太激烈的另一个关键词。

B.写你的文章

一旦选择了关键字,他们需要在合适的地方提到: 在标题中,并在摘要和正文文本的 (但当然,不要过于频繁以至于烦扰的读者) 尽可能多。虽然一般的标题应该是相当短的我们建议选择一个较长的标题,如果有许多相关的关键字。重要的关键字的同义词还应提及过几次在正文中的文本,以便文章可能找到的人不知道在研究领域使用的最常见术语。如果可能,同义词还应提及在抽象,特别是因为某些学术搜索引擎并不索引文档的完整文本。保持一致在拼写人的名称,在名称包含特殊字符的特别照顾。如果不一致地使用名称,搜索引擎可能不能识别的文章或引文正确 ;因此,可能会不正确地分配引文和文章会不会一样高度排名因为他们可以。例如,Jo¨ran,Joeran 和 Joran 所有的正确拼法相同的名称 (赋予不同的转录规则),但 Google 学者认为它们是三个不同的名字。

文章应该使用一个共同的科学布局和结构,包括标准部分:介绍,相关的工作,结果,等等。一个共同的科学布局和结构将有助于基于Web的学术搜索引擎,以确定一个科学的文章。学术搜索引擎,尤其是谷歌学术搜索,分配重量显著引用计数。参考文献的影响是否在所有的文章索引,并且它们还影响排名的文章。我们不希望鼓励读者打造'引用界“,或采取任何其他不道德行为。但是,您已经阅读您目前的研究论文,涉及到任何发表文章被引用。当您自己发表的作品的引用,重要的是包含一个链接可以下载该工作所在。这有助于读者找到文章,

有助于学术搜索引擎索引引用的文章的全文。当然,这也可以做其他文章,有知名的下载位置。

C.准备出版物

数字和表格中的文本应该是机器可读 (即,包含基于字体的文本的图形应使用而不是栅格化图像的矢量),它可以轻松地通过学术搜索引擎的索引。矢量图形还看起来更专业,更多用户友好,比光栅/位图图形的情况。图形存储为 JPEG、 BMP、 TIFF、 GIF 或 PNG 文件并不是矢量图形。

当文档被转换为 pdf 格式,所有的元数据应正确 (尤其是作者和标题)。一些搜索引擎使用 PDF 元数据,以确定该文件或搜索结果页上显示有关文章的信息。它也可能有益,给每篇文章的一个有意义的文件名称。

D.发布

作为一部分的优化过程中,作者应考虑本杂志的或发布者'的政策。开放获取文章通常收到比文章只能通过购买或订阅 ; 访问更多引文和,很明显,可以通过基于 Web 的学术搜索引擎索引只是在 Web 上可用的文章。因此,在选择时日记或发布服务器上提交,作者应有利于那些合作与谷歌的学者和其他学术搜索引擎,因为文章将有可能获得更多的读者和接收更多引文。 如果不在线,发布日志作者应有利于出版商至少允许作者把他们的文章对其或其机构的主页。

E.后续行动

有三种方法来优化学术搜索引擎的文章发表之后。第一是可以发布的文章作者的主页上,以便基于 Web 的学术搜索引擎可以查找和索引它即使杂志或发行者不发布在线文章。没有一个 Web 页的作者可能文章投递体制的 Web 页上或将其上载到一个网站提供个人出版物的主页,定期进行爬网的 Google 学术搜索的研究人员等。然而,它是协议的重要的是协议的确定发布或上载文章并不构成违反了作者与出版商所达成。

第二,一篇文章可能被替换更新现有的文章或出版的新版本强奎作者的主页,包括过时的话。谷歌学术搜索,至少可在网络上的一篇文章,认为所有版本。我们认为这是一个很好的方式使旧的文章更容易找到。然而,这种做法也可能侵犯出版商的版权政策,它可能也可以考虑由其他研究人员的不当行为。它也可能是一个冒险策略:搜索引擎可能会在未来的某些时候,这种做法归类为垃圾邮件。在任何情况下,应明确标示更新的文章,正因为如此,让读者都知道,他们正在阅读的修改版本。

第三,重要的是要创造有意义的家长为PDF文件的网页。这意味着,网页链接到PDF文件中提到的最重要的关键词和PDF文件的元数据(标题,作者,摘要) 。我们不知道是否有任何学术搜索引擎正在考虑这些数据,但正常的搜索引擎不考虑他们,并做学术搜索引擎之前,它似乎只是一个时间问题了。

讨论

当我们提交关于Google学术搜索的排名算法的一个会议,我们的研究却遭到了拒绝。一位评论家提供了以下反馈: “我不是一个大风扇,这方面的研究。

经典的 SEO 的开始,对 ASEO 在学术界有所保留。当我们提出我们关于 Google 学术搜索排名算法的研究 到会议,它被拒绝了。一个审阅者提供以下反馈: '我'不是很喜欢这方面的研究。我知道这是在论文征集,但我认为那是个错误。“第二个评论家写道,这似乎是鼓励学习Google学者的排名方法和写论文的科学论文作者提高排名[这是不是可接受的科学界,这是为了倡导真正的技术质量/冲击,而不是排名。 ASEO不应该被看作是一个指导如何作弊学术搜索引擎。

相反,它是帮助学术搜索引擎理解的内容的研究论文,因此,如何三思而后行此内容更广泛,更容易获得。当然,我们可以预见一些研究者将尝试以不正当方式提高自己的排名。当然,我们可以预期,一些研究人员将尝试以不正当的方式提高他们的排名。然而,同样的问题存在于普通的Web搜索和最终网络搜索引擎管理避免垃圾邮件相当大的成功,所以将学术搜索引擎。从长远来看, ASEO将是有益的作者,搜索引擎,搜索引擎的用户。因此,我们相信,学术搜索引擎优化( ASEO )应该是一个共同的研究程序,类似,例如,选择一个合适的期刊出版。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- yrrd.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务