欢迎访问【精品信息提供平台】太少网
设为首页 | 收藏本站
国际信息 民生信息
时政信息 经济信息
社会信息 体育信息
名人信息 政坛人物
时事观察 政策解读
法治生活 法律法规
安全生产 食品安全 生态环保
健康卫生 房产商情 财经在线
娱乐资讯 旅游天下 科技之窗
文化名人 文化产业
中华情缘 书画收藏
报料投稿 查询系统
您所在的位置: > 法律法规 >

人工智能产品商业化设计_Web产品必读 | SEO入门知识点总结

时间: 2019-09-10 04:41 作者:北京网络公司_北京网站制作 来源:北京网站优化_北京网站建设 点击:

  最近在看SEO方面的知识,很是有趣,能学些新东西的感觉总是好的,随着经历增多心境较之前也少了些浮躁,当下的年纪也正是钻研些好玩事物的大好时光,在这里给大家推荐两本SEO的基础入门书籍,《百度SEO一本通》《7天精通SEO》希望借此文和志同道合者共同进步!

  虽然现在最火的SEO书籍是Zac出的那本《SEO实战密码》,豆瓣评分也不错,但实际读来逻辑比较散乱,信息量太大,有点像历史博客文章的堆积,对于刚接触SEO的人来说其实并不适合,

  个人建议可以先从入门的书籍开始看,形成自己的理解体系,然后再用自己建立起来的这套体系去做加深阅读,这也是我常用的方法,实际说来我看书的量并不多,更偏向看适合自己这个阶段的,去到书中参悟。

  首先,让我们先来看看这两本书的逻辑体系,带着方向去阅读:

  

305478-a5f6e34099ebe1a5

 

  《7天精通SEO》

  这书本重点看站内篇、站外篇、策略篇部分,这三个部分主要讲做优化的实际方法论,基础篇就是了解大致常识,可以快速浏览,可以和案例篇专题篇组合来看。

  

305478-45e32a8d3fd4089b

 

  《百度SEO一本通》

  这本书主要看关键词、链接优化技巧,理解和了解网络技术和百度的竞价推广、网盟推广。

  接下来,梳理下SEO的基本常识(不完全的部分会在后续补充)

  SEO定义:

  Search Engine Optimization(全称)也即搜索引擎优化,就是从搜索引擎上获得流量的技术。搜索引擎的主要工作包括:通过了解搜索引擎的工作原理掌握如何在网页流中爬取网页、如何进行索引以及如何确定某一关键词排名位置从而对网页内容进行科学的优化,使其符合用户浏览习惯的同时提高排名与网站访问量,最终获得商业化能力的技术。

  搜索引擎工作原理:

  主要有三段工作流程:爬行抓取、预处理、服务输出

  2.1 爬行抓取

  主要功能是对网页进行抓取,目前有三种爬行抓取方法

  批量收集:对互联网上只要是存在链接的网页都收集一遍,耗时较长,在几周左右,缺点是增加了额外的带宽消耗,时效性也不高。

  增量收集:在原有已收集的网页基础上搜索新增加的网页,变更上次收集之后有改变的页面,删除收集重复和不存在的网页。

  站长通过工具向搜索引擎主动提交网站,【北京做网站公司哪家好:15611115563】,这种方法的响应速度比较慢,主流上还是提倡让搜索引擎蜘蛛主动来爬取。

  2.1.1 常见蜘蛛

  搜索引擎蜘蛛是搜索引擎的一个自动程序,作用是访问互联网上的网页、图片、视频等内容,建立索引库,一般用法为spider+URL这里的URL是搜索引擎的痕迹,可以通过查看服务器里的日志里是否有该URL,同时还能查看一些列属性。

  百度蜘蛛:可根据服务器的负载能力调价访问密度,降低服务器的压力,但百度蜘蛛通常会抓取同样的页面,导致其他页面无法被抓取而不能被收录,一般通过robots协议来避免

  Baiduspider+(+http://www.baidu.com/search/spider.htm)

  谷歌蜘蛛:属于比较活跃的网站扫描工具,其间隔28天左右就会派出蜘蛛检索有更新或者有修改的网页。谷歌蜘蛛的爬取深度要大于百度。

  Mozilla/5.0(compatible;Googlebot/2.1;http://www.google.com/bot.html)

  –雅虎中国蜘蛛 Mozilla/5.0(compatible;Yahoo!SLurp China;http://misc.yahoo.com.cn/help.html)**

  –微软必应蜘蛛

  msnbot/1.1(+http://search.msn.com/msnbot.htm)

  –搜索蜘蛛爬行抓取速度较快,抓取的数量相对较少,且不抓取robot.text文件

  Sogou+web+robot+(+http://www.sogou.com/socs/help/webmasters.htm#07)

  –搜搜蜘蛛

  Sosospider+(+http://help.soso.com/webspider.htm)

  –有道蜘蛛

  Mozilla/5.0(compatible;YodaoBot/1.0;http://www.yodao.com/help/webmaster/spider/

 

  2.1.2 爬行策略

  深度优先爬行:沿着一条线抓取下去,知道最后,然后返回到另一条线

  广度优先爬行:在一个页面发现多个链接后,把所有第一层的链接抓取一遍,然后再沿着第二层、第三层……

  2.1.3 预处理

  也即对抓取回来的数据进行一个索引工作,其中包括多个流程,在后台提前完成。

  2.1.3.1 关键词提取

  将HTML、JS、CSS等标签&程序去除,提取用于排名的有效文字。

  2.1.3.2去除停用词

  即反复出现的无用词,如:“得、的、地、啊、阿、再”等

  2.1.3.3分词技术

  是中文搜索引擎特有的技术支持,中文不同于英文单词与单词之间用空格分隔,因此搜索引擎必须把整个句子切割成小单元词,分词的方法有两种

  基于字符串匹配的分词方法按照方向的不同,可以分为正向匹配、逆向匹配和最少切词,混合使用后产生正向最大匹配,逆向最大匹配、正向最小匹配、逆向最小匹配。笔者个人理解为按照中文的习惯对整句进行组词形式的拆分。

  基于统计分词方法 直接调用分词词典中的若干词进行匹配,同时也使用统计技术来识别一些新的词语,将所有的统计结果匹配起来发挥切词的最高效率。

  2.1.3.4消除噪声

  消除网页上各种广告文字、图片、登录框、版权信息等对搜索引擎无用的东西。

  2.1.3.5分析网页建立倒排文件

  正向索引:把页面转换为一个关键词组合,【北京网页制作服务:15611115563】,同时记录每一个关键词在页面上的出现频率、出现次数、格式、位置,使每一个页面都可以记录为一串关键词组合,其中每个关键词的词频、格式、位置等权重信息也都记录在案。

  倒排索引:正向索引不可以直接用于排名,倒排索引以关键词为索引

  2.1.3.6 链接关系计算

  计算出页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚文本等,Google推出的PR是代表之一。

  2.1.3.7 特殊文件处理

  对flash、视频、PPT、XLS、图片等非文字内容不能执行脚本和程序。图片一般使用<alt>标签

  2.3 服务输出

  输出结果的展现方式,如:与搜索关键词匹配的部分用红色字体标出

  

305478-ad3bd3f9e3b8a7a1

 

  输出

  网站分类目录

  是人为编辑的搜索结果,将互联网上优秀的网站收集整理在一起,按照不同的分类或者主题放在相应的目录中,多靠人为提交,如:hao123网址导航

  关键词

  一般指用户在搜索框中自定义输入的信息,按照概念可以分为:目标关键词、长尾关键词、相关关键词;按页面上分,可以为首页、栏目页、内容页关键词;按目的来分可以分为直接性、营销性关键词

  权重和PR值(PageRank)

  PR值是谷歌搜索引擎用来衡量网页重要性的一种方法,也是其判断一个网站好坏的重要标准之一,最大的影响因素为是否拥有大量的高质量外链。

  网站权重是指网站与网站在搜索引擎眼中的分级制“待遇”表现,是搜索引擎中的一个综合表现指标,决定因素有:外部链接的导入、稳定的高质量内容和结构清晰的网站结构等。

  要注意区分这是两个不同的概念

  6. 白帽SEO和黑帽SEO

  7. 锚文本、外链、内链、单向链接、双向链接、导出链接、导入链接

  8. 有机列表

  是SERP中的免费列表,即搜索结果页面的免费列表,可以通过制定SEO策略进行优化。

  9. robots.txt文件

  Robots Exclusion Protocol,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。多用来避免出现大量404页面、死链接

  如何查看?格式:在浏览器中输入URL/robots.txt即可,下面是www.taobao.com/robots.txt文件

  User-agent: Baiduspider

  Disallow: /

  User-agent: baiduspider

  Disallow: /

  User agent 指浏览器

  robots文件常通过组合的方式来运用,主要有如下四种情况

  User-agent: *Disallow:/ 禁止抓取所有页面

  User-agent: *Disallow:/ 允许抓所有页面

  User-agent: BadBot Disallow:/ 禁止某个搜索引擎的访问

  User-agent: Baiduspider.Disallow:User-agent:Disallow 允许百度抓取,而不允许其他抓取

  10. nofollow

  决定是否对网站进行投票,传递权重,可以用来防止垃圾链接

  可以出现在网页级元标记中,用于指示搜索引擎不要抓取网页上的任何<meta name=”robots” content=”nofollow” />

  可以出现在链接前,指示蜘蛛不要抓取某特定链接 <a href=”signin.php” rel=”nofollow”>signin</a>

  黑链

  只存在于源代码中的超链接

  动态网址和静态网址

  搜索跳出率

  用户查到一个网站并点击进入,且只浏览了一个页面就离开所占的比例

  网页快照

(责任编辑:北京网站建设,北京网站制作公司)

国际新闻

更多>>

民生新闻

更多>>

最新文章

推荐文章

Copyright©2018 Inc. All Rights Reserved.太少门户信息网 网站地图 xml
工信部网站备案: 冀ICP备16016618号