当前位置:seo优化 > seo教程 > seo技术 > 搜索官方的一篇相关性文章分享

搜索官方的一篇相关性文章分享

作者:beylze 51℃ 暂无评论

议程

  • 概述

  • 检索词

  • 用户的信息需求

  • 网页的自有信息

  • 网页的附属信息

  • 相关性的计算框架

概述

1、相关性的表象

  • 检索词与被检索网页的相关联程度

  • 相关性的真实意义

  • 用户信息需求与结果网页所提供的信息的重合度

  • 相关性涉及的因素

  • 检索词

  • 用户信息需求

  • 网页自有信息

  • 网页附属信息

  • 检索结果的显示方式

2、网页与普通文本的不同:异质性

  • 手工及发布系统

  • 动态与静态

  • 时效性:不同时间产生

  • 动态性:可随时间变化

  • 新闻

  • 商业及产品信息

  • 个人爱好

  • 娱乐信息

  • 研究及学术信息

  • 新闻记者

  • 研究人员

  • 商业人士

  • 个人

  • 来源不单一

  • 用途不单一

  • 产生方式多样化

  • 欺骗与造假

检索词

1、语义

  • 人名

  • 地名

  • 公司及机构名

  • 商品及服务名

  • 其他专有名词名

  • 实体名

  • 普通名词

  • 其他类别名

  • 其他

2、信息格式

  • 语种

  • 结构化,非结构化

3、信息类别

  • 研究信息

  • 商品及服务信息

  • 宗教文化

  • 娱乐信息

  • 新闻

  • 个人信息

4、检索词格式

  • 数值

  • 布尔运算(AND, OR, NOT)

  • 特殊语法(网站检索,类别检索,filetype,linkto)

  • Rank Query

5、检索词 - 相关性处理

  • 实体名的判定用于网站首页加权

  • 检索词分类用于与网站网页分类结合加权

  • 按网页结构信息分类(主页,频道页,检索页,错误页,租用页…)

  • 按网页内容主题分类(体育,保健,娱乐,教育..)

  • 单语素与多语素

  • AND检索的研究

  • 信息类别的分类与统计

  • 行业与地域的分类与统计

  • 检索格式的分析

  • 网页分类两种体系

用户的信息需求

1、检索任务的多样性

  • 确定的特定信息的查询

  • 知识获取式的浏览

  • 目的不明确的浏览:在过程中形成目的

2、检索词的语义多样性

3、检索范围的不确定性

  • 信息种类

  • 行业,地域,等等

4、检索成功的标准不一

  • 实体名,有特定网站,- 导航型查询

  • 实体名,无特定网站,有相关网站 - 事务型查询

  • 一般信息,无网站信息,许多网页提及 - 信息型查询

  • 一般信息,无网站信息,很少网页提及 - 信息型查询

个人知识结构与兴趣

个人的信息精确性和多样性要求程度

用户的信息需求- 相关性设计

结果首页尽量显示多个类型的网页

功能,多分类和垂直搜索结果整合设计

个性化排序设计

检索日志的后台分析

用户行为数据挖掘

网页的自有信息(属性)

1、文本信息:字,词,短语,句子,段落,篇章

2、文本特征信息

标题

正文

文章长度

知识量

其他特征:黑体,链接,等等

3、结构信息

导航(一级导航,二级导航。。。)

广告(文字链,banner)

图片

引用(博客,论坛),

版权说明等等

4、语义信息

文章类型:综述/细节,新闻,科技与研究,个人,特种文件链接

地域信息

行业信息

5、语种信息

网页的自有信息 - 相关性设计

6、切词一致性与准确性

正文内容的歧义消解,未登录词识别

查询词切分和正文切分的一致性问题处理

7、文本特征提取与权重指定

对超长文章的修正

DOC,PPT,PDF处理

语义tag的引入

特征tag的权重和调整

广告文字

网页模板文字

iframe处理

js 内容处理

标题长度截取

标题验证去除人工错误

标题作弊判别

无正文的标题处理

标题提取规则:URL,标题等

实际标题

标题的准确性

标题的真实性

正文的准确性

正文的真实性

文章长度的调整系数

8、网页的自有信息 - 相关性设计

  • 结构信息提取与处理

首页和频道首页的识别和标记,将使用网站PR

导航区的统计,识别和标记

用于首页识别,链接将不参与PR及外部锚文本的计算

网站附属页的统计,识别和标记

赋予网站相关的PR, 链接将不参与PR及外部锚文本的计算

广告链接的统计,识别和标记,将不参与PR及外部锚文本的计算

  • 内容分析

通过特征统计结合手工方式进行网站分类

文章类型信息:新闻页的特殊标记

地域信息

行业及其他分类信息

中英文比例调整

网页的附属信息(属性)

  • 网页本身的附属信息

连通率

死链情况

URL:长度与级数,动态与静态

产生时间

网页文件大小

可连接程度

  • 内容的稳定性:

更新周期

生命周期

  • 所属域名及网站特性

类别

权威性

  • 网页由环境所产生的附属信息

用户的评价

深度和广度

在网站内的重要性:首页,频道,外部被链接数量

全局权威性:被别人的认可程度

时效性:距今时间

真实性:实际内容信息与文本和附属信息的吻合度

重复性:与其他网页内容的重合度

信息内容和质量:别人对内容的认可程度

网页的附属信息-相关性处理

  • 时间信息参与排序

新闻页的倒排: 强影响

网页的时间因素:弱影响

不影响首页和频道首页

  • 连通率与更新率参与排序

弱连通的减权

死链的减权

更新频度参与减权

  • 网站特性

作弊连接网站的黑名单(Link Farm)

TrickRank

网站分类与检索词的吻合提高相关性

网站真实性参与相关性计算:

  • 网站重要性:

网站DR(Domain Rank)

Block PR

计算站内PR,网站分别计算

计算站外PR,不考虑站内链接

  • 排重和保留

镜像列表: PR和外部锚文本的传递

首页排重规则

内容排重规则

跳转的类型和规则: PR和外部锚文本的传递

  • 外部锚文本的真实性

链接交换网站黑名单

正文验证去躁

相关性的计算框架

主要设计模式

有公式-相关性排序

无公式人工神经网络(MLR)

针对检索词和用户信息需求综合分析确定策略

人工和程序结合提高网页自有信息的提取和处理能力

提高锚文本包含的词质量,防止作弊

PR,DR,TR结合,提高网页权威性判定质量,保证首页,索引页靠前

增加网页附属信息参与排序

增加各因素之间的交叉验证

对部分高频词做手工调整(homony)

相关性排序的周边技术

下载

正文分析

切词

手工与程序分类

PR,DR,TR计算

锚文本词处理

遗传算法训练排序因子

看懂这篇文章价值的不用多少,不懂的解释也没用,自行学习。


转载请注明: http://www.beylze.com/news/369.html
喜欢 ()or分享