石家庄网站建设 > 我是展为 > 展为新闻 >

石家庄制作网站网站优化哪家好

发布时间:2020-10-14

好吧,这就是这种情况。您有一个百万产品的网站。您的竞争对手有很多相同的产品。您需要独特的内容。你是做什么?每个人都做同样的事情-您转向用户生成的内容。问题解决了吧?
 
用户生成的内容(UGC)可以是非常有价值的内容和组织来源,可帮助您建立自然的语言描述和网站内容的人为组织。网站利用用户创建的内容的一种常见功能是标签,从电子商务网站到博客,无处不在。网站管理员可以利用标签来进行站点搜索,创建分类法和产品类别以进行浏览,并提供丰富的站点内容描述。
 
这是一种逻辑和实用的方法,但是如果不加以检查,可能会导致棘手的SEO问题。对于大型站点,手动审核数百万个用户提交的标签可能很麻烦(如果不是完全不可能的话)。但是,如果不检查标签,则会导致内容稀疏,重复内容泛滥和内容泛滥的严重问题。在下面的案例研究中,来自不同公司的三个技术SEO联合起来解决了大规模的标签蔓延问题。该项目由领导雅各布·博霍尔,在市场营销副总裁蜂巢数字,而计算的统计服务,通过提供JR奥克斯的适应合作伙伴和拉斯琼斯的万盎司。让我们潜入。
 
 
什么是标签蔓延?
我们将标签蔓延定义为独特的,用户贡献的标签不受限制的增长,从而导致大量近乎重复的页面和不必要的爬网空间。标签扩展会生成可能被归类为门禁页面的URL,这些页面看来仅是为了建立详尽的关键字数组索引而存在。您可能已经在博客中的帖子标记中以最基本的形式看到了这一点,这就是为什么大多数SEO在Wordpress网站的标记页面中建议一揽子“ noindex,follow”的原因。这种简单的方法对于小型博客网站可能是一种有效的解决方案,但对于主要依靠标签对产品进行分类的大型电子商务网站而言,却往往不是解决方案。
 
 
接下来的三个标签云代表与不同股票照片相关的用户生成的术语列表。注意:用户的行为通常是放置尽可能多的标签,以确保最大程度地展示其产品。
 
USS Yorktown,Yorktown,cvs,cvs-10,bonhomme richard,革命军舰,军舰,海军舰船,军舰,攻击舰,爱国者点,地标,历史悠久的船只,essex级航空母舰,水,海洋
船,船只,约克敦,战船,爱国者普安特,旧战舰,历史地标,航空母舰,战舰,海军舰艇,海军舰艇,见,海洋
约克镇的船只,军舰和航空母舰,历史悠久的军舰,约克镇的航空母舰
如您所见,每个用户都为照片生成了有价值的信息,我们希望以此为基础为相关股票图像创建可索引的分类法。但是,无论规模大小,我们都面临以下直接威胁:
内容稀少:当用户创建更具体的/定义的标签时,只有少数产品共享用户生成的标签,例如“ cvs-10”
重复且相似的内容:这些标签中有许多会重叠,例如“ USS Yorktown”对“ Yorktown”,“ ship”对“ ships”,“ cv”对“ cvs-10”等。
不良内容:由不正确的格式,拼写错误,冗长的标签,连字符和用户犯的类似错误造成。
现在您已经了解了标签蔓延是什么,以及标签蔓延如何对您的网站造成负面影响,我们如何才能大规模解决此问题?
 
拟议的解决方案
在纠正标签蔓延时,我们需要解决一些基本(表面上)的问题。我们需要有效地检查数据库中的每个标签并将它们分组放置,以便可以采取进一步的措施。首先,我们确定标签的质量(某人搜索该标签的可能性,是否正确拼写,是否商业化,是否用于很多产品),其次,我们确定是否存在另一个与它非常相似的标签具有更高的质量。
 
识别优质标签:我们将优质标签定义为能够提供含义的术语,并且很容易被列为搜索结果中的索引页面。这也需要识别一个“ master”标签来代表相似术语的组。
识别不良标签:我们希望隔离那些由于拼写错误,重复,格式不良,歧义性高或可能导致页面质量低下而不会出现在数据库中的标签。
将不良标签与良好标签联系起来:我们假设许多最初的“不良标签”可能是一系列重复项,即复数/单数,技术性/ s语,连字符/非连字符,共轭和其他词干。也可能有两个词组指的是同一件事,例如“ Yorktown ship”和“ USS Yorktown”。我们需要为每个“不良”标签识别这些关系。
对于启发这个职位的项目,我们的示例标签数据库包含超过2,000,000个“独特”标签,这使得手动完成几乎是一项壮举。从理论上讲,我们可以利用Mechanical Turk或类似的平台来进行“手动”审查,但事实证明,此方法的早期测试是不成功的。我们需要一个编程方法(实际上是几种方法),以后可以在添加新标签时进行重现。
 
方法
牢记识别好标签,标记坏标签以及将坏标签与好标签相关的目标,我们采用了十几种方法,包括:拼写校正,出价,标签搜索量,唯一身份访问者,标签数量,波特词干,词形化,Jaccard索引,Jaro-Winkler距离,关键字规划师分组,维基百科消除歧义和带有词向量的K-Means聚类。每种方法都可以帮助我们确定标签是否有价值,如果不是,则可以帮助我们识别出有价值的替代标签。
 
拼写校正
方法:用户生成内容的明显问题之一是拼写错误。我们经常会发现拼写错误,在拼写错误时,将分号换成字母“ L”,或者单词的开头或结尾出现意外字符。幸运的是,Linux有一个出色的内置拼写检查程序,称为Aspell,我们可以使用它来解决大量问题。
好处:这可以很快就赢得胜利,因为当不良标签由字典中未包含的单词或包含无法解释的字符组成(例如单词中间的分号)时,很容易识别出不良标签)。此外,如果更正的单词或短语出现在标签列表中,我们可以相信更正的短语是潜在的良好标签,并将拼错的术语与良好标签相关联。因此,此方法可帮助我们过滤不良标签(拼写错误的术语)并找到良好标签(拼写更正的术语)
局限性:此方法的最大局限性在于,正确拼写的单词或短语的组合不一定对用户或搜索引擎有用。例如,数据库中的许多标签是多个标签的串联,其中用户用空格分隔而不是用逗号分隔其提交的标签。因此,标签可能包含正确拼写的术语,但就搜索价值而言仍然没有用。此外,字典存在很大的局限性,尤其是域名,品牌名称和互联网语。为了适应这一点,我们添加了个人词典,其中包括Quantcast列出的10,000个顶级域名,数千个品牌和一个a语词典。尽管这很有帮助,但仍有一些错误的建议需要处理。例如,我们看到了“
竞价值
方法:虽然标签在描述性上可能不错,但我们希望标签与商业相关。使用标签或标签词组的估算每次点击费用被证明有助于确保该词可以吸引购买者,而不仅仅是访客。
好处:这种方法的一大特点是它往往具有很高的信噪比。每次点击费用高的大多数标签都倾向于与商业相关,并且要进行足够频繁的搜索以保证将其作为“良好标签”。在许多情况下,我们可以确信仅凭此指标就可以使标签良好。
局限性:但是,出价价值指标也有一些很大的限制。对于初学者来说,Google Keyword Planner的歧义化问题显而易见。Google在报告搜索量和CPC数据时将相关的关键字结合在一起,这意味着像“ facbook”这样的标签将返回与“ facebook”相同的数据。显然,我们宁愿将“ facbook”映射到“ facebook”,而不是同时保留两个标签,因此在某些情况下,CPC指标不足以识别良好的标签。出价值的另一个限制是难以获取CPC数据。Google现在需要运行有效的Adwords广告系列才能获得CPC值。即使您有足够的帐户,在Google关键字规划师中查找5,000,000个关键字也不是一件容易的事。幸运的是,我们对历史数据足够值得信赖感到安心,因此我们没有
标签搜索量
方法:类似于CPC,我们可以使用搜索量来确定标签的潜在价值。但是,我们必须小心不要依赖标签本身,因为标签可能太通用了,以致获得与产品本身无关的流量。例如,标签“ USS Yorktown”可能每个月获得数百次搜索,而“ USS Yorktown T恤”则为0。对于索引中的所有标签,我们都跟踪了该标签加上产品的搜索量名称,以确保我们对潜在的产品流量有很好的估算。
好处:与CPC一样,该指标在将我们的代码数据集整合到仅可能带来流量的关键字方面做得非常好。在绝大多数情况下,如果“标签+产品”的搜索量很大,我们可以确信这是一个好词。
局限性:不幸的是,这种方法成为CPC提出的相同歧义消除问题的受害者。由于Google将各个词归为一组,因此在某些情况下,可能会为两个标记赋予相同的指标。例如:“浮桥船”,“浮桥船”,“浮桥船”,“浮桥船”,“浮桥船”和“浮桥船”在同一交通量组中,其中还包括“游艇”和“游艇”等标签。” 此外,在该指标中没有考虑关键字难度。某些标签与产品类型结合使用时,产生的关键字会吸引大量流量,但是对于模板化的标签页面而言,它们始终是遥不可及的。
不重复访客
方法:这个方法很简单:保护已经从Google接收流量的标签。我们从Google Analytics(分析)中导出了在过去12个月中收到了Google搜索流量的所有标签。一般来说,这应该是一个相当安全的术语列表。
好处:与客户进行实验性工作时,能够为他们提供几乎可以保证改善的方案总是很高兴的。因为我们能够通过将标签标记为良好来保护已经收到流量的标签(在大多数情况下),所以我们可以确保客户从我们所做的更改中获利的可能性很高,并将任何流量损失的风险降到最低。
局限性:不幸的是,即使这种方法也不是完美的。如果具有足够高权限的一个产品(或一组产品)包含标签的较差变体,则该较差变体将排名并接收流量。我们不得不使用其他策略来验证从该方法中选择的内容,并设计出一种方法来鼓励在索引中使用标签交换术语的正确版本。
标签数
描述:在网站上使用标签的频率通常是一个强烈的信号,表明我们可以信任该标签,尤其是与其他类似标签相比时。通过计算每个标签在网站上的使用次数,我们可以使最终的一组受信任标签偏向于这些更受欢迎的术语。
好处:当我们有两个非常相似但只需要选择一个的标签时,这是一个很棒的决胜局指标。例如,有时一个短语的两个变体是完全可以接受的(例如带有和不带有连字符的版本)。我们可以简单地将标签数量增加到一个。
局限性:标签频率的明显局限性是许多最常见的标签过于通用而无法使用。标签“ blue”在帮助人们找到“蓝色t恤”时并不是特别有用。该术语太笼统,竞争也太激烈,无法包容。另外,包含太宽的标签只会造成非常大的爬网与流量潜力比。一个普通标签将具有数百个(甚至数千个)匹配产品,从而为单个标签创建许多产品页面。如果一个标签产生了50个分页的产品清单,但每年仅能吸引10个访问者,则可能不值得。
搬运工人
方法:词干提取法是一种通过从右到左扫描单词并使用各种模式匹配规则删除字符(后缀)直到到达单词词根来从标签中识别词根的方法。有几种流行的词干提取器,但我们发现Porter词干提取法可以更准确地查看替代单词形式。您可以在此处查看Snowball中的Porter出源算法,或者在这里使用JS版本。
好处:复数和所有格可以按词干分组,以进行进一步分析。以“小马”和“小马”等词为词源运行Porter将返回“ poni”作为词干,然后可以将其分组以进行进一步分析。您还可以对词组运行Porter词干。例如,“划船事故”,“划船事故”,“划船事故”等共享词干“划船事故”。这可能是对变化进行分组的粗略而快速的方法。波特词干还可以更友好地清除文本,而其他词干可能对我们的工作过于激进。例如,兰开斯特·斯特默将“女人”简化为“女人”,而波特·斯特默则将其保留为“女人”。
局限性:词干法旨在寻找术语和短语的共同词根,并不构成对术语正确形式的任何指示。波特词干法通过去除尾随的“ s”,“ e”,“ ance”,“ ing”和类似的词尾来尝试找到词干,从而对英语应用了一组固定的规则。为了使其正常工作,您必须具有所有正确的规则(和例外),以在所有情况下获得正确的词干。对于以S结尾但不是复数的单词(例如“台球”或“布鲁塞尔”),这可能会特别成问题。此外,此方法无法映射相关术语,例如“船撞”,“撞船”,“船祸”等,这些术语会源于“船撞”,“撞船”和“船事故”。
 

网站建设
Website
客户案例
Customer case
关于展为
About ZHANWEI
展为致力于网站建设与网络营销,微信营销,专业领域包括网站建设、网站seo优化推广、移动互联网营销、三网合一网站建设,微信营销小程序开发,与其他网站建设及系统开发公司不同,我们的整合解决方案结合了展为网络建设经验和互联网整合营销的理念,并将策略和执行紧密结合,且不断评估并优化我们的方案,为客户提供一体化全方位的互联网品牌整合方案!

扫码咨询

Copyright © 石家庄展为网络有限公司. 冀ICP备14018173号-6 Copyright 2010-2020版权所有
展为网络
网站建设
客户案例