大数据人官方⑤群

大数据人|中国大数据第一社区

 找回密码
 注册会员

扫一扫,访问微社区

一个纯采集站长的采集与运维总结

2017-8-4 16:56| 发布者: 大海洋数据| 查看: 133| 评论: 0

摘要: 事情是这样的,前几天有位小哥来问,你们火车头软件真的很厉害,但是外链怎么发,引流怎么做呢?这无异于“喂,卖刀师父,你这刀切出来的肉怎么烹饪最好吃?”,且不说卖刀师父懂不懂烹饪,这个人口味总有差异吧~于 ...

事情是这样的,前几天有位小哥来问,你们火车头软件真的很厉害,但是外链怎么发,引流怎么做呢?

这无异于“喂,卖刀师父,你这刀切出来的肉怎么烹饪最好吃?”,且不说卖刀师父懂不懂烹饪,这个人口味总有差异吧~于是小编请教了一位老司机,不敢说下面的方法一定适合您,但都是经验之谈~分享给大家~

我是一个纯采集站长,下面的这些总结,有些是关于SEO,有些是采集和运维,都是很基础的个人见解,仅作分享,好坏自辨,实践出真知。

都说原创好,为什么还要采集?

作为裁判官,百度的确说了原创有助于收录。但是我一没有良好的写作能力,二没有精力和财力去组建团队持续性输出。三是我认为有方法的采集不一定劣于没方法的原创。

为什么有方法的采集优于没方法的原创?

何为没方法的原创?即原创文章不收录,即使收录了也没排名。作为一个搜索引擎,最核心的价值是要为用户提供最需要的结果。即使你文章写的再棒,对于搜索用户来说,却没有满足人家的需求那就是无意义的内容。

何为有方法的采集?即根据网民们的强大需求及时抓取文章,在需求面前,这类内容往往收录得快而多。

采集是否有方法或者说被收录的可能性通过什么来判定?

关键词。每一个搜索关键词的背后都是网民们的需求,也许是追求问题答案,也许是追求检索结果,搜索引擎的内部分析一定会匹配精确的内容,当然,是根据精确的关键词。

火车采集器对于伪原创和收录有哪些帮助?

可以直接按照关键词采集;

可段落重排,可同义词替换(怎么用才不降低文章质量,需要仔细琢磨);

可清理标签,除去乱码;

可采缩略图及正文图片,图文并茂抓取;

可采原标题,更可使用关键词自由组合标题。

自行去发掘……

不同的网站程序,如织梦、WordPress、帝国cms等,对SEO有什么影响?

理论上没有影响。但很多站长认为某些更为友好,且观点不一。比如从网站安全性上来看,这几年由于织梦系统使用者多,所以也就成为了主要目标,于是大量的漏洞产生出来,很多网站文件如果不被写死都有成为安全隐患,而wordpress大多是博客,自身商业价值小所以被攻击的也少,漏洞也就被发现的少。

但本质上来说用什么程序意义并不大,其实影响SEO的是模板,因为基本上这些程序都有模板机制,同样程序可以输出不同的页面,不同的程序也可以输出同样的页面,这就是模板。模板确定之后,你的每一个页面就按照这个框架来输出,也就是整个html结构已经确定。而这些html,正是搜索引擎要重点关注的,它得从这些html中得到它想要的信息。因此,一套好的模板非常重要。

当然了,还是那句话,最最关键的还是在于SEOer本身。

模板设计应该注意哪些细节?

1. 权重结构顺序。整个页面的html中(注意是html,而不是显示出来的版面),越靠前的位置,权重越高。由此引申出来,“title”、keyword、description三个标签,因为最靠前,权重最高。其次通常是导航,也是基本上是最靠上的,权重也非常高。再次就是文章标题和正文。这是根据html的前后来排序的。

2. 因为搜索引擎首先要遵循W3C标准,所以,W3C定义的一些本来就是用来表示重要信息的标签,权重自然就高,比如,特别是h1,用来表示当前页面最重要的信息,一般每个页面只能有一个,其权重估计与title相当,也通常是用来放当前页面的标题,当然也有为了提高首页权重,用h1来放置logo或首页链接,都是可以的。另外还有em、strong这样的标签,用来表示强调,一般认为strong权重高于标签,同样也是加粗作用,但我们认为从SEO的角度看是没有权重加强的。

3. css或者js代码对搜索引擎来说通常是无意义的,尽量使用单独的文件来存放,或者在允许的情况下放到html尾部去。

网站结构规划应该注意哪些问题?

1. URL设计。URL也是可以包含关键词的,比如你的网站是关于电脑的,你的URL中可以包含“PC”,因为它在搜索引擎眼里通常是“电脑”的同义词。URL不要太长,层次尽量不要超过4层,这个就点到为止。

2. 栏目设计。栏目通常是与导航相关联的,设计时应该考虑网站整体的主题,用户可能会对哪些内容感兴趣,栏目名称最好是网站的几个主关键词,这样也方便利用导航的权重。

3. 关键词布局。理论上每一个内容页都应该有它的核心关键词,同一个栏目下的文章,尽可能围绕栏目关键词展开。一个简单粗暴的办法就是直接用栏目关键词的长尾词。

动态、伪静态、静态,这三者哪个好?

这个不能一概而论,推荐使用伪静态或静态。这三者的区别,是是否生成静态文件,以及URL格式是否动态。生成静态文件,本质上是为了加快访问速度,减少数据库查询,但会不断增加占用空间;伪静态只是通过URL重写修改URL,实际上还是每次都要经过程序运算、查询数据库再输出页面,对加快访问速度完全无效。动态与伪静态的差异只在于URL,带问号加参数。

所以关注两个点就好:网站打开速度是否够快?你是否需要节约服务器空间?

网站速度快可以提高用户满意度,还可改善网页的整体质量。确保网站的内容在不同的浏览器中均能正确显示,防止某些用户不能正常访问。另外网站的广告不要干扰用户的正常访问。

不同的网站程序,数据库操作的效率可能不同。一般来讲,内容页数量在1万以内的,页面打开速度都是比较快的,数据量更大一些,达到5万、十万甚至更多,通常就要考虑静态化了。

有哪些途径改善访问速度?

1. 上面已经说到的静态化。

2. 通常很多网站模板中都有随机调用文章或者类似的版块,事实上对数据库来说,随机是一项比较重的负担,在模板中应该尽量减少随机文章的调用。如果不可避免,可以考虑从数据库上优化,对有索引的字段排序通常比没有索引要快很多。

3. 将图片、js、css等不经常修改的文件,放到专用的静态服务器上,多个js、或者多个css能合并的尽量合并到一个文件,减少http连接次数。

4. 使用各类云加速产品。

网站内链应该怎样优化?

内链是百度官方推荐的优化手段之一,所以这是一定要做的。通常表现的形式是正文中出现某个关键词,给这个关键词加上一个链接,指向另一个正好是这个关键词相关内容的页面。因此就诞生了一些所谓的优化手法,强行在正文中插入一些关键词和链接,以此进行类似互推的操作。还有的为了提高首页权重,到处都放上网站名称,并做上首页链接,以为这样可以提高目标页面的权重。但是这些很可能都是适得其反,因为搜索引擎会统计每个链接的点击率。如果放在醒目位置点击却很少的链接,有可能会判断为作弊。所以,请只在正文中本来就有的关键词上做内链,就可以了。

评论模块基本上没有人用,该要还是不要?

要。评论模块最头疼是事情是垃圾评论,通常真正发言的访客很少,垃圾评论一大堆,整天和营销软件斗智斗勇。这里提供一个我已经实现的方案,对收录可能有一定帮助(没有依据的,只是猜测):

保留评论框、但禁止评论。所有评论由自己的网站程序生成。前面提到搜索引擎会自然语义分析,其中有一项重要的能力,就是情感判断。搜索引擎会计算每条评论的情感值,是positive(积极)还是negative(消极),具体倾向是10%还是90%。如果评论内容表达的是积极情感,则可以给你的正文加分,反之则减分。至于怎样自动生成积极的评论,就八仙过海各显神通吧。

这是在网络社交发展起来后的必然趋势,用这种方式来反映一个页面的用户体验度。同理还有分享、点赞等,原理类似。

绿萝卜算法之后,外链到底还有没有用?

有用。参见搜索引擎三定律之相关性定律。既然是定律,就不会改变。谁的内容被引用得多,谁就是权威。在主动推送出现之前,外链应该算是蜘蛛认识一个页面内容的第一渠道。

外链一定要锚文本或者裸链吗?

不是。搜索引擎肩负重任,要努力发现真正有价值的东西,排除那些没价值的东西。所以有可能你直接提交的链接没收录,在别人地方随便发个纯文本网址,被它发现了,还计算了加分。

除了锚文本和裸链,还可以用关键词+网址的形式发纯文本。这样在网址前面的那个关键词是会自动与该网址关联的。

还有,有些链接虽然加了nofollow属性,但是在百度计算外链的时候,还是会计算的。

最后,拒绝恶劣采集!

优质内容标准难以界定,有时候伪原创比原创感觉好,目前来看其实很多网站都有采集行为,大部分新闻站也是相互采集的,百度也没有明确指出如何判断采集,所以必不可少的需要进行一些适当的采集。但有一点可以肯定的是,恶劣采集以及镜像、盗版网站的行为,大家还是不要做的好。上周百度上了飓风算法,会例行产出惩罚数据,想必大家都有所关注了。



鲜花

握手

雷人

路过

鸡蛋

最新评论

相关分类

关闭

站长推荐上一条 /2 下一条


id="mn_portal" >首页Portalid="mn_P18" onmouseover="navShow('P18')">应用id="mn_P15" onmouseover="navShow('P15')">技术id="mn_P37" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">前沿id="mn_P36" onmouseover="navShow('P36')">宝箱id="mn_P61" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">专栏id="mn_P65" >企业id="mn_forum_2" >社区BBSid="mn_Nd633" >导航id="mn_Nbe89" >通讯录id="mn_N4033" >赞+1 折叠导航 关注微信 关注微博 关注我们

QQ|广告服务|关于我们|鄂ICP备14012176号-2|Archiver|手机版|小黑屋|大数据人    

GMT+8, 2017-8-19 15:16 , Processed in 0.503651 second(s), 23 queries .

Powered by 小雄! X3.2

© 2014-2016 bigdataer Inc.

返回顶部