<?xml version='1.0' encoding='UTF-8'?>
<rss version='2.0' xmlns:dc='http://purl.org/dc/elements/1.1/'>
<channel>
<title>365Key-天天网摘 - birda7的网摘(search)</title>
<description>365Key-天天网摘 - birda7的网摘(search)</description>
<link>http://www.365key.com/rss/birda7/search/</link>
<generator>365Key (http://www.365key.com)</generator>
<language>zh-cn</language>
<docs>365Key-天天网摘 精彩导航</docs>
<image>http://counter.csdn.net/pv.aspx?id=88</image>
<item>
<title>windtear 追求完美: FTP 搜索引擎 parker</title>
<link>http://www.365key.com/item/2357213</link>
<category>search; parker</category>
<pubDate>Thu, 02 Nov 2006 06:36:08 GMT</pubDate>
<description>一直想做的东西。
<blockquote>采集: 不提供 ls-lR/ls-lR.gz 又不支持 ls -lR 命令的进行循环处理 查询：多关键词 site:站点 站点地图</blockquote></description>
<dc:creator>birda7</dc:creator>
</item>
<item>
<title>windtear 追求完美: 过滤搜索引擎agent的python代码</title>
<link>http://www.365key.com/item/2144680</link>
<category>search</category>
<pubDate>Fri, 04 Aug 2006 07:22:53 GMT</pubDate>
<description>
<blockquote>过滤搜索引擎agent的python代码 在一个大循环里面 # deal with useragent spider = agent.find('Yahoo! Slurp') if spider != -1: continue spider = agent.find('Baiduspider') if spider != -1: continue spider = agent.find('Googlebot') if spider != -1: continue 这几家搜索引擎爬虫/Spider的UserAgent信息为： Mozilla/5.0 (compatible;  Yahoo! Slurp China;  http://misc.yahoo.com.cn/help.html) Mozilla/5.0 (compatible;  Yahoo! Slurp;  http://help.yahoo.com/help/us/ysearch/slurp) Baiduspider ( http://www.baidu.com/search/spider.htm) Mozilla/5.0 (compatible;  Googlebot/2.1;   http://www.google.com/bot.html)</blockquote></description>
<dc:creator>birda7</dc:creator>
</item>
<item>
<title>IT博物馆（测试版）--中国实验室（chinalabs.com）</title>
<link>http://www.365key.com/item/2061035</link>
<category>search; IT</category>
<pubDate>Wed, 28 Jun 2006 04:22:59 GMT</pubDate>
<description>
<blockquote>1990年以前，没有任何人能搜索互联网。

　　所有搜索引擎的祖先，是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。当时World Wide Web还未出现。Archie是第一个自动索引互联网上匿名FTP网站文件的程序，但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表，用户必须输入精确的文件名搜索，然后Archie会告诉用户哪一个FTP地址可以下载该文件。</blockquote></description>
<dc:creator>birda7</dc:creator>
</item>
<item>
<title>laolu: 搜索行为的四年变化</title>
<link>http://www.365key.com/item/2033388</link>
<category>search</category>
<pubDate>Wed, 21 Jun 2006 10:11:20 GMT</pubDate>
<description>
<blockquote>1. 对搜索引擎营销者来说，这很重要：要确保他们的网站在搜索结果的第一页被找到，或者最低限度也得在搜索结果的前3页内，以便被搜索引擎的用户看到。只有10%点击在第三页之外的结果。（前三页结果的用户点击占了90%）
         2. 过去四年来，搜索引擎的用户信任有所提升，使用更多关键词的搜索也有所增多。（营销者需要扩大关键词的定向范围）
         3. 搜索引擎的结果，对于那些出现在结果前列的公司，可以给予品牌公信。（搜索引擎也有助于实现品牌目标）</blockquote></description>
<dc:creator>birda7</dc:creator>
</item>
<item>
<title>搜索引擎重复网页发现技术分析 - malefactor的专栏</title>
<link>http://www.365key.com/item/2008934</link>
<category>search</category>
<pubDate>Tue, 13 Jun 2006 04:58:14 GMT</pubDate>
<description>
<blockquote>搜索引擎重复网页发现技术分析

中科院软件所  张俊林

TIMESTAMP:2006年6月1日

 

一.  介绍

统计结果表明，近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝，有的在内容上稍作修改，比如同一文章的不同版本，一个新一点，一个老一点，有的则仅仅是网页的格式不同（如 HTML, Postscript）,文献[Models and Algorithms for Duplicate Document Detection 1999年]将内容重复归结为以下四个类型:</blockquote></description>
<dc:creator>birda7</dc:creator>
</item>
<item>
<title>iThink's blog: Google Ajax Search API</title>
<link>http://www.365key.com/item/1976981</link>
<category>Google; ajax; search</category>
<pubDate>Fri, 02 Jun 2006 05:35:38 GMT</pubDate>
<description>
<blockquote>Google推出了一个有趣的小工具：Ajax Search。blogger或者网站主(webmaster)可以将它嵌入到自己的网站之上，这样你的网页就据有了Ajax搜索功能。无需刷新或离开当前页面，搜索结果就直接显示在搜索框下方，它分成local、web、video和blog四类，可通过列表和分页来显示，而下方提供的“copy”按钮则可以轻松地将搜索结果添加到其它诸如blog留言板之类的输入框。详情可参见Ajax Search的Samples或Reference部分。</blockquote></description>
<dc:creator>birda7</dc:creator>
</item>
<item>
<title>windtear 追求完美: 备案爬虫机器人 beian spider - Isaac Ding/1.0</title>
<link>http://www.365key.com/item/1971396</link>
<category>search; baidu</category>
<pubDate>Wed, 31 May 2006 13:32:48 GMT</pubDate>
<description>
<blockquote>备案爬虫机器人 beian spider - Isaac Ding/1.0 听别人提到 这里就记录一下 据说如果 /cert/bazs.cert 没有抓取成功 会全站抓取监控 下面这条请求是中国联通旗下的记录 供参考</blockquote></description>
<dc:creator>birda7</dc:creator>
</item>
<item>
<title>车东[Blog^2]: 搜索引擎蜘蛛多长时间更新一次DNS</title>
<link>http://www.365key.com/item/1724696</link>
<category>search</category>
<pubDate>Tue, 21 Mar 2006 06:35:24 GMT</pubDate>
<description>
<blockquote>虽然大部分的spider访问很快迁移到新的服务器上了：但是很多spider仍然没有来得及更新DNS。 大搜索引擎中：反应最快的是MSNBot，当天之后就再也没有来访问过。Google用了1周左右，百度前天还在访问，而Yahoo的Slurp抓取仍然没有中断。而其他一些蜘蛛引擎：一般在当天就更新了DNS，缓存时间比较短。</blockquote></description>
<dc:creator>birda7</dc:creator>
</item>
<item>
<title>Seo Vista-刘韧VS老白,语录Google排名比赛技术分析</title>
<link>http://www.365key.com/item/1642528</link>
<category>search</category>
<pubDate>Wed, 01 Mar 2006 04:53:18 GMT</pubDate>
<description>
<blockquote>听说过刘韧和老白在比赛GOOGLE排名，昨天天又查到了刘韧的文章说Google排名很难，查“毛主席语录”，翻10页也找不到他自己和老白。不过，我使劲翻了翻结果是刘韧现在比老白的排名高一点（曾经有过老白暂时领先），确实挺难查到的。俺就他们比赛中涉及到的Google排名有关的技术细节进行分析一下，涉及URL优化、关键字密度、内容窃取（scraper）、相似页面、PageRank值（PR）、外部链接等方面。纯技术探讨，当抛砖引玉吧。（2006年1月31夜完成全部分析,全文约3,800字）</blockquote></description>
<dc:creator>birda7</dc:creator>
</item>
<item>
<title>车东[Blog^2]: site:chedong.com crawled by</title>
<link>http://www.365key.com/item/1632799</link>
<category>search</category>
<pubDate>Mon, 27 Feb 2006 06:20:06 GMT</pubDate>
<description>
<blockquote>一年前做的一个小试验：车东[Blog^2]: 让搜索引擎Spider告诉你：什么时间，从哪里，用什么身份抓取了你的网站 今天这个试验又查了一遍：看看百度、Google、MSN、雅虎、搜狗、中搜、新浪这几家拥有自主后台网页引擎的在过去一年的发展。</blockquote></description>
<dc:creator>birda7</dc:creator>
</item>
<item>
<title>dancemoon.net ?百度很可爱</title>
<link>http://www.365key.com/item/1580300</link>
<category>search</category>
<pubDate>Sun, 12 Feb 2006 08:59:34 GMT</pubDate>
<description>这个剽窃的办法不错，我也要学习:P
<blockquote>刚才无意中浏览到了百度常用搜索，发现了很有趣的东西。英语词典的图标，明明就是是Iconfactory的Smoothicons这套图标中的Audion.ico，可聪明的百度在喇叭上加了个把手竟然用来冒充放大镜-_-”。</blockquote></description>
<dc:creator>birda7</dc:creator>
</item>
<item>
<title>在HTML网页中巧用URL - CNBRUCE'S BLOG(布鲁斯狼) /// 专注WEB技术,关注生活点滴</title>
<link>http://www.365key.com/item/1566655</link>
<category>WebConstruct; javascript; search</category>
<pubDate>Wed, 08 Feb 2006 09:31:14 GMT</pubDate>
<description>以前感兴趣的VeryCD的欢迎来自搜索引擎的东西，可以看看。
<blockquote>---下面给出了一个带有详细注释的具体示例源代码。注意: querystring.js是一个实用程序，它可以在网页中直接引用，然后在网页中使用Request[“名称”]即可获取用户输入的有关信息内容。

1.querystring.js源代码</blockquote></description>
<dc:creator>birda7</dc:creator>
</item>
<item>
<title>IE 7 添加本站搜索-郭爽的Blog</title>
<link>http://www.365key.com/item/1566507</link>
<category>IE; search; XML</category>
<pubDate>Wed, 08 Feb 2006 08:46:02 GMT</pubDate>
<description>这个添加搜索引擎的办法很轻松啊。
<blockquote>IE 7 支持 OpenSearch 方式的 search engine provider。运行下面代码，点击“添加 guoshuang blog 搜索”即可，我的Blog只支持单关键字搜索，：（</blockquote></description>
<dc:creator>birda7</dc:creator>
</item>
<item>
<title>如果你真的想屏蔽baiduspider，可尝试以下方法 - Concorde</title>
<link>http://www.365key.com/item/1562742</link>
<category>search</category>
<pubDate>Tue, 07 Feb 2006 11:39:27 GMT</pubDate>
<description>据说baidu有伪装IP的说法
<blockquote>SetEnvIfNoCase User-Agent &quot;^baiduspider&quot; ban_bot
SetEnvIfNoCase User-Agent &quot;^HTTrack&quot; ban_bot
SetEnvIfNoCase User-Agent &quot;^EmailCollector&quot; ban_bot
SetEnvIfNoCase User-Agent &quot;^EmailWolf&quot; ban_bot
SetEnvIfNoCase User-Agent &quot;^ExtractorPro&quot; ban_bot
SetEnvIfNoCase User-Agent &quot;^Offline&quot; ban_bot
SetEnvIfNoCase User-Agent &quot;^WebCopier&quot; ban_bot
SetEnvIfNoCase User-Agent &quot;^Webdupe&quot; ban_bot
SetEnvIfNoCase User-Agent &quot;^WebZIP&quot; ban_bot
SetEnvIfNoCase User-Agent &quot;^Web Downloader&quot; ban_bot
SetEnvIfNoCase User-Agent &quot;^WebAuto&quot; ban_bot
SetEnvIfNoCase User-Agent &quot;^WebCapture&quot; ban_bot
SetEnvIfNoCase User-Agent &quot;^WebMirror&quot; ban_bot
SetEnvIfNoCase User-Agent &quot;^WebStripper&quot; ban_bot</blockquote></description>
<dc:creator>birda7</dc:creator>
</item>
<item>
<title>谁知道怎么样才能让百度封掉我的网站 - demo@virushuo</title>
<link>http://www.365key.com/item/1562684</link>
<category>search</category>
<pubDate>Tue, 07 Feb 2006 11:06:42 GMT</pubDate>
<description>
<blockquote>飞天猪 发表于2006-02-07 6:50 PM  IP: 218.19.200.*
百度是遵守robots.txt的，不过它不是每次都抓一下robots.txt，所以你得等最多一个星期才能生效。</blockquote></description>
<dc:creator>birda7</dc:creator>
</item>
<item>
<title>新浪IaskSpider</title>
<link>http://www.365key.com/item/1392049</link>
<category>search</category>
<pubDate>Mon, 12 Dec 2005 05:39:11 GMT</pubDate>
<description>
<blockquote>今天在日志中发现了新浪IaskSpider的踪迹：
219.142.78.210 - - [10/Dec/2005:00:00:36  0800] &quot;GET /phpMan.php/man/crond/8/ HTTP/1.0&quot; 200 3926 &quot;-&quot; &quot;iaskspider&quot; 219.142.78.2
10.114661134144036588
219.142.78.210 - - [10/Dec/2005:00:00:36  0800] &quot;GET /phpMan.php/man/cytune/8/ HTTP/1.0&quot; 200 8639 &quot;-&quot; &quot;iaskspider&quot; 219.142.78.
210.302381134144036603
219.142.118.65 - - [10/Dec/2005:00:00:50  0800] &quot;GET /phpMan.php/info/pathchk/ HTTP/1.0&quot; 200 3136 &quot;-&quot; &quot;iaskspider&quot; 219.142.118
.65.3811134144050430
219.142.78.85 - - [10/Dec/2005:00:00:58  0800] &quot;GET /phpMan.php/man/Config::myconfig/ HTTP/1.0&quot; 200 1998 &quot;-&quot; &quot;iaskspider&quot; 219.
142.78.85.302351134144058586</blockquote></description>
<dc:creator>birda7</dc:creator>
</item>
<item>
<title>风言疯语之IT罗盘 ?针对搜索引擎优化的分析建议</title>
<link>http://www.365key.com/item/1369089</link>
<category>search</category>
<pubDate>Tue, 06 Dec 2005 08:11:39 GMT</pubDate>
<description>
<blockquote>4、 针对Google制作Sitemaps
Google的sitemaps是对原来robots.txt的扩展，它使用XML格式来记录整个网站的信息并供Google读取，使搜索引擎能更快更全面的收录网站的内容。
可以使用Google提供的Sitemap生成器制作（需要技术人员制作）：
https://www.google.com/webmasters/sitemaps/docs/zh_CN/sitemap-generator.html
也可以由技术部人员制作更全面的Sitemaps。</blockquote></description>
<dc:creator>birda7</dc:creator>
</item>
<item>
<title>中文网志年会 - [搜索]篇</title>
<link>http://www.365key.com/item/1363811</link>
<category>search</category>
<pubDate>Mon, 05 Dec 2005 05:38:49 GMT</pubDate>
<description>
<blockquote>最后，不要忘记还有很多搜索引擎提供的站内搜索服务：
Blogger为搜索引擎提供更加非中心化的内容来源，而另外一方面：搜索引擎也通过关键词将这些blogger相互联系在一起。大部分blogger都有这样的体会：网站的主要访问来源是搜索引擎，和其他很多blogger之间相互初步了解都是先从搜索引擎上通过特定的主题关键词找到的：所以说blogger之间是通过“关键词”形成的小圈子(Social Network)</blockquote></description>
<dc:creator>birda7</dc:creator>
</item>
<item>
<title>Yahoo 推出的反链和链接查询工具 Site Explorer | 维道</title>
<link>http://www.365key.com/item/1351046</link>
<category>search</category>
<pubDate>Thu, 01 Dec 2005 16:53:05 GMT</pubDate>
<description>
<blockquote>Site Explorer 是 Yahoo 刚刚推出的网站探索工具。用它可以来查询一个网站中所有被检索的页面以及反向链接情况。

　　赶紧去试试吧。</blockquote></description>
<dc:creator>birda7</dc:creator>
</item>
<item>
<title>哈斯日志: 个性化搜索的若干可能</title>
<link>http://www.365key.com/item/1351045</link>
<category>search</category>
<pubDate>Thu, 01 Dec 2005 16:53:04 GMT</pubDate>
<description>
<blockquote>3 用网摘 订阅 收藏这样有关联性的用户行为实现人工spider的机制,就是所谓的人肉Spider!在这个基础上定制类别或这某些特征来实现.现在这种实现策略不少,都是一种试验性的搜索服务,他们能够通过摘录的url/内容/标记的tag/收藏feed/对应的网站/从那儿点击到这儿的来源/以及这个网页上链出到那里去等的统计\分析,建立其url\topic之间的逻辑关系,在用户搜索中以适当的策略展现出来,这种在目前看来是增加与用户交互感,增强高质量信息的挖掘的一种手段,但是一旦专业的针对性的垃圾制造者跟进了来,同样是麻烦多多,Rollyo,Swicki,wink.com等属于这类.</blockquote></description>
<dc:creator>birda7</dc:creator>
</item>
</channel></rss>
