365key.com
发现·保存·分享@天天网摘

Q版365key  设为首页 加为收藏 帮助

 首页  网址  添加  我的网摘  我的订阅  最新网摘  收录榜  点击榜  同好  配置  工具箱  标签  兴趣小组 
  IT168 |  华军下载 |  猫扑 |  VeryCD |  CSDN技术 |  DoNews |  9Flash |  中金 |  游侠 |  股票天下 |  游戏公会 |  电子工程 |  白银时代 |  和365Key合作

birda7的网摘列表 RSS格式输出  365Key邮件订阅,每天可以定期收到邮件通知  使用 Gougou 订阅 使用 POTU 订阅
搜索词: 时间:
分类:     排序:
 
刷新列表 共1页、26项网摘
windtear 追求完美: FTP 搜索引擎 parker点击:98
 分类:search; parker 时间:2006-11-2 14:36:08 birda7收录 复制到我的网摘
一直想做的东西。
采集: 不提供 ls-lR/ls-lR.gz 又不支持 ls -lR 命令的进行循环处理 查询:多关键词 site:站点 站点地图
http://windtear.net/archives/2006/10/07/001107.html
windtear 追求完美: 过滤搜索引擎agent的python代码点击:35
 分类:search 时间:2006-8-4 15:22:53 birda7收录 复制到我的网摘
过滤搜索引擎agent的python代码 在一个大循环里面 # deal with useragent spider = agent.find('Yahoo! Slurp') if spider != -1: continue spider = agent.find('Baiduspider') if spider != -1: continue spider = agent.find('Googlebot') if spider != -1: continue 这几家搜索引擎爬虫/Spider的UserAgent信息为: Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html) Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) Baiduspider ( http://www.baidu.com/search/spider.htm) Mozilla/5.0 (compatible; Googlebot/2.1; http://www.google.com/bot.html)
http://windtear.net/archives/2006/07/08/001024.html
IT博物馆(测试版)--中国实验室(chinalabs.com)点击:43
 分类:search; IT 时间:2006-6-28 12:22:59 birda7收录 (还有2人收录) 复制到我的网摘
1990年以前,没有任何人能搜索互联网。

  所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。当时World Wide Web还未出现。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。
http://itmus.chinalabs.com/130.html
laolu: 搜索行为的四年变化点击:54
 分类:search 时间:2006-6-21 18:11:20 birda7收录 (还有15人收录) 复制到我的网摘
1. 对搜索引擎营销者来说,这很重要:要确保他们的网站在搜索结果的第一页被找到,或者最低限度也得在搜索结果的前3页内,以便被搜索引擎的用户看到。只有10%点击在第三页之外的结果。(前三页结果的用户点击占了90%)
2. 过去四年来,搜索引擎的用户信任有所提升,使用更多关键词的搜索也有所增多。(营销者需要扩大关键词的定向范围)
3. 搜索引擎的结果,对于那些出现在结果前列的公司,可以给予品牌公信。(搜索引擎也有助于实现品牌目标)
http://laolu.spaces.msn.com/Blog/cns!8FDD94E24830A815!2347.entry
搜索引擎重复网页发现技术分析 - malefactor的专栏点击:67
 分类:search 时间:2006-6-13 12:58:14 birda7收录 (还有2人收录) 复制到我的网摘
搜索引擎重复网页发现技术分析

中科院软件所 张俊林

TIMESTAMP:2006年6月1日



一. 介绍

统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, Postscript),文献[Models and Algorithms for Duplicate Document Detection 1999年]将内容重复归结为以下四个类型:
http://blog.csdn.net/malefactor/archive/2006/06/09/782882.aspx
iThink's blog: Google Ajax Search API点击:103
 分类:Google; ajax; search 时间:2006-6-2 13:35:38 birda7收录 (还有4人收录) 复制到我的网摘
Google推出了一个有趣的小工具:Ajax Search。blogger或者网站主(webmaster)可以将它嵌入到自己的网站之上,这样你的网页就据有了Ajax搜索功能。无需刷新或离开当前页面,搜索结果就直接显示在搜索框下方,它分成local、web、video和blog四类,可通过列表和分页来显示,而下方提供的“copy”按钮则可以轻松地将搜索结果添加到其它诸如blog留言板之类的输入框。详情可参见Ajax Search的Samples或Reference部分。
http://yackol.com/blog/2006/06/google-ajax-search-api.html
windtear 追求完美: 备案爬虫机器人 beian spider - Isaac Ding/1.0点击:49
 分类:search; baidu 时间:2006-5-31 21:32:48 birda7收录 (还有1人收录) 复制到我的网摘
备案爬虫机器人 beian spider - Isaac Ding/1.0 听别人提到 这里就记录一下 据说如果 /cert/bazs.cert 没有抓取成功 会全站抓取监控 下面这条请求是中国联通旗下的记录 供参考
http://windtear.net/archives/2006/05/19/000986.html
车东[Blog^2]: 搜索引擎蜘蛛多长时间更新一次DNS点击:51
 分类:search 时间:2006-3-21 14:35:24 birda7收录 (还有2人收录) 复制到我的网摘
虽然大部分的spider访问很快迁移到新的服务器上了:但是很多spider仍然没有来得及更新DNS。 大搜索引擎中:反应最快的是MSNBot,当天之后就再也没有来访问过。Google用了1周左右,百度前天还在访问,而Yahoo的Slurp抓取仍然没有中断。而其他一些蜘蛛引擎:一般在当天就更新了DNS,缓存时间比较短。
http://www.chedong.com/blog/archives/001132.html
Seo Vista-刘韧VS老白,语录Google排名比赛技术分析点击:47
 分类:search 时间:2006-3-1 12:53:18 birda7收录 (还有27人收录) 复制到我的网摘
听说过刘韧和老白在比赛GOOGLE排名,昨天天又查到了刘韧的文章说Google排名很难,查“毛主席语录”,翻10页也找不到他自己和老白。不过,我使劲翻了翻结果是刘韧现在比老白的排名高一点(曾经有过老白暂时领先),确实挺难查到的。俺就他们比赛中涉及到的Google排名有关的技术细节进行分析一下,涉及URL优化、关键字密度、内容窃取(scraper)、相似页面、PageRank值(PR)、外部链接等方面。纯技术探讨,当抛砖引玉吧。(2006年1月31夜完成全部分析,全文约3,800字)
http://www.seovista.com/post/liuren-vs-laobai-google-seo.html
车东[Blog^2]: site:chedong.com crawled by点击:60
 分类:search 时间:2006-2-27 14:20:06 birda7收录 (还有1人收录) 复制到我的网摘
一年前做的一个小试验:车东[Blog^2]: 让搜索引擎Spider告诉你:什么时间,从哪里,用什么身份抓取了你的网站 今天这个试验又查了一遍:看看百度、Google、MSN、雅虎、搜狗、中搜、新浪这几家拥有自主后台网页引擎的在过去一年的发展。
http://www.chedong.com/blog/archives/001127.html
dancemoon.net ?百度很可爱点击:72
 分类:search 时间:2006-2-12 16:59:34 birda7收录 复制到我的网摘
这个剽窃的办法不错,我也要学习:P
刚才无意中浏览到了百度常用搜索,发现了很有趣的东西。英语词典的图标,明明就是是Iconfactory的Smoothicons这套图标中的Audion.ico,可聪明的百度在喇叭上加了个把手竟然用来冒充放大镜-_-”。
http://www.dancemoon.net/archives/315
在HTML网页中巧用URL - CNBRUCE'S BLOG(布鲁斯狼) /// 专注WEB技术,关注生活点滴点击:86
 分类:WebConstruct; javascript; search 时间:2006-2-8 17:31:14 birda7收录 复制到我的网摘
以前感兴趣的VeryCD的欢迎来自搜索引擎的东西,可以看看。
---下面给出了一个带有详细注释的具体示例源代码。注意: querystring.js是一个实用程序,它可以在网页中直接引用,然后在网页中使用Request[“名称”]即可获取用户输入的有关信息内容。

1.querystring.js源代码
http://www.cnbruce.com/blog/showlog.asp?log_id=657&cat_id=5
IE 7 添加本站搜索-郭爽的Blog点击:82
 分类:IE; search; XML 时间:2006-2-8 16:46:02 birda7收录 复制到我的网摘
这个添加搜索引擎的办法很轻松啊。
IE 7 支持 OpenSearch 方式的 search engine provider。运行下面代码,点击“添加 guoshuang blog 搜索”即可,我的Blog只支持单关键字搜索,:(
http://blog.guoshuang.com/showlog.asp?log_id=3569
如果你真的想屏蔽baiduspider,可尝试以下方法 - Concorde点击:79
 分类:search 时间:2006-2-7 19:39:27 birda7收录 复制到我的网摘
据说baidu有伪装IP的说法
SetEnvIfNoCase User-Agent "^baiduspider" ban_bot
SetEnvIfNoCase User-Agent "^HTTrack" ban_bot
SetEnvIfNoCase User-Agent "^EmailCollector" ban_bot
SetEnvIfNoCase User-Agent "^EmailWolf" ban_bot
SetEnvIfNoCase User-Agent "^ExtractorPro" ban_bot
SetEnvIfNoCase User-Agent "^Offline" ban_bot
SetEnvIfNoCase User-Agent "^WebCopier" ban_bot
SetEnvIfNoCase User-Agent "^Webdupe" ban_bot
SetEnvIfNoCase User-Agent "^WebZIP" ban_bot
SetEnvIfNoCase User-Agent "^Web Downloader" ban_bot
SetEnvIfNoCase User-Agent "^WebAuto" ban_bot
SetEnvIfNoCase User-Agent "^WebCapture" ban_bot
SetEnvIfNoCase User-Agent "^WebMirror" ban_bot
SetEnvIfNoCase User-Agent "^WebStripper" ban_bot
http://blog.donews.com/concorde/archive/2006/02/07/718043.aspx
谁知道怎么样才能让百度封掉我的网站 - demo@virushuo点击:56
 分类:search 时间:2006-2-7 19:06:42 birda7收录 (还有2人收录) 复制到我的网摘
飞天猪 发表于2006-02-07 6:50 PM IP: 218.19.200.*
百度是遵守robots.txt的,不过它不是每次都抓一下robots.txt,所以你得等最多一个星期才能生效。
http://blog.donews.com/virushuo/archive/2006/02/05/715379.aspx
新浪IaskSpider点击:77
 分类:search 时间:2005-12-12 13:39:11 birda7收录 (还有1人收录) 复制到我的网摘
今天在日志中发现了新浪IaskSpider的踪迹:
219.142.78.210 - - [10/Dec/2005:00:00:36 0800] "GET /phpMan.php/man/crond/8/ HTTP/1.0" 200 3926 "-" "iaskspider" 219.142.78.2
10.114661134144036588
219.142.78.210 - - [10/Dec/2005:00:00:36 0800] "GET /phpMan.php/man/cytune/8/ HTTP/1.0" 200 8639 "-" "iaskspider" 219.142.78.
210.302381134144036603
219.142.118.65 - - [10/Dec/2005:00:00:50 0800] "GET /phpMan.php/info/pathchk/ HTTP/1.0" 200 3136 "-" "iaskspider" 219.142.118
.65.3811134144050430
219.142.78.85 - - [10/Dec/2005:00:00:58 0800] "GET /phpMan.php/man/Config::myconfig/ HTTP/1.0" 200 1998 "-" "iaskspider" 219.
142.78.85.302351134144058586
http://www.chedong.com/blog/archives/001086.html
风言疯语之IT罗盘 ?针对搜索引擎优化的分析建议点击:65
 分类:search 时间:2005-12-6 16:11:39 birda7收录 (还有6人收录) 复制到我的网摘
4、 针对Google制作Sitemaps
Google的sitemaps是对原来robots.txt的扩展,它使用XML格式来记录整个网站的信息并供Google读取,使搜索引擎能更快更全面的收录网站的内容。
可以使用Google提供的Sitemap生成器制作(需要技术人员制作):
https://www.google.com/webmasters/sitemaps/docs/zh_CN/sitemap-generator.html
也可以由技术部人员制作更全面的Sitemaps。
http://www.kuangfeng.cn/blog/?p=207
中文网志年会 - [搜索]篇点击:57
 分类:search 时间:2005-12-5 13:38:49 birda7收录 (还有6人收录) 复制到我的网摘
最后,不要忘记还有很多搜索引擎提供的站内搜索服务:
Blogger为搜索引擎提供更加非中心化的内容来源,而另外一方面:搜索引擎也通过关键词将这些blogger相互联系在一起。大部分blogger都有这样的体会:网站的主要访问来源是搜索引擎,和其他很多blogger之间相互初步了解都是先从搜索引擎上通过特定的主题关键词找到的:所以说blogger之间是通过“关键词”形成的小圈子(Social Network)
http://www.chedong.com/blog/archives/001072.html
Yahoo 推出的反链和链接查询工具 Site Explorer | 维道点击:60
 分类:search 时间:2005-12-2 0:53:05 birda7收录 复制到我的网摘
Site Explorer 是 Yahoo 刚刚推出的网站探索工具。用它可以来查询一个网站中所有被检索的页面以及反向链接情况。

  赶紧去试试吧。
http://witao.com/node/1347
哈斯日志: 个性化搜索的若干可能点击:52
 分类:search 时间:2005-12-2 0:53:04 birda7收录 (还有10人收录) 复制到我的网摘
3 用网摘 订阅 收藏这样有关联性的用户行为实现人工spider的机制,就是所谓的人肉Spider!在这个基础上定制类别或这某些特征来实现.现在这种实现策略不少,都是一种试验性的搜索服务,他们能够通过摘录的url/内容/标记的tag/收藏feed/对应的网站/从那儿点击到这儿的来源/以及这个网页上链出到那里去等的统计\分析,建立其url\topic之间的逻辑关系,在用户搜索中以适当的策略展现出来,这种在目前看来是增加与用户交互感,增强高质量信息的挖掘的一种手段,但是一旦专业的针对性的垃圾制造者跟进了来,同样是麻烦多多,Rollyo,Swicki,wink.com等属于这类.
http://loverty.org/2005/11/blog-post_30.html
Welcome to ZDYX's Space || ZDYX 的 Opera 自定义搜索引擎 1.0 版发布点击:45
 分类:Search 时间:2005-10-30 0:38:59 birda7收录 (还有2人收录) 复制到我的网摘
那个title的小tooltip很有意思
每当 Google 服务器因种种原因挂掉,我想用百度的时候,就要自己手动输入网址,很不爽哦。为了一劳永逸并为与我有相同经历的 Opera 用户排忧解难,今天发布我专门为中国人设计的自定义搜索引擎。
http://zhangduyixiong.blogzy.com/zdyx/2005/10/7135.html
风言疯语 ?搜索引擎可以颠覆世界!点击:64
 分类:search 时间:2005-10-10 12:38:53 birda7收录 复制到我的网摘
昨日用IS(一种P2P工具,速度还凑合,不过内容资源都是抄袭的,不咋地)下载了一部电影《The Ninth Gate》,中文名为《第九道门》,港译为《魔鬼手记》,属于恐怖、悬念、惊悚类别的,正是我平日喜好看的类型,于是下载完后立即打开观看起来。

可惜看了不到20分钟,就发现实际情节同剧情介绍有很大出入,于是在网上搜索了一下,发现大部分的剧情介绍都是这样的“卡索是一位专门收集希奇古怪的书籍的异人,他受雇于欧洲一个最大的魔鬼图书收藏家。由于他的工作成绩突出,卡索受到了特别嘉奖,奖品是一册16世纪的古书《第九道门》。 ”但实际情节是怎样的呢,“卡索其实是一个专门从事珍贵典藉交易的经纪人,他常为富有的藏书家们提供重要收藏线索。此次卡索受雇于鲍里斯
http://www.kuangfeng.cn/blog/?p=143
技术文摘: nutch 0.7 plug-ins 详解点击:47
 分类:search 时间:2005-10-10 10:43:26 birda7收录 (还有1人收录) 复制到我的网摘
1、nutch 0.7 发布了;
2、nutch 的java源代码包路径改变成了org.apache...
3、yahoo也使用了nutch,并做了很多的工作。1 2
http://blog.iyi.cn/tech/2005/10/nutch_07_plugins.html
技术文摘: 让Nutch支持中文分词点击:88
 分类:search 时间:2005-10-10 10:43:17 birda7收录 (还有1人收录) 复制到我的网摘
让Nutch支持中文分词

转自:http://www.rxiao.com/blog/article.asp?id=138

Nutch搜索引擎是一个构建在Lucene上的开放源代码的搜索引擎。可以通过CVS取得它的最新版本。让nutch支持中文分词的方法和Lucene类似,但是nutch很多时候调用了底层的Lucene API。因此需要我们做更多的工作。
http://blog.iyi.cn/tech/2005/10/nutch_1.html
技术文摘: 给Lucene加入性能更好的中文分词点击:114
 分类:search 时间:2005-10-10 10:43:13 birda7收录 (还有1人收录) 复制到我的网摘
Lucene本身的StandardAnalyzer提供了中文分词接口,不过其采用的为1-gram.
这种分词方法虽然不会损失任何索引信息,但是造成的索引垃圾太多,用户得到的查询结果中垃圾也是很多.
经过认真研究了Lucene的Analysis包,我写了一个TjuChineseAnalyzer,效果不错.
http://blog.iyi.cn/tech/2005/10/lucene.html
哈斯日志: Yahoo Site Explorer点击:46
 分类:Search 时间:2005-10-1 1:04:10 birda7收录 (还有4人收录) 复制到我的网摘
Yahoo!推出基于search API的反向链接查询工具Yahoo Site Explorer,人们可以通过它查看哪些URL已被Yahoo!搜索收录或是提交还没被收录的URL。并提供了一个新的网站提交入口,你可以提交站点首页,站点地图(sitemap),甚至urllist.txt,Yahoo!的spider会按照你提交的路径去抓取和索引你的网页,这种提交方式比Google sitemap的xml格式文件提交更容易简单,不知道会不会被站长们接受?!

Yahoo Site Explorer目前提供

* 你能到看1个域/所有域/目录的页面被雅虎收录;
* You can NOT pattern match to find all URLs from a domain, unfortunately
* 你能看到所有反向链接至某个页面或主域;
* 但是不能去掉内部链接,且不支持link语法;
* 你能把数据输出保存,但只支持1页50条,想要全部你只好1页1页翻,全部存下来;

之前MSN search提供的高级语法具备类似功能,用户可以在msn search利用Link/LinkDomain语法用来搜索链接到某个网页或者网站的所有网址。Google有link语法但是没有很详细的列出站点主域或者链接页面的功能。
http://loverty.org/2005/09/yahoo-site-explorer.html
页码: [1 共1页、26项网摘

使用帮助 |  如何保存网摘 |  给365Key提建议 |  媒体报道 |  站长推广须知
Copyright (C) 2004 365Key.com--天天网摘 All Rights Reserved