More servicesWindows Live
HomeHotmailSpacesOneCare
 
MSN
Sign in
 
 
Spaces home  laolu's blogPhotosProfileFriendsBlog Tools Explore the Spaces community

Blog

    11/28/2005

    信息过载和个性化搜索

    3天前 keso 提到了信息过载问题,确实,这是一个很大的市场机会。信息过载源于信息爆炸。传统文献的猛增,促使信息检索领域的独立。网络文献的猛增,加速了搜索引擎的发展。唯一的不同是,在传统文献领域担任知识导航、信息整理角色的图书情报机构,在互联网上的集体缺席。这不能不说是很大的遗憾。搜索引擎从一开始,就是商业公司的产物。一度以拥有图书馆员为特色的 Northern Light,也于2002年1月关闭了公共搜索,转向收费的商业搜索。

    网上文档的日益增多,使得搜索超越新闻,成为网络上的第二大应用。在相当大的程度上,搜索是面临信息过载的唯一选择。但是,现在的搜索引擎缺陷也很明显,几乎快成了新的信息过载:一是搜索结果数量庞大;二是搜索结果的线性排列。

    搜索的目的是为了获得特定的信息,只要搜索引擎能满足用户的需求就行。但这是一个说起来简单,做起来一点也不简单的事情。搜索引擎是一个直接面向最终用户服务的市场,用户的需求非常个性化,这不仅使相关性的评价变得无法客观,而且很难以统一的搜索结果来满足不同的用户。对张三来说合适的结果,对李四则未必合适。或者说,对搜索引擎的评价,很大程度上,是用户个人对搜索结果是否适用的主观判断,这是一种带有强烈个人色彩的价值评判。这也是为什么网上有人推崇 Google、有人喜欢百度的原因,就两者的搜索结果(排除竞价排名的不算)来说,是有些差异,但肯定没有那么大的差异。

    理想的情况是,搜索引擎具有智能,能代理每个用户,自动从网络上搜索到最符合每个用户特定需求的结果。在计算机不能想大脑那样思考、在计算机的自然语言理解还没有实现的情况下,要实现这样的搜索理想,可能只是一个梦想。于是,迫切的现实就是,怎样在现有的基础上,降低搜索引擎的信息过载。大体上有这么三种做法:

    1. 对搜索结果提供内容分类

    内容分类主要有人工和自动两种方式。

    以前的搜索引擎,还曾有设想利用编辑对网络资源予以分类,并追踪每个类别里最好的网站。对于搜索引擎这样显然不经济,也不易得到大众的承认,更不符合2.0的潮流。不过,图书情报机构却可以利用这种做法,提供各专业领域的学科知识导航,仍然有积极意义。作为商业公司,搜索引擎把眼光转向自动分类/聚类的技术实现。例子有:

    • Vivisimo 不仅有商业搜索的聚类引擎,还推出了面向普通用户的 Clusty
    • Mooter 有智能聚类(Intelligent clustering),以认知模式等心理学为理论基础,提出“三到五次点击之内”得到用户所需要的信息。

    对搜索结果提供进一步的内容分类,并没有改变搜索结果,只是改变了搜索结果线性排列,使用户能更好地查看和选择结果。自动聚类的优势在于技术先进,但从实用的角度来说还有不足。

    2. 对搜索结果进行价值评定

    主要是依靠用户的力量,对搜索结果作出某种形式的价值评定。例子有:

    • Yahoo! Search - My Web 2.0,注册用户能保存搜索结果,并共享给好友或任何人。这是 Yahoo! 搜索个性化和社区化(社会化)的特性。在搜索结果页面,每个结果的描述下面,显示有该结果页面被保存的次数。在一定程度上,这些也能体现出各个结果的重要性。
    • Rollyo 走了另外一条线路,以用户推荐列表的方式,对搜索结果(来自 Yahoo! Search )进行筛选,也能对结果的重要性作出区分。

    好处在于借助用户,但需要较长时间的使用积累才能体现效果。并且,这些依然更像是大众的选择,还不算是典型的个性选择,离 Yahoo! COO Daniel L. Rosensweig 说的“我们相信世界正从从大众媒体转向‘我的媒体’”,还有些距离。

    3. 对搜索结果予以个性化

    在搜索结果中,要么列出最好的网页,要么列出最符合特定用户的网页。Google 看起来更看重后者,并从用户和网页两方面入手做了准备。其申请的专利“搜索结果内容排序的个性化”,内容是利用用户描述文档,对搜索结果进行个性化排序,PageRank 可能演变为 Personalized Rank。今年3月,Google 还申请了专利“基于历史数据的信息检索”,则是针对网页文献的历史数据(如用户如何存取该文献、用户是否将其加入书签、用户在该页面的停留时间等等),生成该网页文献的分值,对搜索结果进行调整。

    这或许是最贴近个性化搜索本意的做法,并使搜索服务具有粘性,你用得越多给你的结果就越符合你的习惯。显然,这需要追踪用户的浏览行为,可能引发所谓的隐私关注问题。

    另外,对比 Yahoo! 和 Google 在个性化搜索的发展,还有个区别,前者有 Community 特征,但后者没有。如果是刻意的回避,那么就值得留意了。

    如果不能给你最好的结果,那就给你最符合你的结果。个性化搜索是能够减少信息过载的办法之一。沿着这样的轨迹下去,第二代引擎可能会渐变为第三代引擎。从市场空间来说,还会有新出现的第三代引擎吗?

    Comments (12)
    • yet
      2/18/2006 12:12 AM
      信息过载是谁提出来的?恐怕30年前就有人提出来了吧。
       
      至少我们在一年多前讨论课上就有人提过这个概念,对我们而言根本就不是新名词了
       
       
    • iceberg爱死博哥
      12/2/2005 12:58 PM
      机器永远不能代替人吧。似乎,推荐制和自定义共享很有2.0的本义。我们需要搜索再和sns系统联系起来。
    • maonaa
      11/30/2005 6:56 PM
      请问laolu,你是情报学专业的吗?还是在这方面下过一番功夫?
    • 时间就是金钱
      11/30/2005 5:53 PM
      很有深度啊 的确下了功夫了 敬礼~ ------------------------------------------ 世界上第一个售卖时间的网站 http://www.timeismoney.cn 时间就是金钱网站 如果想购买时间,请访问http://www.timeismoney.cn/default.html
    • laolu
      11/30/2005 3:59 PM
      是的,要引入人的因素,还有怎样引入?
    • WOLFay
      11/30/2005 10:25 AM
      不错,我这段时间也一直思考改善搜索结果的问题。其实应该算上新浪爱问,他试图直接拿人做爬虫。搜索,其实就是提问,机器再聪明也是没有办法了解人究竟想知道什么的。问题,远远比关键字来的直接、精确。
    • 11/29/2005 6:47 PM
      文章写得不错! 感觉以后的搜索可能会很多,所以做了个工具http://www.okgo.cn
    • 风在南方
      11/29/2005 11:28 AM
      个性化搜索需要有大量的用户数据作为分析基础,但这又似乎与"没有信息的共享,就没有知识的共享"这句话相矛盾了.
    • laolu
      11/29/2005 10:36 AM
      谢啦,您过奖了:)
    • 11/29/2005 2:45 AM
      深入研究了的。。 很好的blog
    • lovelock
      11/28/2005 10:12 PM
      博客越写越好了。
    • 蔬菜瓜果
      11/28/2005 10:02 PM
      嘻嘻。