<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>Comments on: 让网络，更简单！</title>
	<atom:link href="http://www.guwendong.com/post/2010/cutt.html/feed" rel="self" type="application/rss+xml" />
	<link>http://www.guwendong.com/post/2010/cutt.html</link>
	<description>最好走的路越走越难，最难走的路越走越容易</description>
	<lastBuildDate>Wed, 01 Feb 2012 06:15:15 +0000</lastBuildDate>
	
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
		<item>
		<title>By: webguo在路上 &#187; 关于Cutt.com关于Topic Engine</title>
		<link>http://www.guwendong.com/post/2010/cutt.html/comment-page-1#comment-404</link>
		<dc:creator>webguo在路上 &#187; 关于Cutt.com关于Topic Engine</dc:creator>
		<pubDate>Fri, 06 Jan 2012 09:06:02 +0000</pubDate>
		<guid isPermaLink="false">http://www.guwendong.com/?p=358#comment-404</guid>
		<description>[...] 1、《让网络，更简单！》——谷文栋； [...]</description>
		<content:encoded><![CDATA[<p>[...] 1、《让网络，更简单！》——谷文栋； [...]</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: 欢迎大家试用指阅 &#187; Beyond Search - 最好走的路越走越难，最难走的路越走越容易</title>
		<link>http://www.guwendong.com/post/2010/cutt.html/comment-page-1#comment-333</link>
		<dc:creator>欢迎大家试用指阅 &#187; Beyond Search - 最好走的路越走越难，最难走的路越走越容易</dc:creator>
		<pubDate>Tue, 01 Nov 2011 03:07:52 +0000</pubDate>
		<guid isPermaLink="false">http://www.guwendong.com/?p=358#comment-333</guid>
		<description>[...] 才被 CNN 以 2000 万美元的价格收购了。我们团队简网 Cutt.com 一直都很看好这个方向，于10月10日在 App [...]</description>
		<content:encoded><![CDATA[<p>[...] 才被 CNN 以 2000 万美元的价格收购了。我们团队简网 Cutt.com 一直都很看好这个方向，于10月10日在 App [...]</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: landscaping harrisburg</title>
		<link>http://www.guwendong.com/post/2010/cutt.html/comment-page-1#comment-318</link>
		<dc:creator>landscaping harrisburg</dc:creator>
		<pubDate>Tue, 04 Oct 2011 00:45:42 +0000</pubDate>
		<guid isPermaLink="false">http://www.guwendong.com/?p=358#comment-318</guid>
		<description>Thank you for all of the effort on this blog</description>
		<content:encoded><![CDATA[<p>Thank you for all of the effort on this blog</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: 关于Cutt.com关于Topic Engine - webguo在路上</title>
		<link>http://www.guwendong.com/post/2010/cutt.html/comment-page-1#comment-232</link>
		<dc:creator>关于Cutt.com关于Topic Engine - webguo在路上</dc:creator>
		<pubDate>Sat, 12 Mar 2011 19:23:44 +0000</pubDate>
		<guid isPermaLink="false">http://www.guwendong.com/?p=358#comment-232</guid>
		<description>[...] 关于Cutt.com关于Topic Engine  March 13th, 2011  发表评论2011/03/12/cutt_topic_engine.html 阅读评论    上个月参加谷文栋效力的简网的内部产品调研会，提前了解了Cutt.com的功能。Cutt的Slogan是“关注你的关注”，原本以为它会是一个以个性化推荐为主打的应用，但从Slogan上看，更接近于信息过滤器。当你搜索时，它像一个Topic Engine，当你点击某一篇文章阅读时，它的界面又像Google Reader或鲜果阅读器。Cutt.com在组织资讯时，我把它划分到Topic Engine一类，暂且不谈它的阅读模式和群体智慧。Topic Engine的过去、现在和未来先定义什么是Topic Engine。这是一个应用层面的概念，与算法层面的Topic Model概念不大一样。我们所说的Topic，指可以用一个或一组关键词描述的一个主题，它对应于一个真实存在的、可被人理解的话题，比如用“小S Or 徐熙娣”关键词描述的主题“徐熙娣”。之所以叫“Engine”，指的是在有限（如新闻、论坛、博客、微博客、图片、视频等）的网络数据中，按照某种聚合逻辑，自动把与本主题有关联的资讯做有机整理和展现。举一个例子，一个Topic Engine通常要展现的有：Title——Jessica AlbaTopic LogoTopic 隶属的 Categories（可以用作面包屑导航）Topic Wiki ItemRelated Top Stories（Story和Article的区别在于，一个Story可以包含若干内容大致相似、来自于不同新闻源的Articles。也就是Story做了去重和相似性计算工作。）Related Status Stream（即关联微博消息）Related ImagesRelated VideosRelated Topics/Topics RelationsTag Cloud（标签云）Entities Cloud（实体云，主要是人名）有点儿像搜索引擎的搜索结果。只不过多做了很多细化工作，而且也不是随便一个关键词就是一个Topic，需要事先算好。Topic下的每一类数据都要事先做好排序，大胆地抛弃，大胆地去重，根据合并重复次数、普通网页反向链接次数或社会化网络引用和转发次数来做优化。自动发现Topic并归类Topics不是人工定义的，虽然有人工干预的成分。它包含实体发现与识别（Entity Detection and Recognition）、关系发现与识别（Relation Detection and Characterization）甚至事件发现与识别（Event Detection and Characterization）等技术点。比较简单的做法是，利用自然语言处理中的实体识别技术，利用书名号，来确定人名、地名、组织名、书名、网络游戏名和电影名，这些显而易见都肯定是Topics。然后利用自然语言处理中的自动分类技术确定这些Topics都隶属于哪些类别。比如“徐熙娣”属于“明星娱乐”类。当然，对于娱乐明星，可以直接找百度明星列表（百度贴吧明星列表、百度新闻明星档案列表），一下子就提取到大量正确的明星名。这里会有很多dirty work。如，语料中包含“《最终幻想》”，那么根据书名号知道“最终幻想”应该是一个Topic，接下来截取这个词出现位置前后N段/N句话作为一个字符串，送给自动分类引擎，判断属于哪一个分类，是电影还是书籍还是游戏，有时会有歧义的。也可以反过来做，先整理出某一个分类的语料，然后在这个语料集内做Topic Detection and Recognition。这个分类的语料一般由人工整理，保证语料的纯净；也可以是机器整理的。比如说DIPRE（Dual Iterative Pattern Relation Expansion）算法，就是在输入极少的情况下，先根据已经定义好的一个可靠的数据模式，比如“Google”和“Android手机”，叫做“seed items”。拿这个seed items去搜索到同时出现这两个词的文档，然后依靠机器自动发现一些模式，再把新模式继续在对应网站里深度广度地寻找匹配的文档，反复迭代，最终能够从一两个seeds找到一大批可靠的实体关系和模式。机器自动准备分类所需语料，也有点像这个原理，但得先手工拟定一批分类。这样，一个分类找几个核心关键字；在大量语料中找出现核心关键字的文章，再算这些文章的一些特征；然后统计一些特征权重；设一定阈值可以找到该分类文章的一些特征，同时也能找到一些出现频次较高的标签等，这些标签就可以作为Topics。Topics之间的连接点在Topic Page上，Related Topics列出的Topic，是跟本主题最相关的主题。一个直截了当的做法是，首先匹配到最近包含“徐熙娣”一词的热文（这个热文集合确定是相对可靠的语料，而不是随随便便的一篇文章）中，统计一同出现过的频率最高的实体（Entity）名称，取前几个；认定这些实体名称跟“徐熙娣”有明显的联系，我们称之为Connections。能够对每一个Topic做Connections计算的应用，就叫做Connections Engine。Connections Engine还可以计算Topics之间的关系远近，绘制为图形，用可视化的方式表示。比如，酷我的明星连连看：查看Cutt的“吴尊”频道，会发现文章中的“罗志祥”“高晓松”“崔始源”都没有作为标签提取出来，但Cutt里却又有罗志祥和高晓松频道，说明Cutt的标签提取并非我们自然语言处理里的传统“实体识别”，有点怪。如何确定一个Topic映射的关键词Keywords举个例子，“徐熙娣”这个Topic，映射的Keywords为：“小S” Or “徐熙娣”。文章中包含“小S”，也会被归类到这个Topic下。再比如，你在Cutt.com搜索“陈莎莎”，会提示你：简网为您找到了如下和 陈莎莎 相关的频道：陈紫函频道。这说明，Cutt知道陈莎莎是陈紫函的别名（但Cutt不知道王静雯是王菲的曾用名（Updated：我拼写错误，应该是“王靖雯”，这样就可以找到王菲））。这两个例子属于“实体别名识别”范畴。解决这个问题，不知道Cutt实作采用什么办法，有人是利用维基百科的数据做。Topic Engine的过去国外做Topic Engine的，起起伏伏有很多家，比如：daylife：参考主题Lindsay Lohan领略什么是新闻门户级的Topic Page；曾经的boxxet；曾经的ellerdale，现被flipboard收购；曾经的奇虎聚客；Evri，现在它收购了Twine.com：参考主题Orlando Bloom即可领略Topic Page的构建相当与时俱进，Connections图很快就反映出他结婚的关系；在Twitter的HashTags数据上构建的twubs；当然还包括曾经的玩聚，2008年前有一个版本是Topic Engine+Connection Engine，于北京奥运前夕因过于敏感而自废武功。Topic Engine的现在现在还活着的此类应用，有着强大的开放API，做着结构化互联网数据的基础工作，与强者结盟。你可以用daylife的API构建出一样精彩的新闻聚合和分析小门户。比如，给定一个Topic，API返回：Related Story、Images、Videos、Quotes、Timeline、Topics。它还可以给定一篇文章，输出相关文章。Cutt.com目前也在考虑开放像Daylife一样的API，它至少能让你搭出一个自动更新的Topic Page。Evri的API则在语义方面更进一步，深挖洞广积粮，如下图所示：著重于实体识别、实体关系的挖掘、关联推荐、情感分析等常规语义任务。这些语义任务要想做好，真是任重道远。国外很多公司，都是在基础应用数据的构建上下大力气，再比如FreeBase（隶属于Google新近收购的Metaweb），国内很少见到这样做事的。Topic Engine的未来从过去Topic Engine的外在形式来说，不容易运营成功。有几个原因：1、通常是只读的，用户难以围绕Topic Page做互动。2、排列结果通常是站方算法固化的，与具体用户的行为无关。3、实时性存在问题，当然在微博客出现之后，这个问题会比较好解决，否则就只能设定信息源是有限的A-List（指经过挑选的优质信息源），便于做快速扫描。4、同一个Topic下堆积太多同质文章，容易让陌生用户产生焦虑感，当然这取决于下一步如何引导用户消除这种焦虑感，让用户觉得这就像RSS阅读器一样，订阅了就走，老数据无所谓，等有了新数据再回头来看。5、对数据的分析太少，基本是资讯链接的堆砌。6、中国大陆优质原创文章太少，同一批文章反复出现在不同频道里。7、优质信息源太少，更新频率太低，用户关注几个Topic之后，数据更新太慢。8、用户兴趣变化很快。比如在Google Reader里，人们常会订阅/退订一些Feed，当Feed很多时略显不便。而新一代的flipboard/TwitterTimes则根据用户自己的Twitter/Facebook生成资讯阅读界面，用户同样需要Follow/Unfollow一些id，来体现自己的兴趣变迁；Follow正确的人，也是很麻烦的。同样，在Topic Engine中你也不得不需要做一些维护工作。未来Topic Engine是否能克服过去的这些问题，把以下几个东西结合好，也许有很好的前景：Topic Engine+Connections Engine+Recommendation Engine+Collaborative Filtering+Real-Time Streaming当然，Cutt.com&#160;不仅仅是Topic Engine+Connections Engine，据谷文栋介绍，它还要承载这样的使命：『根本需要，是兴趣。我不感兴趣的，就不要来纠缠我。我们希望有这样一种方式：你只需要表明自己的兴趣，然后通过群体智慧与机器运算，让信息找到你。』它要用简单的界面，隐藏复杂的技术细节。参考资源：1、《让网络，更简单！》——谷文栋；2、《用Topic组织你的兴趣》——项亮；    分类:  商业模式 创业  标签:  search&#160; startup&#160; businessmodel&#160;    相关文章 [...]</description>
		<content:encoded><![CDATA[<p>[...] 关于Cutt.com关于Topic Engine  March 13th, 2011  发表评论2011/03/12/cutt_topic_engine.html 阅读评论    上个月参加谷文栋效力的简网的内部产品调研会，提前了解了Cutt.com的功能。Cutt的Slogan是“关注你的关注”，原本以为它会是一个以个性化推荐为主打的应用，但从Slogan上看，更接近于信息过滤器。当你搜索时，它像一个Topic Engine，当你点击某一篇文章阅读时，它的界面又像Google Reader或鲜果阅读器。Cutt.com在组织资讯时，我把它划分到Topic Engine一类，暂且不谈它的阅读模式和群体智慧。Topic Engine的过去、现在和未来先定义什么是Topic Engine。这是一个应用层面的概念，与算法层面的Topic Model概念不大一样。我们所说的Topic，指可以用一个或一组关键词描述的一个主题，它对应于一个真实存在的、可被人理解的话题，比如用“小S Or 徐熙娣”关键词描述的主题“徐熙娣”。之所以叫“Engine”，指的是在有限（如新闻、论坛、博客、微博客、图片、视频等）的网络数据中，按照某种聚合逻辑，自动把与本主题有关联的资讯做有机整理和展现。举一个例子，一个Topic Engine通常要展现的有：Title——Jessica AlbaTopic LogoTopic 隶属的 Categories（可以用作面包屑导航）Topic Wiki ItemRelated Top Stories（Story和Article的区别在于，一个Story可以包含若干内容大致相似、来自于不同新闻源的Articles。也就是Story做了去重和相似性计算工作。）Related Status Stream（即关联微博消息）Related ImagesRelated VideosRelated Topics/Topics RelationsTag Cloud（标签云）Entities Cloud（实体云，主要是人名）有点儿像搜索引擎的搜索结果。只不过多做了很多细化工作，而且也不是随便一个关键词就是一个Topic，需要事先算好。Topic下的每一类数据都要事先做好排序，大胆地抛弃，大胆地去重，根据合并重复次数、普通网页反向链接次数或社会化网络引用和转发次数来做优化。自动发现Topic并归类Topics不是人工定义的，虽然有人工干预的成分。它包含实体发现与识别（Entity Detection and Recognition）、关系发现与识别（Relation Detection and Characterization）甚至事件发现与识别（Event Detection and Characterization）等技术点。比较简单的做法是，利用自然语言处理中的实体识别技术，利用书名号，来确定人名、地名、组织名、书名、网络游戏名和电影名，这些显而易见都肯定是Topics。然后利用自然语言处理中的自动分类技术确定这些Topics都隶属于哪些类别。比如“徐熙娣”属于“明星娱乐”类。当然，对于娱乐明星，可以直接找百度明星列表（百度贴吧明星列表、百度新闻明星档案列表），一下子就提取到大量正确的明星名。这里会有很多dirty work。如，语料中包含“《最终幻想》”，那么根据书名号知道“最终幻想”应该是一个Topic，接下来截取这个词出现位置前后N段/N句话作为一个字符串，送给自动分类引擎，判断属于哪一个分类，是电影还是书籍还是游戏，有时会有歧义的。也可以反过来做，先整理出某一个分类的语料，然后在这个语料集内做Topic Detection and Recognition。这个分类的语料一般由人工整理，保证语料的纯净；也可以是机器整理的。比如说DIPRE（Dual Iterative Pattern Relation Expansion）算法，就是在输入极少的情况下，先根据已经定义好的一个可靠的数据模式，比如“Google”和“Android手机”，叫做“seed items”。拿这个seed items去搜索到同时出现这两个词的文档，然后依靠机器自动发现一些模式，再把新模式继续在对应网站里深度广度地寻找匹配的文档，反复迭代，最终能够从一两个seeds找到一大批可靠的实体关系和模式。机器自动准备分类所需语料，也有点像这个原理，但得先手工拟定一批分类。这样，一个分类找几个核心关键字；在大量语料中找出现核心关键字的文章，再算这些文章的一些特征；然后统计一些特征权重；设一定阈值可以找到该分类文章的一些特征，同时也能找到一些出现频次较高的标签等，这些标签就可以作为Topics。Topics之间的连接点在Topic Page上，Related Topics列出的Topic，是跟本主题最相关的主题。一个直截了当的做法是，首先匹配到最近包含“徐熙娣”一词的热文（这个热文集合确定是相对可靠的语料，而不是随随便便的一篇文章）中，统计一同出现过的频率最高的实体（Entity）名称，取前几个；认定这些实体名称跟“徐熙娣”有明显的联系，我们称之为Connections。能够对每一个Topic做Connections计算的应用，就叫做Connections Engine。Connections Engine还可以计算Topics之间的关系远近，绘制为图形，用可视化的方式表示。比如，酷我的明星连连看：查看Cutt的“吴尊”频道，会发现文章中的“罗志祥”“高晓松”“崔始源”都没有作为标签提取出来，但Cutt里却又有罗志祥和高晓松频道，说明Cutt的标签提取并非我们自然语言处理里的传统“实体识别”，有点怪。如何确定一个Topic映射的关键词Keywords举个例子，“徐熙娣”这个Topic，映射的Keywords为：“小S” Or “徐熙娣”。文章中包含“小S”，也会被归类到这个Topic下。再比如，你在Cutt.com搜索“陈莎莎”，会提示你：简网为您找到了如下和 陈莎莎 相关的频道：陈紫函频道。这说明，Cutt知道陈莎莎是陈紫函的别名（但Cutt不知道王静雯是王菲的曾用名（Updated：我拼写错误，应该是“王靖雯”，这样就可以找到王菲））。这两个例子属于“实体别名识别”范畴。解决这个问题，不知道Cutt实作采用什么办法，有人是利用维基百科的数据做。Topic Engine的过去国外做Topic Engine的，起起伏伏有很多家，比如：daylife：参考主题Lindsay Lohan领略什么是新闻门户级的Topic Page；曾经的boxxet；曾经的ellerdale，现被flipboard收购；曾经的奇虎聚客；Evri，现在它收购了Twine.com：参考主题Orlando Bloom即可领略Topic Page的构建相当与时俱进，Connections图很快就反映出他结婚的关系；在Twitter的HashTags数据上构建的twubs；当然还包括曾经的玩聚，2008年前有一个版本是Topic Engine+Connection Engine，于北京奥运前夕因过于敏感而自废武功。Topic Engine的现在现在还活着的此类应用，有着强大的开放API，做着结构化互联网数据的基础工作，与强者结盟。你可以用daylife的API构建出一样精彩的新闻聚合和分析小门户。比如，给定一个Topic，API返回：Related Story、Images、Videos、Quotes、Timeline、Topics。它还可以给定一篇文章，输出相关文章。Cutt.com目前也在考虑开放像Daylife一样的API，它至少能让你搭出一个自动更新的Topic Page。Evri的API则在语义方面更进一步，深挖洞广积粮，如下图所示：著重于实体识别、实体关系的挖掘、关联推荐、情感分析等常规语义任务。这些语义任务要想做好，真是任重道远。国外很多公司，都是在基础应用数据的构建上下大力气，再比如FreeBase（隶属于Google新近收购的Metaweb），国内很少见到这样做事的。Topic Engine的未来从过去Topic Engine的外在形式来说，不容易运营成功。有几个原因：1、通常是只读的，用户难以围绕Topic Page做互动。2、排列结果通常是站方算法固化的，与具体用户的行为无关。3、实时性存在问题，当然在微博客出现之后，这个问题会比较好解决，否则就只能设定信息源是有限的A-List（指经过挑选的优质信息源），便于做快速扫描。4、同一个Topic下堆积太多同质文章，容易让陌生用户产生焦虑感，当然这取决于下一步如何引导用户消除这种焦虑感，让用户觉得这就像RSS阅读器一样，订阅了就走，老数据无所谓，等有了新数据再回头来看。5、对数据的分析太少，基本是资讯链接的堆砌。6、中国大陆优质原创文章太少，同一批文章反复出现在不同频道里。7、优质信息源太少，更新频率太低，用户关注几个Topic之后，数据更新太慢。8、用户兴趣变化很快。比如在Google Reader里，人们常会订阅/退订一些Feed，当Feed很多时略显不便。而新一代的flipboard/TwitterTimes则根据用户自己的Twitter/Facebook生成资讯阅读界面，用户同样需要Follow/Unfollow一些id，来体现自己的兴趣变迁；Follow正确的人，也是很麻烦的。同样，在Topic Engine中你也不得不需要做一些维护工作。未来Topic Engine是否能克服过去的这些问题，把以下几个东西结合好，也许有很好的前景：Topic Engine+Connections Engine+Recommendation Engine+Collaborative Filtering+Real-Time Streaming当然，Cutt.com&nbsp;不仅仅是Topic Engine+Connections Engine，据谷文栋介绍，它还要承载这样的使命：『根本需要，是兴趣。我不感兴趣的，就不要来纠缠我。我们希望有这样一种方式：你只需要表明自己的兴趣，然后通过群体智慧与机器运算，让信息找到你。』它要用简单的界面，隐藏复杂的技术细节。参考资源：1、《让网络，更简单！》——谷文栋；2、《用Topic组织你的兴趣》——项亮；    分类:  商业模式 创业  标签:  search&nbsp; startup&nbsp; businessmodel&nbsp;    相关文章 [...]</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: follow人，还是follow内容 - webguo在路上</title>
		<link>http://www.guwendong.com/post/2010/cutt.html/comment-page-1#comment-231</link>
		<dc:creator>follow人，还是follow内容 - webguo在路上</dc:creator>
		<pubDate>Sat, 12 Mar 2011 19:01:43 +0000</pubDate>
		<guid isPermaLink="false">http://www.guwendong.com/?p=358#comment-231</guid>
		<description>[...] follow人，还是follow内容  March 13th, 2011  发表评论2011/03/12/follow_person_or_content.html 阅读评论    天下大势，合久必分，分久必合。自从有了网站，数字信息就开始多了起来，直到我们拥有搜索引擎之前，这些信息都没有被很好地组织。自从有了feed流这个概念，信息突然又瞬间地膨胀了起来，在我们找到一个合适的工具之前，这些信息都没法被很好地推送到合适的人面前。一直以来，人们从没停止过要把各种如毛细血管般的流信息整合到一起。特别是一些已经远在墙外的优秀网站，做出了很多很好的解决方案，facebook之类的SNS网站试图通过现实朋友的关系来组织feed流，无所不包的friendfeed企图把所有的feed信息都归于一处（国内类似的有今年张教主写的kanrss），这两年成为新贵的twitter则使得流信息的产生更容易，接收更便捷，follow即所得。上述对信息的解决方案都是通过follow人来实现，而follow内容无疑是另一条可行的路径。关于内容的分类组织已经有很多年的研究与实践，在郑昀的这篇关于Topic Engine的博客中有很详细的综述，而对这些分类内容的follow，以得到一个类别的信息更新，就我所知，还并不多见。比较知名的如google资讯与google快讯，前者属于对内容的分类组织，后者则属于对分类内容的订阅或者说follow。依托于google强大的搜索能力，信息的新颖性及广阔性很有保证，但由于产品的定位并非要作一个详细的内容分类，所以分类比较粗糙，只是一些如门户网站般的粗分类别而已。最近上线的cutt.com则希望把这种分类信息推送做到极致，这是一家号称以语义网技术作为其底层分析引擎的公司。它的上线，首先要感谢国家，否则也许我们能早几个月看见它。因为谷文栋的介绍，我得以在早期就对这个有着很大野心但目前还不甚成熟的信息组织引擎有一定的使用体验。这是一个很有想法的新生儿，但现在有些地方也还不太成熟。产品与交互方面：一个由工程师主导的公司容易做出让人拍案叫绝的创意产品，却也容易暴露一些产品设计与交互上的毛病，这也许是因为聪明的工程师们总是很难让自己处身在大多数不知情用户的处境里。cutt很好的一点是用户使用零成本，任何一个用户打开即可用，无需要注册，也无需进行任何信息填写。我在匿名状态下就能进行大部分的操作，没有注册没有登录情况下收藏的文章居然还能保存，很激动人心吧！但是可怕的事情来了，一旦我登录上去，会发现我之前以为已经记录下来的所有数据都不见了。好吧，我也许原以为它会自动地把匿名信息自动导入到我的帐号中。但后来想想，如果它这样做了，我肯定会更恐惧的。其实我的意思是：我没有得到任何提示的情况下，我不知道我刚刚还在的数据到哪去了。对于普通用户，可能还有一个困扰就是换个浏览器，这些数据也没了，用户不会觉得自己有错，他们只会认为是你们把他们的数据弄丢了。同样的情况是我写的文章反馈，写完后同样无影无踪，虽然我知道cutt的数据库中肯定还有记录，但大多用户同样会认为你把TA的数据弄丢了。虽然我不是做产品的，但我觉得这里有一个原则：用户贡献的数据TA一定还能找回来，否则后果绝不仅是TA不再愿意贡献那么简单。另外就是内容方面的，由于是一个新生儿，内容频道还不足够完善，比如摄影器材方面的内容也没有，因为我最近关注这个，所以一下就看到了这个，但估计其它方面的频道还是有缺失。再比如，我发现cutt不喜欢娱乐，因为很多娱乐版面都还是空的：）。以内容为主打的网站的其中一个核心竞争力就是信息的更新速度，而cutt的信息更新的速度还有待提高，我晚上十点钟时看到的最新文章还是下午五点多的，不知道是受制于爬虫还是算法的处理速度。另外，展现方式也许还可以改进，简洁是一种方式，但如果仅仅只是以新闻作为主要载体的话，加入一些具有视觉力的元素可能会更吸引人。技术方面：预览：我很喜欢cutt的文章预览功能，这样我就不用点过去等整个页面加载了。但我不知道还能不能进行进一步的过滤，采用文本摘要技术，把主要内容以几句话就传递出来。对于现在快餐型的社会消费习惯，这无疑是一个很有竞争力的feature。我甚至考虑过由人来对这些摘要信息进行抽取，这也是群体智能的一部分。来源：据我的观察，现在的cutt仍然以网页这种非结构化信息为主，来源也主要是一些大中型的门户或资讯网站。实际上在现在这个mashup的年代，网络上的RSS源很多，如果能充分利用博客及一些web2.0网站输出的RSS半结构化信息，信息的来源肯定会更丰富，可分析性肯定更强。当然我估计cutt肯定也有这方面的内容，只是还没有更多的放出来。google reader：曾经我是一个google reader的重度用户，几乎每天必看，也订阅了大量感兴趣或半感兴趣的rss源，并煞有其事地把它们归类为算法、网络、科学、IT资讯、业余等等频道。但后来我已经越来越少地去看它，任由那1000+的未读永远地停留在左上角。究其原因，是因为follow的内容是死的，而follow的人是活的，是有感情因素在里面的，所以如果一个人没有更多的时间，TA会更倾向于刷自己的微薄，而非冷冰冰的内容。但信息的需求还是有的，所以我现在更多地在消费经过朋友过滤的信息。如果一个算法能有更好的过滤能力，我还是很乐意去使用的，特别是个性化的信息推荐。因为友邻推荐是给所有人的，而非专属你自己，而这方面，机器可以做的更好。个性化信息推荐：虽然cutt现在还没有，但我知道将来肯定会有，现在只不过是要度过一个用户信息的冷启动期，贡献越多，收获越多。但信息个性化是一个比信息组织难的多的课题，除了考虑内容的语义与关系，现在再加进一层比内容要复杂得多的人的因素，解决好这个问题，任重而道远。思想层面：最后来点虚的。集体智能的利用：不单是利用用户隐式的反馈数据加以社会化的推荐那么简单，它更重要地还包括用户显式地、自愿地贡献的内容。比如wikipedia的客观权威性居然来自于无数个网民自发的编辑行动，再比如语义网的标杆freebase的构建也是有赖于大量的志愿者对它的贡献。完全依靠用户的积极性显然不行，特别是在国内互联网环境中人们往往更乐于索取而非贡献，怎么能让用户快快乐乐地贡献自己的智慧是一个很难的设计问题。从另一个角度来思考，这个问题其实也并非那么地困难，我们简单地估计一下之前红透半边天的“开心农场”，有多少个网民在那上面花费了多少的时间，折合成被耗费的智慧时间，这该是多么庞大的一个数字！如果，我们在一个如此盛行的游戏中盛载了一定的智慧任务，而用户能在玩耍游戏的过程中就能帮助我们解决一个又一个的机器不能解决的智慧难题，这该是多么的激动人心啊！事实上，在过去的日子里，已经有人作过这样的尝试，像我上述所提及的一类游戏有其名为Game ith a purpose，就是希望能透过游戏的方式，让人去解决一些人本身看来显而易见，但目前的机器学习方法仍然无法做好的问题，比如图片内容识别的问题。到目前为止，关于这种思想最著名的一个案例应该就是 reCAPTCHA，这个游戏曾经成功地帮助人们解决了印刷物扫描成电子物时某些内容无法识别的问题。这样的一种以人作为驱动的计算思想，国内有人译之为“人本计算”。这个留待以后再专门论述。    分类:  商业模式 创业 新点子  标签:  startup&#160; businessmodel&#160;    相关文章 [...]</description>
		<content:encoded><![CDATA[<p>[...] follow人，还是follow内容  March 13th, 2011  发表评论2011/03/12/follow_person_or_content.html 阅读评论    天下大势，合久必分，分久必合。自从有了网站，数字信息就开始多了起来，直到我们拥有搜索引擎之前，这些信息都没有被很好地组织。自从有了feed流这个概念，信息突然又瞬间地膨胀了起来，在我们找到一个合适的工具之前，这些信息都没法被很好地推送到合适的人面前。一直以来，人们从没停止过要把各种如毛细血管般的流信息整合到一起。特别是一些已经远在墙外的优秀网站，做出了很多很好的解决方案，facebook之类的SNS网站试图通过现实朋友的关系来组织feed流，无所不包的friendfeed企图把所有的feed信息都归于一处（国内类似的有今年张教主写的kanrss），这两年成为新贵的twitter则使得流信息的产生更容易，接收更便捷，follow即所得。上述对信息的解决方案都是通过follow人来实现，而follow内容无疑是另一条可行的路径。关于内容的分类组织已经有很多年的研究与实践，在郑昀的这篇关于Topic Engine的博客中有很详细的综述，而对这些分类内容的follow，以得到一个类别的信息更新，就我所知，还并不多见。比较知名的如google资讯与google快讯，前者属于对内容的分类组织，后者则属于对分类内容的订阅或者说follow。依托于google强大的搜索能力，信息的新颖性及广阔性很有保证，但由于产品的定位并非要作一个详细的内容分类，所以分类比较粗糙，只是一些如门户网站般的粗分类别而已。最近上线的cutt.com则希望把这种分类信息推送做到极致，这是一家号称以语义网技术作为其底层分析引擎的公司。它的上线，首先要感谢国家，否则也许我们能早几个月看见它。因为谷文栋的介绍，我得以在早期就对这个有着很大野心但目前还不甚成熟的信息组织引擎有一定的使用体验。这是一个很有想法的新生儿，但现在有些地方也还不太成熟。产品与交互方面：一个由工程师主导的公司容易做出让人拍案叫绝的创意产品，却也容易暴露一些产品设计与交互上的毛病，这也许是因为聪明的工程师们总是很难让自己处身在大多数不知情用户的处境里。cutt很好的一点是用户使用零成本，任何一个用户打开即可用，无需要注册，也无需进行任何信息填写。我在匿名状态下就能进行大部分的操作，没有注册没有登录情况下收藏的文章居然还能保存，很激动人心吧！但是可怕的事情来了，一旦我登录上去，会发现我之前以为已经记录下来的所有数据都不见了。好吧，我也许原以为它会自动地把匿名信息自动导入到我的帐号中。但后来想想，如果它这样做了，我肯定会更恐惧的。其实我的意思是：我没有得到任何提示的情况下，我不知道我刚刚还在的数据到哪去了。对于普通用户，可能还有一个困扰就是换个浏览器，这些数据也没了，用户不会觉得自己有错，他们只会认为是你们把他们的数据弄丢了。同样的情况是我写的文章反馈，写完后同样无影无踪，虽然我知道cutt的数据库中肯定还有记录，但大多用户同样会认为你把TA的数据弄丢了。虽然我不是做产品的，但我觉得这里有一个原则：用户贡献的数据TA一定还能找回来，否则后果绝不仅是TA不再愿意贡献那么简单。另外就是内容方面的，由于是一个新生儿，内容频道还不足够完善，比如摄影器材方面的内容也没有，因为我最近关注这个，所以一下就看到了这个，但估计其它方面的频道还是有缺失。再比如，我发现cutt不喜欢娱乐，因为很多娱乐版面都还是空的：）。以内容为主打的网站的其中一个核心竞争力就是信息的更新速度，而cutt的信息更新的速度还有待提高，我晚上十点钟时看到的最新文章还是下午五点多的，不知道是受制于爬虫还是算法的处理速度。另外，展现方式也许还可以改进，简洁是一种方式，但如果仅仅只是以新闻作为主要载体的话，加入一些具有视觉力的元素可能会更吸引人。技术方面：预览：我很喜欢cutt的文章预览功能，这样我就不用点过去等整个页面加载了。但我不知道还能不能进行进一步的过滤，采用文本摘要技术，把主要内容以几句话就传递出来。对于现在快餐型的社会消费习惯，这无疑是一个很有竞争力的feature。我甚至考虑过由人来对这些摘要信息进行抽取，这也是群体智能的一部分。来源：据我的观察，现在的cutt仍然以网页这种非结构化信息为主，来源也主要是一些大中型的门户或资讯网站。实际上在现在这个mashup的年代，网络上的RSS源很多，如果能充分利用博客及一些web2.0网站输出的RSS半结构化信息，信息的来源肯定会更丰富，可分析性肯定更强。当然我估计cutt肯定也有这方面的内容，只是还没有更多的放出来。google reader：曾经我是一个google reader的重度用户，几乎每天必看，也订阅了大量感兴趣或半感兴趣的rss源，并煞有其事地把它们归类为算法、网络、科学、IT资讯、业余等等频道。但后来我已经越来越少地去看它，任由那1000+的未读永远地停留在左上角。究其原因，是因为follow的内容是死的，而follow的人是活的，是有感情因素在里面的，所以如果一个人没有更多的时间，TA会更倾向于刷自己的微薄，而非冷冰冰的内容。但信息的需求还是有的，所以我现在更多地在消费经过朋友过滤的信息。如果一个算法能有更好的过滤能力，我还是很乐意去使用的，特别是个性化的信息推荐。因为友邻推荐是给所有人的，而非专属你自己，而这方面，机器可以做的更好。个性化信息推荐：虽然cutt现在还没有，但我知道将来肯定会有，现在只不过是要度过一个用户信息的冷启动期，贡献越多，收获越多。但信息个性化是一个比信息组织难的多的课题，除了考虑内容的语义与关系，现在再加进一层比内容要复杂得多的人的因素，解决好这个问题，任重而道远。思想层面：最后来点虚的。集体智能的利用：不单是利用用户隐式的反馈数据加以社会化的推荐那么简单，它更重要地还包括用户显式地、自愿地贡献的内容。比如wikipedia的客观权威性居然来自于无数个网民自发的编辑行动，再比如语义网的标杆freebase的构建也是有赖于大量的志愿者对它的贡献。完全依靠用户的积极性显然不行，特别是在国内互联网环境中人们往往更乐于索取而非贡献，怎么能让用户快快乐乐地贡献自己的智慧是一个很难的设计问题。从另一个角度来思考，这个问题其实也并非那么地困难，我们简单地估计一下之前红透半边天的“开心农场”，有多少个网民在那上面花费了多少的时间，折合成被耗费的智慧时间，这该是多么庞大的一个数字！如果，我们在一个如此盛行的游戏中盛载了一定的智慧任务，而用户能在玩耍游戏的过程中就能帮助我们解决一个又一个的机器不能解决的智慧难题，这该是多么的激动人心啊！事实上，在过去的日子里，已经有人作过这样的尝试，像我上述所提及的一类游戏有其名为Game ith a purpose，就是希望能透过游戏的方式，让人去解决一些人本身看来显而易见，但目前的机器学习方法仍然无法做好的问题，比如图片内容识别的问题。到目前为止，关于这种思想最著名的一个案例应该就是 reCAPTCHA，这个游戏曾经成功地帮助人们解决了印刷物扫描成电子物时某些内容无法识别的问题。这样的一种以人作为驱动的计算思想，国内有人译之为“人本计算”。这个留待以后再专门论述。    分类:  商业模式 创业 新点子  标签:  startup&nbsp; businessmodel&nbsp;    相关文章 [...]</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Eric</title>
		<link>http://www.guwendong.com/post/2010/cutt.html/comment-page-1#comment-149</link>
		<dc:creator>Eric</dc:creator>
		<pubDate>Fri, 10 Dec 2010 03:56:27 +0000</pubDate>
		<guid isPermaLink="false">http://www.guwendong.com/?p=358#comment-149</guid>
		<description>Semantic Web 多么美好的事情，路漫漫......坚信能实现</description>
		<content:encoded><![CDATA[<p>Semantic Web 多么美好的事情，路漫漫&#8230;&#8230;坚信能实现</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: 我们在等你！ &#187; Beyond Search - 最好走的路越走越难，最难走的路越走越容易</title>
		<link>http://www.guwendong.com/post/2010/cutt.html/comment-page-1#comment-111</link>
		<dc:creator>我们在等你！ &#187; Beyond Search - 最好走的路越走越难，最难走的路越走越容易</dc:creator>
		<pubDate>Wed, 11 Aug 2010 16:30:35 +0000</pubDate>
		<guid isPermaLink="false">http://www.guwendong.com/?p=358#comment-111</guid>
		<description>[...] 我们有激情爱打拼会玩儿三国杀。我们想让网络更简单， [...]</description>
		<content:encoded><![CDATA[<p>[...] 我们有激情爱打拼会玩儿三国杀。我们想让网络更简单， [...]</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: chenge</title>
		<link>http://www.guwendong.com/post/2010/cutt.html/comment-page-1#comment-109</link>
		<dc:creator>chenge</dc:creator>
		<pubDate>Sun, 08 Aug 2010 05:10:11 +0000</pubDate>
		<guid isPermaLink="false">http://www.guwendong.com/?p=358#comment-109</guid>
		<description>很好奇你们的信息来源是什么？

那个 我的贡献 没明白怎么用。好像是只读，不能提交新内容的。

我的豆瓣：chenge</description>
		<content:encoded><![CDATA[<p>很好奇你们的信息来源是什么？</p>
<p>那个 我的贡献 没明白怎么用。好像是只读，不能提交新内容的。</p>
<p>我的豆瓣：chenge</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: 优惠券</title>
		<link>http://www.guwendong.com/post/2010/cutt.html/comment-page-1#comment-105</link>
		<dc:creator>优惠券</dc:creator>
		<pubDate>Fri, 06 Aug 2010 05:03:06 +0000</pubDate>
		<guid isPermaLink="false">http://www.guwendong.com/?p=358#comment-105</guid>
		<description>话说遍地黄金就是这样造成的</description>
		<content:encoded><![CDATA[<p>话说遍地黄金就是这样造成的</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Notus</title>
		<link>http://www.guwendong.com/post/2010/cutt.html/comment-page-1#comment-102</link>
		<dc:creator>Notus</dc:creator>
		<pubDate>Mon, 02 Aug 2010 02:35:17 +0000</pubDate>
		<guid isPermaLink="false">http://www.guwendong.com/?p=358#comment-102</guid>
		<description>@guwendong cutt是你们在做的吗？
有没有研究下 http://www.stumbleupon.com :)</description>
		<content:encoded><![CDATA[<p>@guwendong cutt是你们在做的吗？<br />
有没有研究下 <a href="http://www.stumbleupon.com" rel="nofollow">http://www.stumbleupon.com</a> <img src='http://www.guwendong.com/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
]]></content:encoded>
	</item>
</channel>
</rss>

