2007年6月7日早上10点。Ryan Sit在他的Gmail收件箱里看到了他等了9个月的消息。Sit今年29岁,从事软件开发,是San Diego一家叫做Listpic公司的创始人。Lipstic站点使用一种叫做bot的工具,能够从Craiglist(美国分类广告网站)的待售名单中抓取图片并识别,转成容易操作、更吸引人的格式。这样,就可以避免乏味地点开个别链接查看图片,Listpic用户可以在一个网页上看到很多图片。这种服务立刻取得了成功,6月初为止,每天能吸引4.3万网友,从Google AdSense上获得的的收入也达到了每月几千美金。
Sit忐忑不安,他希望Listpic的成功能够获得craiglist的承认,从而建立起合作关系或干脆把Listpic收购了。当他看到craiglist CEO Jim Buckmaster发来的邮件时,觉得自己的梦想就要成真了。
接着他看到了触目惊心的一句:“马上停止”。
Buckmaster不但没有赞扬Sit,反而在email里说他违反了craiglist的使用条例,并且违反了互相尊重和版权所有的权利。信中还要求他停止使用craigslist的内容。结尾简洁地写道:“请告知贵方的处理办法”。
Sit并没有回信辩驳的机会。收到这封信的两个小时后,Sit到了Listpic办公室,发现主页上的图片都加载不了。他点击其中一个指向某一列表的链接,但到craigslist主页的路径已经更改了。Sit的bot已经瘫痪了。他说:“他们并没有告诉我他们会采取措施,但我的确被阻止了”。
快要发狂的Sit复仇心起,在主页上发布了一条信息,发动Listpic的网友写email给craigslist的CEO Buckmaster和创办者Craig Newmark。但craigslist仍拒绝让步。Buckmaster也不愿道歉,他申明了craigslist这样做的原因:Listpic的长期数据读写请求拖慢了craigslist网页加载速度,而且Listpic的google文本广告破坏了craigslist以简洁为主、反对广告的页面风格。Buckmaster表示,“虽然听起来很老土,但我们不想让craigslist的用户发布的内容被第三方所利用”。几周之内,Listpic的网站排名已经从原先的高度掉到了15000名之内。它的受欢迎程度在某些地方掉到了10万名,而且还在继续下降。现在,Listpic从另外一个分类网站Oodle获取数据,Oodle也被阻止获取craigslist数据。
Sit说:“我的目的是想通过给用户更好的体验来帮助craigslist,他们那样做实在太可恶了。”
当今的互联网本应是以共享为主的。正是由于对公开、合作的一致认可,定义了Web2.0现象的数据发掘技术才能够盛行。Zillow从几个合作伙伴如Navteq、GlobeXplorer和Proxix那里取得地图数据,然后和从公共记录中得到的房地产数据相结合,从而预测出房子的价值;微软开发的Photosynth将Flickr和其它来源的图片组合在一起得到令人吃惊3D模型;还有一个叫做Mint的初创公司,可以让用户从各自的银行账户中提取财务信息重新组合成为用户界面,让Quicken这一软件相形失色。所有这些工具的数据来源都可以在数据网站上得到,如Dapper和Kapow。
业内老大如雅虎和google也没有刻意保护他们的数据,其他的开发者很容易登录然后获得数据从而提高网站流量。大多数大型网络公司都对丰富的数据源保持着开放的态度,提供良好的环境和原料,促成更新的网络产品。总之,Google这个Web2.0时代的先驱,就是靠着“属于”其他人的信息成长起来的,它把链接、关键字、其他网站来的原始数据这些内容全部整合成搜索结果。
在所有的规范下,还有一些不规范的“拿来主义”,这方面的共识和规定还未达成,很多情况下,作为数据源的大公司并不能或者不想他们的信息被每个人看到。这一角度来看,web2.0的法则就受到了诟病。结果是:靠着理论上同意信息免费共享的一部分小公司,新一代的公司能够发展壮大,除非哪一天这些小公司不愿意共享信息了。
“抓取”是个不友善的名词。从另外一个网站上自动获取数据并用在不正当用途的行为可能引起称作“抓取数据”(如从公共网站上获得邮件地址发垃圾邮件)。很多web2.0的公司并不这么做,他们更愿意用“引入”一词描述他们自己的数据收集的过程。不过无论叫什么,这都是个简单的过程。抓取数据的人使用脚本语言如Perl、PHP、Java写一个软件机器人程序就可以了。他们把这写bots放到目的网站去(通过服务器或者自己的电脑)并登录。然后bots就能复制带回需要的信息:可能是图片、联络信息列表或者价格目录。
原文作者:Josh McHugh 译者:akanekou
原文链接:Should Web Giants Let Startups Use the Information They Have Abo
【相关文章】
|
||||
| · ASP.NET开发教程 · 专题:ASP.NET 2.0基础.. · LAMP技术精解 · 服务器节能与绿色IT · ARP攻击防范与解决方案 · Linux 集群技术专题 · Windows集群服务应用 · CISSP认证成长之路 |
· SQL Server 2008/2005.. · SQL Server入门到精通 · 网络工程师职业规划与.. · 浏览器的战国时代 · 运营商封堵ADSL共享 中.. · 微软出价446亿美元收购.. · 技术人求职简历完备手册 · 开源虚拟化技术Xen |
|||
|
||||
| · SOA 面向服务架构 · SQL Server 2008/2005.. · Apache技术专题 · 三层交换技术专题 · SQL Server入门到精通 · Apache技术专题 · Windows集群服务应用 · 国际文档格式标准开战 |
· 路由器设置与口令恢复 · Linux 集群技术专题 · PHP开发应用手册 · SOA 面向服务架构 · 企业数据恢复指南 · 了解统一威胁管理(UTM).. · 专题:AIX操作系统管理.. · 访问控制列表(ACL)介绍 |
|||
|
||||
| · SQL Server入门到精通 · SQL Server 2008/2005.. · SOA 面向服务架构 · Apache技术专题 · 三层交换技术专题 · Apache技术专题 · 企业数据恢复指南 · Windows集群服务应用 |
· 路由器设置与口令恢复 · Linux 集群技术专题 · SOA 面向服务架构 · 了解统一威胁管理(UTM).. · 反垃圾邮件技术应用 · 访问控制列表(ACL)介绍 · ASP.NET开发教程 · PHP开发应用手册 |
|||