频道直达:新闻 - 组网 - 安全 - 服务器 - 存储 - 系统 - 应用 - 开发 - 数据库 - 前沿 - 技术人 - 培训 - 求职 - 读书 - 教程 - 专题 - 产品 - 案例 - 技术圈 - 博客 - BBS
51CTO.COM_中国领先的IT技术网站
找资料:

网络公司对数据源保持开放态度

作者: akanekou 出处:网易科技 2008-01-02 09:30    砖    好    评论   进入论坛
阅读提示:大多数大型网络公司都对丰富的数据源保持着开放的态度,提供良好的环境和原料,促成更新的网络产品。

2007年6月7日早上10点。Ryan Sit在他的Gmail收件箱里看到了他等了9个月的消息。Sit今年29岁,从事软件开发,是San Diego一家叫做Listpic公司的创始人。Lipstic站点使用一种叫做bot的工具,能够从Craiglist(美国分类广告网站)的待售名单中抓取图片并识别,转成容易操作、更吸引人的格式。这样,就可以避免乏味地点开个别链接查看图片,Listpic用户可以在一个网页上看到很多图片。这种服务立刻取得了成功,6月初为止,每天能吸引4.3万网友,从Google AdSense上获得的的收入也达到了每月几千美金。

Sit忐忑不安,他希望Listpic的成功能够获得craiglist的承认,从而建立起合作关系或干脆把Listpic收购了。当他看到craiglist CEO Jim Buckmaster发来的邮件时,觉得自己的梦想就要成真了。

接着他看到了触目惊心的一句:“马上停止”。

Buckmaster不但没有赞扬Sit,反而在email里说他违反了craiglist的使用条例,并且违反了互相尊重和版权所有的权利。信中还要求他停止使用craigslist的内容。结尾简洁地写道:“请告知贵方的处理办法”。

Sit并没有回信辩驳的机会。收到这封信的两个小时后,Sit到了Listpic办公室,发现主页上的图片都加载不了。他点击其中一个指向某一列表的链接,但到craigslist主页的路径已经更改了。Sit的bot已经瘫痪了。他说:“他们并没有告诉我他们会采取措施,但我的确被阻止了”。

快要发狂的Sit复仇心起,在主页上发布了一条信息,发动Listpic的网友写email给craigslist的CEO Buckmaster和创办者Craig Newmark。但craigslist仍拒绝让步。Buckmaster也不愿道歉,他申明了craigslist这样做的原因:Listpic的长期数据读写请求拖慢了craigslist网页加载速度,而且Listpic的google文本广告破坏了craigslist以简洁为主、反对广告的页面风格。Buckmaster表示,“虽然听起来很老土,但我们不想让craigslist的用户发布的内容被第三方所利用”。几周之内,Listpic的网站排名已经从原先的高度掉到了15000名之内。它的受欢迎程度在某些地方掉到了10万名,而且还在继续下降。现在,Listpic从另外一个分类网站Oodle获取数据,Oodle也被阻止获取craigslist数据。

Sit说:“我的目的是想通过给用户更好的体验来帮助craigslist,他们那样做实在太可恶了。”

当今的互联网本应是以共享为主的。正是由于对公开、合作的一致认可,定义了Web2.0现象的数据发掘技术才能够盛行。Zillow从几个合作伙伴如Navteq、GlobeXplorer和Proxix那里取得地图数据,然后和从公共记录中得到的房地产数据相结合,从而预测出房子的价值;微软开发的Photosynth将Flickr和其它来源的图片组合在一起得到令人吃惊3D模型;还有一个叫做Mint的初创公司,可以让用户从各自的银行账户中提取财务信息重新组合成为用户界面,让Quicken这一软件相形失色。所有这些工具的数据来源都可以在数据网站上得到,如Dapper和Kapow。

业内老大如雅虎和google也没有刻意保护他们的数据,其他的开发者很容易登录然后获得数据从而提高网站流量。大多数大型网络公司都对丰富的数据源保持着开放的态度,提供良好的环境和原料,促成更新的网络产品。总之,Google这个Web2.0时代的先驱,就是靠着“属于”其他人的信息成长起来的,它把链接、关键字、其他网站来的原始数据这些内容全部整合成搜索结果。

在所有的规范下,还有一些不规范的“拿来主义”,这方面的共识和规定还未达成,很多情况下,作为数据源的大公司并不能或者不想他们的信息被每个人看到。这一角度来看,web2.0的法则就受到了诟病。结果是:靠着理论上同意信息免费共享的一部分小公司,新一代的公司能够发展壮大,除非哪一天这些小公司不愿意共享信息了。

“抓取”是个不友善的名词。从另外一个网站上自动获取数据并用在不正当用途的行为可能引起称作“抓取数据”(如从公共网站上获得邮件地址发垃圾邮件)。很多web2.0的公司并不这么做,他们更愿意用“引入”一词描述他们自己的数据收集的过程。不过无论叫什么,这都是个简单的过程。抓取数据的人使用脚本语言如Perl、PHP、Java写一个软件机器人程序就可以了。他们把这写bots放到目的网站去(通过服务器或者自己的电脑)并登录。然后bots就能复制带回需要的信息:可能是图片、联络信息列表或者价格目录。

原文作者:Josh McHugh 译者:akanekou

原文链接:Should Web Giants Let Startups Use the Information They Have Abo

【相关文章】

【责任编辑:刘兵 TEL:(010)68476606】

专题
开源虚拟化技术Xen
Sun以10亿美元并购开源数据库厂商MySQL
Ubuntu 中文开源频道
开源框架Eclipse发展历程
Hibernate开源框架学习
我也说两句

匿名发表

(如果看不清请点击图片进行更换)


中 国 领 先 的 IT 技 术 网 站 ·
技 术 成 就 梦 想
·Windows XP远程桌面连接图解(.. (查看55850次)
·Solaris基础知识入门 (查看47321次)
·Windows操作系统安装 (查看34339次)
·设置远程桌面连接 (查看33814次)
·Linux的安装 (查看31004次)
订阅技术快讯
电子杂志下载
名称:SQL Server数据库管理精品黄皮书
简介:书中文章经过精挑细选,便于用户能根据自己的实际工作和学习,快速在本书寻找到相关资料。内容涵盖了SQL Server的安装与升级、语句查询、数据备份和恢复、自动化任务、数据同步、数据字典、安全和预防、性能和优化、集群等各方面应用信息,以及DBA管理人员在数据库管理工作中
名称:2007路由技术大全
简介:《2007路由技术大全》由51CTO.com网站特别策划制作,该书包括路由器技术、路由器产品、路由器配置、安全设置、路由器故障处理、路由器密码恢复,以及广大网友在实践使用中的心得经验和技巧文章,内容注重实用性,适用于初学者入门,也适合多年从业者提高,是一本实践和理论完
名称:网络安全精品应用黄皮书
简介:《2007精品网络安全黄皮书》包括了9个大类24个小类, 800余篇文章,内容包含了熊猫烧香病毒、DDOS攻击、ARP病等热点问题的介绍及解决方案。从病毒查杀、防范、系统、数据等各方面的安全设置到黑客技术的了解、防范,涉及到了安全应用的全部领域, 由浅至深内容全面。
世纪枭雄比尔盖茨的王者传奇
世纪枭雄比尔盖茨..
虚拟化技术还有点“虚”
虚拟化技术还有点..
ASP.NET开发教程
ASP.NET开发教程
· ASP.NET开发教程
· 专题:ASP.NET 2.0基础..
· LAMP技术精解
· 服务器节能与绿色IT
· ARP攻击防范与解决方案
· Linux 集群技术专题
· Windows集群服务应用
· CISSP认证成长之路
· SQL Server 2008/2005..
· SQL Server入门到精通
· 网络工程师职业规划与..
· 浏览器的战国时代
· 运营商封堵ADSL共享 中..
· 微软出价446亿美元收购..
· 技术人求职简历完备手册
· 开源虚拟化技术Xen
ARP攻击防范与解决方案
ARP攻击防范与解..
SQL Server 2008/2005全解
SQL Server 2008/..
SOA 面向服务架构
SOA 面向服务架构
· SOA 面向服务架构
· SQL Server 2008/2005..
· Apache技术专题
· 三层交换技术专题
· SQL Server入门到精通
· Apache技术专题
· Windows集群服务应用
· 国际文档格式标准开战
· 路由器设置与口令恢复
· Linux 集群技术专题
· PHP开发应用手册
· SOA 面向服务架构
· 企业数据恢复指南
· 了解统一威胁管理(UTM)..
· 专题:AIX操作系统管理..
· 访问控制列表(ACL)介绍
ARP攻击防范与解决方案
ARP攻击防范与解..
SQL Server 2008/2005全解
SQL Server 2008/..
SQL Server入门到精通
SQL Server入门到..
· SQL Server入门到精通
· SQL Server 2008/2005..
· SOA 面向服务架构
· Apache技术专题
· 三层交换技术专题
· Apache技术专题
· 企业数据恢复指南
· Windows集群服务应用
· 路由器设置与口令恢复
· Linux 集群技术专题
· SOA 面向服务架构
· 了解统一威胁管理(UTM)..
· 反垃圾邮件技术应用
· 访问控制列表(ACL)介绍
· ASP.NET开发教程
· PHP开发应用手册