|
|
|
|
|
|
我们可以使用MSRBot Web
Crawler从网页中收集数据,以用于今后的研究。 |
|
|
|
|
|
|
|
|
|
概述:微软研究院研发出了一款非常出色的Web
Crawler应用程序,用来支持多种内部研究项目。该 |
|
|
|
程序被命名为MSRBot Web
Crawler,微软目前已经对其提供了相应的授权。该web crawler可以通过抓取链接以及离线存储网页内容的方式,来扫描大量的网站和URL。该款web
crawler是可以进行升级的,并且可以并行管理新的机器,它有很强的可扩展性,允许用户对数据处理进行定制化。该web
crawler是用很先进的代码来编写的,总共只有8800行C#代码。任何需要扫描网页内容或者离线存储扫描过的内容的公司,都可以使用MSRBot
web crawler,比如像测试机构,拥有大量图片或多媒体的企业,市场调查公司以及使用搜索引擎的公司等等。 |
|
|
|
|
|
|
|
优势:快速,灵活,具有很强的可伸缩性、扩展性以及可管理性
|
|
|
|
技术规范: |
|
|
●用C#编写的原型 |
|
|
●8800行源代码,二进制应用程序 |
|
|
●额外采用NUnit软件单元测试框架编写的2300行测试代码
|
|
|
|
核心用途: |
|
|
1.用户希望开发一个庞大的索引或者存储来自各种网站的文件
|
|
|
2.用户希望处理大量的网站内容以实现不同的用途,如扫描文字,扫描侵权、盗版信息等
|
|
|
等 |
|
|
3. 用户希望对现有的网站进行完全的脱机拷贝 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|