微软专利授权


	我们可以使用MSRBot Web Crawler从网页中收集数据，以用于今后的研究。

	概述：微软研究院研发出了一款非常出色的Web Crawler应用程序，用来支持多种内部研究项目。该
程序被命名为MSRBot Web Crawler，微软目前已经对其提供了相应的授权。该web crawler可以通过抓取链接以及离线存储网页内容的方式，来扫描大量的网站和URL。该款web crawler是可以进行升级的，并且可以并行管理新的机器，它有很强的可扩展性，允许用户对数据处理进行定制化。该web crawler是用很先进的代码来编写的，总共只有8800行C#代码。任何需要扫描网页内容或者离线存储扫描过的内容的公司，都可以使用MSRBot web crawler，比如像测试机构，拥有大量图片或多媒体的企业，市场调查公司以及使用搜索引擎的公司等等。

	优势：快速，灵活，具有很强的可伸缩性、扩展性以及可管理性

	技术规范：
		●用C#编写的原型
		●8800行源代码，二进制应用程序
		●额外采用NUnit软件单元测试框架编写的2300行测试代码

	核心用途：
		1.用户希望开发一个庞大的索引或者存储来自各种网站的文件
		2.用户希望处理大量的网站内容以实现不同的用途，如扫描文字，扫描侵权、盗版信息等
		等
		3. 用户希望对现有的网站进行完全的脱机拷贝

关于中心 | 联系我们 | 招聘信息 | 寻求合作 | 版权说明