什么是中环“思百得”网络搜索基础件呢?中环“思百得”网络搜索基础件有什么用呢?
中环“思百得”网络搜索基础件,是一个自动COM程序,会自动地在互联网中搜索信息。一个典型“Spider”的工作方式,是查看一个页面,并从中找到相关信息,然后它再从该页面的所有链接中出发,继续寻找相关的信息,以此类推,直至穷尽。
凡是需要积累信息的都需要我们的“思百得”,比如搜索引擎、情报的搜集、资料的收集、信息的收集。
互联网的迅速发展,导致了网上信息的爆炸性增长。要在如此浩瀚的信息海洋里快速、全面的收集信息,就不得不依靠中环“思百得”网络搜索基础件的威力。 |
| 【产品概述】 |
中环“思百得”网络搜索基础件功能简介
实现“Spider”的快速、全面是一件及其复杂的技术。中环“思百得”网络搜索基础件依托中环电子技术研究所雄厚的网络信息处理技术,是中环资讯公司推出的准确、高效、接口方便灵活的,便于二次开发的软件包,以及为使软件包在目标系统中实现最优品质,而提供的特定服务。
其服务包括:目标系统架构咨询、辅助开发、技术培训、售后支持等,简称为中环“思百得”网络搜索基础件。
中环“思百得”网络搜索基础件功能应用前景
作为搜索引擎的重要组成部分,中环“思百得”网络搜索基础件有着广泛的应用前景。主要应用领域如下:
◆搜索引擎
搜索引擎大致由三部分组成。第一部分是搜索器,就是“Spider”的意思。第二部分是索引器。第三部分是面向用户的检索器。如果没有性能优越的搜索器,就不可能实现一个卓越的搜索引擎。
◆信息积累
没有数据的支持就没有决策的方向。拥有大量的信息才能在此基础上进行分析。信息的积累主要应用于情报的搜集、资料的收集、信息的收集。 |
| 【产品技术特点】 |
软件工程发展到今天,从一开始的结构化编程,到面向对象编程,再到现在的COM编程,目标只有一个,就是希望软件能象积木方块一样是累起来的,是组装起来的,而不是一点点编出来的。结构化编程是函数块的形式,通过把一个软件划分成许多模块,每个模块完成各自不同的功能,尽量做到高内聚低藕合,这已经是一个很好的开始,我们可以把不同的模块分给不同的人去做,然后合到一块,这已经有了组装的概念了。软件工程的核心就是要模块化,最理想的情况就是100%内聚0%藕合。整个软件的发展也都是朝着这个方向走的。结构化编程方式只是一个开始。这就出现了面向对象编程,它相对于面向功能的结构化方式是一个巨大的进步。
Windows里到处是DLL,它是Windows的基础,但DLL也有它自己的缺点。总结一下它至少有四点不足。(1)函数重名问题。DLL里是一个一个的函数,我们通过函数名来调用函数,那如果两个DLL里有重名的函数怎么办?(2)各编译器对C++函数的名称修饰不兼容问题。对于C++函数,编译器要根据函数的参数信息为它生成修饰名,DLL库里存的就是这个修饰名,但是不同的编译器产生修饰的方法不一样,所以你在VC里编写的DLL在BC里就可以用不了。不过也可以用extern"C";来强调使用标准的C函数特性,关闭修饰功能,但这样也丧失了C++的重载多态性功能。(3)路径问题。放在自己的目录下面,别人的程序就找不到,放在系统目录下,就可能有重名的问题。而真正的组件应该可以放在任何地方甚至可以不在本机,用户根本不需考虑这个问题。(4)DLL与EXE的依赖问题。我们一般都是用隐式连接的方式,就是编程的时侯指明用什么DLL,这种方式很简单,它在编译时就把EXE与DLL绑在一起了。如果DLL发行了一个新版本,我们很有必要重新链接一次,因为DLL里面函数的地址可能已经发生了改变。DLL的缺点就是COM的优点。首先我们要先把握住一点,COM和DLL一样都是基于二进制的代码重用,所以它不存在类库重用时的问题。另一个关键点是,COM本身也是DLL,既使是ActiveX控件.ocx它实际上也是DLL,所以说DLL在函数名来调用函数,而是通过虚函数表,自然也不会有函数名修饰的问题。路径问题也不复存在,因为是通过查注册表来找组件的,放在什么地方都可以,即使在别的机器上也可以。也不用考虑和EXE的依赖关系了,它们二者之间是松散的结合在一起,可以轻松的换上组件的一个新版本,而应用程序混然不觉。
中环“思百得”网络搜索基础件是经过多年的开发与精练,具有以下特点:
下载的全,保证绝大多数可以下载
1、静态链接,支持全路径、相对路径;
2、可以直接取得URL的动态网页(CGI,ASP,PHP等);
3、支持经过简单编码的网站(URL编码);
4、支持自定义URL的下载;
5、支持特定URL的特定关键字检索:该URL下的检索到的所有内容,只有包含关键字中的某一个才会被检索,否则放弃;如果关键字为空,则检索所有信息;
6、页面主要内容提取;
7、页面图片提取;
8、采用双队列检索,优化引擎;
9、对重复(网页的内容相同)的网页不会反复下载;
10、通过ini文件配置系统(该文件一定放到应用程序相同目录下)
11、设置垃圾列表,不会采集垃圾列表里的任何url地址
12、支持任何支持com接口的开发工具;(其它采用动态库形式发布的组件,与开发语言及开发工具相关性大,新版本的发布不易给客户更新)
13、低内存占用率,经测试占用30m左右物理内存
14、采用深度搜索算法,入口页面为第一层
15、支持搜索状态探测
附加功能:
1、 采集特定url的html;
2、 分析html的主要内容;
购买产品后提供的附加服务
1、 分析html内的所有url地址;
2、 分析html内的所有img地址。
中环“思百得”搜索引擎算法基础件
产品概述
实现搜索引擎内的特定算法,节省搜索引擎开发人员对算法的研究时间。
产品技术特点
1、 分析html内的所有url地址;
2、 分析html内的所有img地址。
3、 采集特定url的html;
4、 分析html的主要内容;
5、 相对路径与绝对路径的转换函数。
中环公司还可以按客户需求定制开发互联网应用基础件。 |