在做网站页面模板经常需要截取一定长度字符串为标题或摘要时遇到中文和半角英文数字混合导致截取的显示长度不一致的情况,写了个函数解决这个问题 (更多…)
2011 年 8 月 28 日
2011 年 8 月 22 日
网络信息的提取
最近简单研究了一下网络信息的提取,下面是研究的部分内容。
网络信息监控与分析系统设计
引言
随着WWW技术的日益成熟和互联网应用的逐渐普及,互联网已经发展成为了一个巨大的分布式信息空间。从Web中获取信息已成为个人获取知识的主要方法和重要手段,也成为当前企业获取情报的重要途径。但是,面对浩如烟海的网络信息,传统的人工搜集和处理等方法都已难以胜任。而且由于Web的组织格式主要以HTML页面这种半结构化的形式为主,其本身具有无结构性、超链接的自由无序、以及内容的海量性、多样性和动态变化等特点。本文根据现今应用最广泛的HTML网页信息的特点,在对现有信息搜集、预处理和自动分类等网络信息处理技术进行学习的基础上,设计开发了一个网络信息监控分析系统,实现了对任意指定的互联网站信息自动监控、自动提取相关信息的功能。帮助人们随时监控、即时分析网络信息,提高人类信息处理能力。
本系统主要分为两部分:
网站信息监控:对非特定网站根据链接对信息进行实时监测、发现。
网站信息分析:对非特定网站的资讯页面内容提取、多页新闻内容合并、对提取的内容根据给定的关键词进行检索。 (更多…)
2011 年 8 月 16 日
2011 年 5 月 5 日
PHPCMS框架的MongoDB接口
最近研究MongoDB,顺便写了个PHPCMS v9框架下的MongoDB接口
安装解压文件到相应目录即可,module目录下was文件夹提供了示例模块
Ver. 0.1 Alpha
2011 年 4 月 28 日
梭子鱼在服务器上布署成功
由于CentOS5的BerkeleyDB版本较老db-4.3.29,梭子鱼程序中的bdb-factory不兼容,遂更新到db-5.0.32并安装了新版本的php-db4模块。梭子鱼终于布署成功。但Oracle最新版本5.1.25中已不再包括php-db4模块,这对以后的升级可能造成不便。在另一个搜索引擎项目中mongodb引起了我的注意,良好的性能和可扩展性,简洁的调用函数,php的良好配合使之成为bdb潜在的替代者。
2011 年 4 月 22 日
2011 年 4 月 22 日
Ok, I’m back~~
For some reasons I can not recovery my old blog to here and lost many valuable data. I feel so depression, but, never mind, we have a new beginning. ~

