文章分类 | 推荐文章 | 最新文章 | 热点文章 | 最新软件 | 国产软件 | 国外软件 | 汉化补丁 | 设为首页 | 加入收藏
业界资讯 | 图形图像 | 操作系统 | 网络冲浪 | 工具软件 | 办公软件 | 媒体动画 | 精文荟萃 | 认证考试 | 网站建设 | 技术开发 | 专栏
当前位置:abcdown网络学院程序开发Java采用POI和ANTLR提取WORD文档数据
精品广告
推荐TOP10
·实例讲解:Java中的SOAP技术
·Java语言出现的背景 影响及前景
·Java精华积累:初学者都应该搞懂的问题
·Java多媒体框架设计自动播放机实例详解
·如何有效防止Java程序源码被人偷窥?
·Cell插件在J2EE系统中的应用
·初学者想学Hibernate,初级基础教程
·Java语言实现支持视频点播的WEB服务器
·关于Java编程的中文问题的几条分析原则
·确保J2ME无线移动商业应用程序的安全性
阅读TOP10
·在桌面应用中使用JAVA DB
·Java多媒体框架设计自动播放机实例详解
·Java语言实现支持视频点播的WEB服务器
·好东西介绍,直接用 java 命令行动态生成jpg文件
·如何有效防止Java程序源码被人偷窥?
·初学者想学Hibernate,初级基础教程
·Hibernate中的Session什么时候关闭?
·垃圾清理势在必行——Java垃圾收集算法
·Java精华积累:初学者都应该搞懂的问题
·Java关于克隆与“冷藏”和“解冻”方法

采用POI和ANTLR提取WORD文档数据

日期:2007年5月2日 作者: 查看:[大字体 中字体 小字体]


1. POI提取WORD文档内容

POI是Apache开源项目之一,用Java实现跨平台MS Word/Excel文档解析。 也就是说可以在非Windows平台提取MS Word/Excel文档内容。 本文采用POI的一个扩展Jar包tm-extractors_0.4.jar提取Word文档内容。 Word文档内容如下:(该文档有2页,每页记录一个组件内容),

采用POI和ANTLR提取WORD文档数据(图一)

采用POI和ANTLR提取WORD文档数据(图二)

Java类中Import import org.textmining.text.extraction.WordExtractor;然后在方法中:

  protected String getText() throws Exception {
                WordExtractor extractor=null;
                String text=null;
                extractor = new WordExtractor();
                text=extractor.extractText(in);   // in为 FileInputStream(new File("Word文档地址"));
                return text;
 }

 运行结果如下:

Colimas Component Specification

1. Component: Apache Jakarta POI Java API To Access Microsoft Format Files
 
1.1 Basic Information
?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦

Alias                               : POI
Author                            : http://jakarta.apache.org/poi/index.html
Version                           : 0.0.1
Language                        : Java
Platform                          : Windows, Linux, Unix
Status                              : Confirmed
Is public?                         : Y
?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦
1.2 Developers
?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦
Apache developer1
Apache developer2
?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦


[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] 下一页 

上一篇:[Portal参考手册]Portlet持久化

下一篇:选取合适的dHtml Grid方案


相关软件: 相关文章:
·采用POI和ANTLR提取WORD文档数据

特别声明:本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员,我们尽快予以更正。
[打印本页] [关闭窗口] 转载请注明来源:http://www.abcdown.net
首页 | 本站声明 | 下载帮助 | 发布软件 |
中文版权所有:ABC学院 浙ICP备05000717号