Apache-Tika解析Word文档,apache tika文档类型

Apache-Tika解析Word文档

摘要：

通常在使用爬虫时，爬取到网上的文章都是各式各样的格式处理起来比较麻烦，这里我们使用Apache-Tika来处理Word格式的文章，如下：packagecom.mengyao.tika.app;importjava.io.File;importjava.io.FileInputStream;importorg.apache.tika.metadata.Metadata;importorg.apach

通常在使用爬虫时，爬取到网上的文章都是各式各样的格式处理起来比较麻烦，这里我们使用Apache-Tika来处理Word格式的文章，如下：

packagecom.mengyao.tika.app;

importjava.io.File;
importjava.io.FileInputStream;

importorg.apache.tika.metadata.Metadata;
importorg.apache.tika.parser.ParseContext;
importorg.apache.tika.parser.Parser;
importorg.apache.tika.parser.microsoft.OfficeParser;
importorg.apache.tika.sax.BodyContentHandler;

public classWordApp {

    public static void main(final String[] args) throwsException {
        //Tika默认是10*1024*1024，这里防止文件过大导致Tika报错
        BodyContentHandler handler = new BodyContentHandler(1024 * 1024 * 10);
        Metadata metadata = newMetadata();
        //Tika-1.1最高支持2007及更低版本的Office Word文档，如果是高于2007版本的Word文档需要使用POI处理（Tika会报错）
        FileInputStream inputstream = new FileInputStream(new File("D:/笔试题.doc"));
        ParseContext pcontext = newParseContext();

        //解析Word文档时应由超类AbstractParser的派生类OfficeParser实现
        Parser msofficeparser = newOfficeParser();
        msofficeparser.parse(inputstream, handler, metadata, pcontext);
        //获取Word文档的内容
        System.out.println("Word文档内容:" +handler.toString());

        //获取Word文档的元数据
        System.out.println("Word文档元数据:");
        String[] metadataNames =metadata.names();

        for(String name : metadataNames) {
            System.out.println(name + " : " +metadata.get(name));
        }
    }

}

免责声明：文章转载自《Apache-Tika解析Word文档》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

Linux服务器上安装织梦CMS

安装篇第一步：配置防火墙(默认情况下，端口80和3306是拒绝访问的，在防火墙上进行配置)： vi/etc/sysconfig/iptables(在"COMMIT"的上一行加上如下两句) -AINPUT-mstate--stateNEW-mtcp-ptcp--dport80-jACCEPT（允许80端口通过防火墙） -AINPUT-mstate--s...

技术基础 | 重要指标和告警

本文节选自DataStax Cassandra文档，点击这里查看更多相关信息。监控Apache Cassandra®和DataStax Enterprise（DSE）集群是一项非常重要的工作，它帮助您识别集群中的问题并及时地应对并缓解问题。 Apache Cassandra和DSE都公开了用于观察和分析的指标。Cassandra通过使用Java管理扩展...

ModSecurity学习笔记（一）

ModSecurity安装可参考中文社区中 CentOS下Apache+ModSecurity(2.9.3)安装教程及配置WAF规则文件步骤非常详细，并且提供了软件包合集，适合新手操作。但是文章后面涉及到规则库zip文件的解压缩等操作没有提供命令，个人单独整理了下： #owasp-modsecurity-crs-3.3-dev.zip解压缩 cd /u...

kettle 连接Hadoop 遇错

kettle从windows中往hdfs中写文件 One 2016/07/19 14:14:53 - Spoon - 正在开始任务... 2016/07/19 14:14:53 - load_hdfs - 开始执行任务 2016/07/19 14:14:53 - load_hdfs - 开始项[Hadoop Copy Files] 2016/07/19...

CNUTCon2018-ApacheSkyWalkingV6.0可定制开源

Apache SkyWalking V6.0可定制开源APM 文章转载自博客：https://www.infoq.cn/article/LSZsFZuAhpT1zlZGPSLd?utm_source=related_read&utm_medium=article 微服务的盛行推动了链路追踪和应用性能监控系统的发展，在国外几款优秀的商业应用性能监控系...

关于linux或者mac apache重启服务

Mac OS 终端起动、关闭、重启apache的方法打开终端重启apache：sudo /usr/sbin/apachectl restart 关闭apache：sudo /usr/sbin/apachectl stop 开启apache：sudo /usr/sbin/apachectl start apache文件存放位置： /etc/apache2...

Apache-Tika解析Word文档

相关文章

Linux服务器上安装织梦CMS

技术基础 | 重要指标和告警

ModSecurity学习笔记（一）

kettle 连接Hadoop 遇错

CNUTCon2018-ApacheSkyWalkingV6.0可定制开源

关于linux或者mac apache重启服务

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表