Apache-Tika解析Word文档

摘要:
通常在使用爬虫时,爬取到网上的文章都是各式各样的格式处理起来比较麻烦,这里我们使用Apache-Tika来处理Word格式的文章,如下:packagecom.mengyao.tika.app;importjava.io.File;importjava.io.FileInputStream;importorg.apache.tika.metadata.Metadata;importorg.apach

通常在使用爬虫时,爬取到网上的文章都是各式各样的格式处理起来比较麻烦,这里我们使用Apache-Tika来处理Word格式的文章,如下:

packagecom.mengyao.tika.app;

importjava.io.File;
importjava.io.FileInputStream;

importorg.apache.tika.metadata.Metadata;
importorg.apache.tika.parser.ParseContext;
importorg.apache.tika.parser.Parser;
importorg.apache.tika.parser.microsoft.OfficeParser;
importorg.apache.tika.sax.BodyContentHandler;

public classWordApp {

    public static void main(final String[] args) throwsException {
        //Tika默认是10*1024*1024,这里防止文件过大导致Tika报错
        BodyContentHandler handler = new BodyContentHandler(1024 * 1024 * 10);
        Metadata metadata = newMetadata();
        //Tika-1.1最高支持2007及更低版本的Office Word文档,如果是高于2007版本的Word文档需要使用POI处理(Tika会报错)
        FileInputStream inputstream = new FileInputStream(new File("D:/笔试题.doc"));
        ParseContext pcontext = newParseContext();

        //解析Word文档时应由超类AbstractParser的派生类OfficeParser实现
        Parser msofficeparser = newOfficeParser();
        msofficeparser.parse(inputstream, handler, metadata, pcontext);
        //获取Word文档的内容
        System.out.println("Word文档内容:" +handler.toString());

        //获取Word文档的元数据
        System.out.println("Word文档元数据:");
        String[] metadataNames =metadata.names();

        for(String name : metadataNames) {
            System.out.println(name + " : " +metadata.get(name));
        }
    }

}

免责声明:文章转载自《Apache-Tika解析Word文档》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇raw_socket(原始套接字)以及普通socket使用终极总结第七章 Python 盒子:模块、包和程序下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Linux服务器上安装织梦CMS

安装篇 第一步:配置防火墙(默认情况下,端口80和3306是拒绝访问的,在防火墙上进行配置): vi/etc/sysconfig/iptables(在"COMMIT"的上一行加上如下两句) -AINPUT-mstate--stateNEW-mtcp-ptcp--dport80-jACCEPT(允许80端口通过防火墙) -AINPUT-mstate--s...

技术基础 | 重要指标和告警

本文节选自DataStax Cassandra文档,点击这里查看更多相关信息。 监控Apache Cassandra®和DataStax Enterprise(DSE)集群是一项非常重要的工作,它帮助您识别集群中的问题并及时地应对并缓解问题。 Apache Cassandra和DSE都公开了用于观察和分析的指标。Cassandra通过使用Java管理扩展...

ModSecurity学习笔记(一)

ModSecurity安装可参考中文社区中 CentOS下Apache+ModSecurity(2.9.3)安装教程及配置WAF规则文件 步骤非常详细,并且提供了软件包合集,适合新手操作。 但是文章后面涉及到规则库zip文件的解压缩等操作没有提供命令,个人单独整理了下: #owasp-modsecurity-crs-3.3-dev.zip解压缩 cd /u...

kettle 连接Hadoop 遇错

kettle从windows中往hdfs中写文件 One 2016/07/19 14:14:53 - Spoon - 正在开始任务... 2016/07/19 14:14:53 - load_hdfs - 开始执行任务 2016/07/19 14:14:53 - load_hdfs - 开始项[Hadoop Copy Files] 2016/07/19...

CNUTCon2018-ApacheSkyWalkingV6.0可定制开源

Apache SkyWalking V6.0可定制开源APM 文章转载自博客:https://www.infoq.cn/article/LSZsFZuAhpT1zlZGPSLd?utm_source=related_read&utm_medium=article 微服务的盛行推动了链路追踪和应用性能监控系统的发展,在国外几款优秀的商业应用性能监控系...

关于linux或者mac apache重启服务

Mac OS 终端起动、关闭、重启apache的方法打开终端 重启apache:sudo /usr/sbin/apachectl restart 关闭apache:sudo /usr/sbin/apachectl stop 开启apache:sudo /usr/sbin/apachectl start apache文件存放位置: /etc/apache2...