目录

TIKA - 环境

本章将指导您完成在Windows和Linux上设置Apache Tika的过程。 安装Apache Tika时需要用户管理。

系统需求 (System Requirements)

JDK Java SE 2 JDK 1.6或更高版本
Memory 1 GB RAM(推荐)
磁盘空间 没有最低要求
操作系统版本 Windows XP或更高版本,Linux

第1步:验证Java安装

要验证Java安装,请打开控制台并执行以下java命令。

OS 任务 命令
Windows 打开命令控制台 \> java -version
Linux 打开命令终端 $ java -version

如果已在系统上正确安装Java,则应根据您正在使用的平台获得以下输出之一。

OS output
Windows

Java版“1.7.0_60”

Java(TM)SE运行时环境(版本1.7.0_60-b19)

Java Hotspot(TM)64位服务器VM(内置24.60-b09,混合模式)

Lunix

java版“1.7.0_25”

打开JDK运行时环境(rhel-2.3.10.4.el6_4-x86_64)

打开JDK 64位服务器VM(内置23.7-b01,混合模式)

第2步:设置Java环境

将JAVA_HOME环境变量设置为指向计算机上安装Java的基本目录位置。 例如,

OS output
Windows 将环境变量JAVA_HOME设置为C:\ProgramFiles\java\jdk1.7.0_60
Linux export JAVA_HOME =/usr/local/java-current

将Java编译器位置的完整路径附加到系统路径。

OS output
Windows 附加字符串; C:\Program Files\Java\jdk1.7.0_60\bin到系统变量PATH的末尾。
Linux export PATH = $ PATH:$ JAVA_HOME/bin/

如上所述,从命令提示符验证命令java-version。

第3步:设置Apache Tika环境

程序员可以通过使用将Apache Tika集成到他们的环境中

  • 命令行,
  • Tika API,
  • Tika的命令行界面(CLI),
  • Tika的图形用户界面(GUI),或
  • 源代码。

对于这些方法中的任何一种,首先,您必须下载Tika的源代码。

您可以在https://Tika.apache.org/download.html,找到Tika的源代码,在那里您可以找到两个链接 -

  • apache-tika-1.6-src.zip - 它包含Tika的源代码,和

  • Tika -app-1.6.jar - 这是一个包含Tika应用程序的jar文件。

下载这两个文件。 Tika官方网站的快照如下所示。

蒂卡环境

下载文件后,设置jar文件tika-app-1.6.jar的类路径。 添加jar文件的完整路径,如下表所示。

OS output
Windows 将字符串“C:\jars\Tika-app-1.6.jar”附加到用户环境变量CLASSPATH
Linux

导出CLASSPATH = $ CLASSPATH -

/usr/share/jars/Tika-app-1.6.tar -

Apache使用Eclipse提供Tika应用程序,一个图形用户界面(GUI)应用程序。

Tika-Maven使用Eclipse构建

m2e发布
  • 选择最新版本并在p2 url列中保存url的路径。

  • 现在重新访问eclipse,在菜单栏中单击“ Help ,然后从下拉菜单中选择“ Install New Software

日食
  • 单击“ Add按钮,键入任意名称,因为它是可选的。 现在将已保存的URL粘贴到“ Location字段中。

  • 将添加一个新插件,其中包含您在上一步中选择的名称,选中前面的复选框,然后单击“ Next

安装
  • 继续安装。 完成后,重新启动Eclipse。

  • 现在右键单击该项目,然后在configure选项中选择convert to maven project

  • 将出现一个用于创建新pom的新向导。 输入组ID作为org.apache.tika,输入最新版本的Tika,选择packaging为jar,然后单击Finish

Maven项目已成功安装,您的项目将转换为Maven。 现在您必须配置pom.xml文件。

配置XML文件

https://mvnrepository.com/artifact/org.apache.tika获取Tika maven依赖关系

下面显示的是Apache Tika的完整Maven依赖。

<dependency>
   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-core</artifactId>
   <version>1.6</version>
   <groupId>org.apache.Tika</groupId>
   <artifactId> Tika-parsers</artifactId>
   <version> 1.6</version>
   <groupId> org.apache.Tika</groupId>
   <artifactId>Tika</artifactId>
   <version>1.6</version>
   <groupId>org.apache.Tika</groupId>
   < artifactId>Tika-serialization</artifactId>
   < version>1.6< /version>
   < groupId>org.apache.Tika< /groupId>
   < artifactId>Tika-app< /artifactId>
   < version>1.6< /version>
   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-bundle</artifactId>
   <version>1.6</version>
</dependency>
↑回到顶部↑
WIKI教程 @2018