目录

TIKA - 文件格式( File Formats)

Tika支持的文件格式

下表显示了Tika支持的文件格式。

文件格式 包库 蒂卡班
XMLorg.apache.tika.parser.xmlXMLParser
HTML org.apache.tika.parser.html它使用了Tagsoup Library HtmlParser
MS-Office复合文档Ole2到2007年ooxml 2007年起

org.apache.tika.parser.microsoft

org.apache.tika.parser.microsoft.ooxml,它使用Apache Poi库

OfficeParser(OLE2)

OOXMLParser(ooxml)

OpenDocument格式openoffice org.apache.tika.parser.odfOpenOfficeParser
便携式文件格式(PDF) org.apache.tika.parser.pdf和这个包使用Apache PdfBox库 PDFParser
电子出版物格式(数字图书) org.apache.tika.parser.epubEpubParser
富文本格式 org.apache.tika.parser.rtfRTFParser
压缩和包装格式 org.apache.tika.parser.pkg和这个包使用Common压缩库 PackageParser和CompressorParser及其子类
文字格式 org.apache.tika.parser.txtTXTParser
Feed和联合格式 org.apache.tika.parser.feedFeedParser
音频格式 org.apache.tika.parser.audio和org.apache.tika.parser.mp3 AudioParser MidiParser Mp3-适用于mp3parser
Imageparsersorg.apache.tika.parser.jpeg JpegParser-用于jpeg图像
Videoformats org.apache.tika.parser.mp4和org.apache.tika.parser.video这个解析器在内部使用简单算法来解析flash视频格式 Mp4parser FlvParser
java类文件和jar文件 org.apache.tika.parser.asm ClassParser CompressorParser
Mobxformat(电子邮件) org.apache.tika.parser.mboxMobXParser
Cad格式 org.apache.tika.parser.dwgDWGParser
FontFormatsorg.apache.tika.parser.fontTrueTypeParser
可执行程序和库 org.apache.tika.parser.executableExecutableParser
↑回到顶部↑
WIKI教程 @2018