apache tika 예제

이 튜토리얼은 아파치 티카를 사용하여 문서 유형 검색 및 콘텐츠 추출을 배우고 싶은 모든 자바 매니아를 위해 설계되었습니다. 티카 인 액션 북의 모든 예제를 포함하여 다른 여러 예제도 사용할 수 있습니다. 이러한 모든 GIT의 Tika 예제 모듈에서 찾을 수 있습니다. 이 페이지에서는 다양한 Tika API를 사용하는 방법에 대한 여러 가지 예제를 제공합니다. 표시된 모든 예제는 GIT의 Tika 예제 모듈에서도 사용할 수 있습니다. 파서 API는 아파치 티카의 핵심으로, 파싱 작업의 복잡성을 추상화합니다. 이 API는 단일 메서드에 의존: 이 자습서는 아파치 티카 라이브러리의 기본 이해를 제공 합니다., 지원 하는 파일 형식, 아파치 티카를 사용 하 여 콘텐츠 및 메타 데이터 추출 뿐만 아니라. 이 기사에서는 아파치 티카, 구성 요소, API 및 간단한 콘텐츠 추출 예제에 대한 기본 소개를 진행합니다. 또한 아파치 솔러 (일명 Solr Cell)의 위에 구축 된 최근 커밋 된 콘텐츠 추출 구성 요소를 살펴 보겠습니다. 위의 예제에서는 먼저 구문 분석할 문서를 포함하는 FileInputStream을 만듭니다. 그런 다음 내부적으로 XHTMLToTextContentHandler 형식의 콘텐츠 처리기 데코레이터를 구성하는 BodyContentHandler라는 Tika 콘텐츠 처리기를 사용합니다. 데코레이터는 파서가 방출하는 SAX 이벤트에서 실제로 일반 텍스트 출력을 형성하는 것을 담당합니다.

이제 Tika를 사용하여 PDF 문서에서 일반 텍스트 콘텐츠를 구문 분석하는 방법을 보여 주었으니 다음으로 자연스러운 일은이 데이터를 검색 할 수 있습니다. 그랜트 Ingersoll는 최근 우리가 매우 쉽게이 작업을 수행 할 수 있도록 아파치 솔에 대한 새로운 기여 모듈을 추가했습니다. 이 문서에서는 구문 분석 API와 문서의 콘텐츠 유형을 자동으로 감지하는 방법을 포함하여 아파치 티카에 대해 소개합니다. 이 라이브러리의 작업을 설명하기 위해 작업 예제도 제공됩니다. 다음 예제에서는 PDF 문서를 구문 분석하는 방법을 보여 드리겠습니다. Tika를 사용하여 제목, 저자 및 문서 본문을 일반 텍스트로 추출합니다. 예제를 빌드하고 실행하는 데 필요한 모든 것을 포함하여 전체 소스 코드를 사용할 수 있습니다. 아파치 티카는 추가 정보가 아닌 문서 자체를 기반으로 문서의 유형과 언어를 자동으로 감지할 수 있습니다. 문서를 구문 분석할 때 Tika는 아파치 POI 또는 PDFBox와 같은 기존 파서 라이브러리를 가능한 한 많이 재사용하려고 시도합니다. 결과적으로 대부분의 Parser 구현 클래스는 이러한 외부 라이브러리에 대한 어댑터일 뿐입니다. Tika는 아파치 PDFBox, 아파치 POI 등과 같은 최고의 오픈 소스 콘텐츠 추출 라이브러리를 기반으로 하는 콘텐츠 추출 프레임워크로, 콘텐츠 유형(mime type)을 감지한 다음 전체 텍스트를 추출하는 데 사용하기 쉬운 단일 API를 제공합니다.

및 메타데이터.