2022-01-29から1日間の記事一覧

Build PDFBox in Ubuntu

前の記事の通り、FreeBSD で PDFBox をビルドできたので、Ubuntu でもやってみるかぁ、という感じで試してみたが、失敗。Java 8, Maven 3.6.3, Java Cryptography Extension も入ってる(ここ参照)ということで、何故失敗するのかわからず、とりあえず寝た…

Apache PDFBox

Poppler の pdftotext は、「内容のコピーと抽出」という項目が許可しないになっていても、問題なくテキストを抽出してくれるので便利であったが、いくつかのPDFで厳密にテキストを抽出していないことに気がついた。問題の所在がはっきりしないのだが、ほと…