2022-01-01から1ヶ月間の記事一覧

Build PDFBox in Ubuntu

前の記事の通り、FreeBSD で PDFBox をビルドできたので、Ubuntu でもやってみるかぁ、という感じで試してみたが、失敗。Java 8, Maven 3.6.3, Java Cryptography Extension も入ってる(ここ参照)ということで、何故失敗するのかわからず、とりあえず寝た…

Apache PDFBox

Poppler の pdftotext は、「内容のコピーと抽出」という項目が許可しないになっていても、問題なくテキストを抽出してくれるので便利であったが、いくつかのPDFで厳密にテキストを抽出していないことに気がついた。問題の所在がはっきりしないのだが、ほと…

Ubuntu 20.04 install memo

UbuntuをVMwareにインストールする手順をメモする。 方針 Desktop版をインストールするが、TeraTermを用いてsshでログインして利用することを前提にする。FreeBSDと同等の利用が可能な環境を、なるべくシンプルな方法で構築する。インストール後、 $HOMEのデ…

Poppler

前回、xpdfのPermission Errorについて書いたが、xpdfはメンテナンスされておらず、後継のPopplerがあることを知った。 poppler.freedesktop.org Popplerのpdftotextは、「内容のコピーと抽出」という項目が許可しないになっていても、問題なくテキストを抽…