NISHIO Hirokazu[Translate]
CID問題
pipでPDFMinerをインストールして日本語PDFからテキスト抽出をしたら以下のようになってしまった問題。
>私(cid:888)、知的生産術(cid:887)良(cid:845)参考書(cid:853)欲(cid:864)(cid:845)(cid:880)(cid:866)。人(cid:884)知的生産術(cid:923)教(cid:849)(cid:916)

-----
調査過程のメモ
2014年
CMapを作り直す必要があるという指摘
2015年
ToUnicode mapに関しての話
ToUnicode mapに関しての話
埋め込まれたフォントを抜き出せるか?という議論
二点しんにょうなどがCIDに置き換えられたという報告
2018
コマンドラインでは無くスクリプト内からインポートして使う例
こちらも僕の環境と同様にひらがながCIDになっている
"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]