NISHIO Hirokazu[日本語][English]

PDFからScrapboxへ

2023-09-12 PDFを起点として知的生産支援を行いたいシチュエーションは多い

今までにも色々なものを試してきた
2023年現在、LLMの発展によって「今までつぎはぎで色々やってきたのを一本化したいな、アップデートも容易にしたい」という気持ちになった

PDFに二通りある

書籍からの裁断スキャン(以下:スキャンPDF)
- これは各ページの画像が高解像度で含まれている
PowerPointなどの講義資料(以下:スライドPDF)
- これは各ページの画像ではなく、素材の画像が含まれている

PDFからページ画像へ

pdfimagesを使うという意見がある
- しかしpdfimagesはロスレスでPDF中の画像を取り出すコマンドなのでスライドPDFに使ってもページの画像は得られない
その場合pdftocairoを使うとよい
- 参考: PDFからPNGへの変換

PDFからテキストへ

画像からOCRすることでテキストが得られる
スライドPDFならOCRするよりもキレイなテキストがPDFMinerなどで取り出せる
しかし「OCR結果埋め込み済みの書籍PDF」からも同様にテキストが得られてしまう
- これは埋め込んだ時点の技術水準によっては今のOCRより質が低い
- OCR精度比較2018
- 昔OCR埋め込みしたPDFでも、無視して新しくGoogle Cloud VisionでOCRした方が良さそう
Google Cloud Visionは高いゾーンでも1000件で1.5ドル
Gyazo Proなら月額490円
- 内部的にはGoogle Cloud Vision

テキストと画像をペアにして管理

テキストに対して検索などでヒットしたとしても、テキストだけでは意味がとれなかったり、図が見たかったりなどの理由で紙面が見たいことがある
かつては1行に1ページのテキストを入れたテキストファイルをPDFごとに用意しておいてgrep的な方法で検索していた、そうするとヒットした行数の表示がでるのでそれを使ってPDFを開くスタイルだった
2023年現在、知的生産がPCの前でしか行えないのはよくないと思っている。散歩しながらや、入浴中に使いたい。そう考えた時にPCのローカル環境に置くのではなくクラウド環境に置きたい
2023-09-13 Gyazo Proでいいじゃん、と思った
- 2023-09-14 実際試してみたら1万件くらいでToo many requestsになってしまった
- 12500回/dayらしい。OCR結果の取得もAPIコールに含まれるので、実質1日に6000ページ程度しか処理できない。

書籍と画像の1:N対応

機械可読データはJSONで吐いてDropboxへ
- 必要を感じたらAPIで取得できるようにする
Scrapbox上のデータは人間が好き勝手に編集する

静的なコンテンツから動的なプロセスへ

PDFからScrapboxへ
アクティブ読書

Scrapboxとコンテンツの対応

一つのScrapboxページにすべてのPDFページを入れる
- ページは意味の単位であるべきであり、特に書籍の1ページは意味の単位ではない
一つのプロジェクトにすべてのPDFを入れる
- 予期しないつながりこそが価値の源泉

BELOW_IS_AI_GENERATED

PDFからScrapboxへ

2023-09-12 23:26

ノートの要約

知的生産支援のためにPDFを活用する方法を探求している。PDFはスキャンPDFとスライドPDFの二種類があり、それぞれの特性を理解することが重要。PDFからページ画像を取得するためにはpdftocairoが有効で、テキスト抽出にはOCRやPDFMinerが利用可能。ただし、OCRの精度は技術の進歩により向上しており、古いOCR結果よりも新しいGoogle Cloud VisionでのOCR結果の方が質が高い。テキストと画像をペアにして管理することで、検索結果から紙面を参照することが可能になる。これにはGyazoが有効である。また、静的なコンテンツから動的なプロセスへの移行を模索している。

フラグメントとの関連性

フラグメント「OCR」は、ノートの「PDFからテキストへ」のセクションと関連があり、Google Cloud VisionのOCRの性能が優れていることを裏付けている。また、「傍線との干渉」はOCRの精度に影響を与える要素として重要である。「図抽出」は、スキャンPDFから図を抽出し、それを知的生産に活用する方法を探求している点でノートと関連がある。「20180408タスクの抽象化付箋のメモ」は、ノートの「テキストと画像をペアにして管理」のセクションと関連があり、ページ単位のテキスト抽出と検索の重要性を強調している。

深い思考

ノートとフラグメントを通じて、知的生産支援のためのPDFの活用方法について深く考えることができた。特に、テキストと画像のペア管理やOCRの進歩によるテキスト抽出の改善、そして静的なコンテンツから動的なプロセスへの移行という観点から、知的生産の効率化と質の向上を追求することが重要であると感じた。

思考の要約とタイトル

「PDFを活用した知的生産支援の進化とその可能性」知的生産支援のためのPDFの活用方法は進化し続けており、テキストと画像のペア管理、OCRの進歩、静的から動的への移行など、さまざまな観点からその可能性を追求することが重要である。

extra info

titles: ["OCR", "図抽出", "20180408タスクの抽象化付箋のメモ", "コピペで済まされない知識のアウトプットが求められたときに何をするか", "Hatena2009-10-02"] generated: 2023-09-12 23:26

(C)NISHIO Hirokazu / Converted from Markdown (ja)
Source: [GitHub] / [Scrapbox]