PDF上のテキストの抽出: DOBON.NETプログラミング掲示板過去ログ

題名: PDF上のテキストの抽出
著者: ハトリーヌ
日時: 2012/04/19 13:43:52
ID: 30356
この記事の返信元:
- （なし）
この記事への返信:
- [30362] Re[1]: PDF上のテキストの抽出魔界の仮面弁士 2012/04/20 17:22:27
ツリーを表示

環境/言語:[VB2008　Windows XP Windows 7]
分類:[.NET]

PDF化された文書のテキスト部をコピペしてテキストファイル化する作業をVBを使って自動化したいのですが、
Adobe製品を使わず、例えばiTextSharp等のフリーのライブラリを使って、
PDF上のテキストを読み取る方法ってありますか？
テキストには全角文字が含まれます。
PDF上の画像は無視します。
使っているVBはVB2008であります。
宜しくお願い申し上げます。

題名: Re[1]: PDF上のテキストの抽出
著者: 魔界の仮面弁士
日時: 2012/04/20 17:22:27
ID: 30362
この記事の返信元:
- [30356] PDF上のテキストの抽出ハトリーヌ 2012/04/19 13:43:52
この記事への返信:
- （なし）
ツリーを表示

■No30356に返信(ハトリーヌさんの記事)
> Adobe製品を使わず、例えばiTextSharp等のフリーのライブラリを使って、
> PDF上のテキストを読み取る方法ってありますか？

下記の「PDFDocText」は如何でしょうか。あまり細かい制御はできませんが、
コマンドライン引数で pdf ファイルを渡すと、PDF と同じフォルダに、
同じファイル名で拡張子 txt の Shift_JIS ファイルを生成してくれます。
http://homepage3.nifty.com/e-papy/p2.html