DOBON.NET DOBON.NETプログラミング掲示板過去ログ

PDF上のテキストの抽出

環境/言語:[VB2008 Windows XP Windows 7]
分類:[.NET]

PDF化された文書のテキスト部をコピペしてテキストファイル化する作業をVBを使って自動化したいのですが、
Adobe製品を使わず、例えばiTextSharp等のフリーのライブラリを使って、
PDF上のテキストを読み取る方法ってありますか?
テキストには全角文字が含まれます。
PDF上の画像は無視します。
使っているVBはVB2008であります。
宜しくお願い申し上げます。
  • 題名: Re[1]: PDF上のテキストの抽出
  • 著者: 魔界の仮面弁士
  • 日時: 2012/04/20 17:22:27
  • ID: 30362
  • この記事の返信元:
  • この記事への返信:
    • (なし)
  • ツリーを表示
■No30356に返信(ハトリーヌさんの記事)
> Adobe製品を使わず、例えばiTextSharp等のフリーのライブラリを使って、
> PDF上のテキストを読み取る方法ってありますか?

下記の 「PDFDocText」は如何でしょうか。あまり細かい制御はできませんが、
コマンドライン引数で pdf ファイルを渡すと、PDF と同じフォルダに、
同じファイル名で拡張子 txt の Shift_JIS ファイルを生成してくれます。
http://homepage3.nifty.com/e-papy/p2.html

DOBON.NET | プログラミング道 | プログラミング掲示板