DOBON.NET DOBON.NETプログラミング掲示板過去ログ

HTMファイルをテキスト形式で取得するには

環境/言語:[WindowsXP(SP2) VB.NET 2003 Framework 1.1 ]
分類:[.NET]

インターネット上ののHTMファイルのソースコードを取得する方法は
こちらのTipsで解ったのですが(ありがとうございます)テキスト形式で
取得する方法が解らず質問させて頂きました。
VB6.0での InternetExplorer での document.body.innerText で取得した場合の
テキスト形式での取得がしたいのですが、 .NET でのdocument.body.innerTextに変る方法が解りません。
どなたかご存知の方よろしくお願いします。
(現在は、.NET でInternetExplorer を使って取得はしているのですが・・・・)
> インターネット上ののHTMファイルのソースコードを取得する方法は
> こちらのTipsで解ったのですが(ありがとうございます)テキスト形式で
> 取得する方法が解らず質問させて頂きました。
> VB6.0での InternetExplorer での document.body.innerText で取得した場合の
> テキスト形式での取得がしたいのですが、 .NET でのdocument.body.innerTextに変る方法が解りません。

全く同じにするのは難しいかもしれませんが、正規表現を使うのが簡単なのではないかと思います。

例えば、HTMLからタグを取り除く(<>で囲まれた部分を削除する)には、次のようにします。(sourceにソースが入っている。)

source = System.Text.RegularExpressions.Regex.Replace(source, "<[^>]*>", "")
早速の回答ありがとうございます。
やはり、タグを取り除く方法しかないのですね。
それが、解っただけでも収穫でした。
今後も何かとお世話になるかと思いますが、よろしくお願い致します。
解決済み!
2005/01/17(Mon) 10:36:34 編集(投稿者)

> VB6.0での InternetExplorer での document.body.innerText で取得した場合の
> テキスト形式での取得がしたいのですが、 .NET でのdocument.body.innerTextに変る方法が解りません。

.NET でも、ブラウザコントロールの Document プロパティを取得して、そこから document.body.innerText を取得するのでは駄目なのですか?
> .NET でも、ブラウザコントロールの Document プロパティを取得して、そこから document.body.innerText を取得するのでは駄目なのですか?

回答ありがとうございます。
その辺の所は最初の質問の時にも書かせて頂いたのですが、

> (現在は、.NET でInternetExplorer を使って取得はしているのですが・・・・)
> その辺の所は最初の質問の時にも書かせて頂いたのですが、
>
>>(現在は、.NET でInternetExplorer を使って取得はしているのですが・・・・)

ですから、それだとどのヘンが都合が悪いのでしょうか?というのもお尋ねしたつもりです。
■No8472に返信(渋木宏明(ひどり)さんの記事)
>>その辺の所は最初の質問の時にも書かせて頂いたのですが、
>>
> >>(現在は、.NET でInternetExplorer を使って取得はしているのですが・・・・)
>
> ですから、それだとどのヘンが都合が悪いのでしょうか?というのもお尋ねしたつもりです。
>
>.NET でも、ブラウザコントロールの Document プロパティを取得して、そこから document.body.innerText を取得するのでは駄目なのですか?

すみません。上記ではそのような意味にとれなかったのと、No.8459 で解決報告
させて頂いていたので。
解決済み!
> やはり、タグを取り除く方法しかないのですね。
> それが、解っただけでも収穫でした。

「タグを取り除く方法しかない」とは一言も言っていませんので、誤解しないでください。ただ一例を示しただけです。

DOBON.NET | プログラミング道 | プログラミング掲示板