ここでは、テキストファイルの内容を文字列として読み込む方法について説明します。
なおEncodingオブジェクトを取得する方法については、「目的の文字コードに合ったEncodingオブジェクトを取得する」に移動しました。
最も基本的な方法は、StreamReaderクラスを使う方法です。
早速ですが、以下にStreamReaderクラスを用いてテキストファイルの内容を読み込む簡単な例を示します。この例ではテキストファイル"C:\test\1.txt"をReadToEndメソッドですべて読み込んでいます。
'"C:\test\1.txt"をShift-JISコードとして開く Dim sr As New System.IO.StreamReader("C:\test\1.txt", _ System.Text.Encoding.GetEncoding("shift_jis")) '内容をすべて読み込む Dim s As String = sr.ReadToEnd() '閉じる sr.Close() '結果を出力する Console.WriteLine(s)
//"C:\test\1.txt"をShift-JISコードとして開く System.IO.StreamReader sr = new System.IO.StreamReader( @"C:\test\1.txt", System.Text.Encoding.GetEncoding("shift_jis")); //内容をすべて読み込む string s = sr.ReadToEnd(); //閉じる sr.Close(); //結果を出力する Console.WriteLine(s);
StreamReaderは使用後にCloseメソッドを使って閉じる必要があります。通常は、usingステートメントやtry...finallyを使って確実にCloseメソッドが呼び出されるようにします。詳しくは、「Dispose、Closeが確実に呼び出されるようにする」をご覧ください。
補足:StreamReaderはFileShare.Readとしてファイルを開きます。よって、StreamReaderで開いているファイルは、別のプロセス(あるいは自分のプロセス)からの読み込みは可能ですが、書き込みはできません。この設定を変更する方法は、「ファイルをロック(アクセスを制限)する」で紹介します。
補足:.NET Framework 2.0以降のVB.NETでは、My.Computer.FileSystem.OpenTextFileReaderメソッドを使ってStreamReaderオブジェクトを作成することもできます。また、UTF-8で開くのであれば、File.OpenTextメソッドを使うこともできます。
「Encoding.GetEncoding("shift_jis")」というのは、Shift-JISのエンコーディングを使用して文字列に変換しろという意味です。もしテキストファイルの文字コードがEUCであれば、"shift_jis"を"euc-jp"に変えます。JISであれば、"iso-2022-jp"にします。これについて詳しくは、「目的の文字コードに合ったEncodingオブジェクトを取得する」で説明します。
なお、この例のように3番目の引数(detectEncodingFromByteOrderMarksパラメータ)を省略すると、テキストファイルにBOMが付加していた時は、自動的に文字コードが判別されて、そのEncodingが使用されます。この時判別可能な文字コードは、UTF-8、UTF-16BE、UTF-16LE、UTF-32BE、UTF-32LEです。
補足:BOMは、別の文字コードでは普通に文字として扱われる可能性もあります。よって、文字コードがはっきり分かっている場合は、detectEncodingFromByteOrderMarksをFalseにして、BOMによる自動判別をオフにした方がよいかもしれません。
テキストファイルがUTF-8の場合は、Encodingの指定を省略できます。
'"C:\test\2.txt"をBOMが付加したUnicodeかUTF-8として開く Dim sr As New System.IO.StreamReader("C:\test\2.txt") '内容をすべて読み込む Dim s As String = sr.ReadToEnd() '閉じる sr.Close()
//"C:\test\2.txt"をBOMが付加したUnicodeかUTF-8として開く System.IO.StreamReader sr = new System.IO.StreamReader(@"C:\test\2.txt"); //内容をすべて読み込む string s = sr.ReadToEnd(); //閉じる sr.Close();
先の例では1度にすべて読み込みましたが、今度は一行ずつ読み込む例を示します。ReadLineメソッドで一行読み込み、Peekメソッドで末尾を確認します。ReadLineメソッドはファイルを最後まで読み込むとnull(VB.NETではNothing)を返しますので、これで末尾を判断することもできます。.NET Framework 2.0以降では、StreamReader.EndOfStreamプロパティを使って末尾を確認することもできます。
なおReadLineメソッドが返す文字列には末尾の改行記号(キャリッジリターン、ラインフィード)が含まれませんので注意してください。
'"C:\test\1.txt"をShift-JISコードとして開く Dim sr As New System.IO.StreamReader("C:\test\1.txt", _ System.Text.Encoding.GetEncoding("shift_jis")) '内容を一行ずつ読み込む While sr.Peek() > -1 Console.WriteLine(sr.ReadLine()) End While '閉じる sr.Close()
//"C:\test\1.txt"をShift-JISコードとして開く System.IO.StreamReader sr = new System.IO.StreamReader( @"C:\test\1.txt", System.Text.Encoding.GetEncoding("shift_jis")); //内容を一行ずつ読み込む while (sr.Peek() > -1) { Console.WriteLine(sr.ReadLine()); } //閉じる sr.Close();
Readメソッドにより、一文字ずつ読み込むこともできます。Readメソッドは整数を返し、最後まで読み込むと-1を返します。この整数を文字に変換するには、Convert.ToCharメソッドなどを使用します。
'"C:\test\1.txt"をShift-JISコードとして開く Dim sr As New System.IO.StreamReader( _ "C:\test\1.txt", System.Text.Encoding.GetEncoding("shift_jis")) '内容を一文字ずつ読み込む While sr.Peek() > -1 Console.Write(Convert.ToChar(sr.Read())) End While '閉じる sr.Close()
//"C:\test\1.txt"をShift-JISコードとして開く System.IO.StreamReader sr = new System.IO.StreamReader( @"C:\test\1.txt", System.Text.Encoding.GetEncoding("shift_jis")); //内容を一文字ずつ読み込む while (sr.Peek() > -1) { Console.Write(Convert.ToChar(sr.Read())); } //閉じる sr.Close();
ReadBlockメソッドを使って、指定した文字数だけ読み込むこともできます。ReadBlockメソッドは読み込んだ文字数を返し、ファイルの末尾に達していると、0を返します。
10文字ずつ読み込む例を以下に示します。
'"C:\test\1.txt"をShift-JISコードとして開く Dim sr As New System.IO.StreamReader( _ "C:\test\1.txt", System.Text.Encoding.GetEncoding("shift_jis")) '内容を10文字ずつ読み込む While sr.Peek() > -1 Dim c(9) As Char sr.ReadBlock(c, 0, c.Length) Console.Write(c) End While '閉じる sr.Close()
//"C:\test\1.txt"をShift-JISコードとして開く System.IO.StreamReader sr = new System.IO.StreamReader( @"C:\test\1.txt", System.Text.Encoding.GetEncoding("shift_jis")); //内容を10文字ずつ読み込む while (sr.Peek() > -1) { char[] c = new char[10]; sr.ReadBlock(c, 0, c.Length); Console.Write(c); } //閉じる sr.Close();
補足:ReadBlockメソッドとほぼ同じメソッドにStreamReader.Readメソッドがあります。両者の違いは、Readメソッドが、ファイルの末尾に到達しなかったとしても、ストリーム内に使用できるデータがなかった場合、指定された文字数よりも少ない文字しか読み込まない可能性があるのに対して、ReadBlockメソッドは指定された文字数が読み込まれるまでループする(ブロックする)ことで、必ず指定された文字数読み込まれるようにします。しかし実際にStreamReader.Readメソッドが指定された文字数未満しか読み込まないことがあるのかは不明です。
.NET Framework 2.0からは、File.ReadAllTextメソッドやReadAllLinesメソッドにより、指定したファイルの中身を指定した文字コードですべて読み込むことができます。ReadAllTextはファイルの中身すべてをStringに読み込みます。ReadAllLinesも同じくすべてを読み込みますが、行で分割されたString配列に読み込みます。
これらのメソッドは例外が発生しても確実にファイルを閉じるため、安心です。テキストファイルからすべての文字列を読み込むだけならば、StreamReader.ReadToEndメソッドよりも圧倒的に便利です。
以下にReadAllTextとReadAllLinesメソッドを使った例を示します。
'読み込むテキストファイル Dim textFile As String = "C:\test\1.txt" '文字コード(ここでは、Shift JIS) Dim enc As System.Text.Encoding = System.Text.Encoding.GetEncoding("shift_jis") 'テキストファイルの中身をすべて読み込む Dim str As String = System.IO.File.ReadAllText(textFile, enc) '行ごとの配列として、テキストファイルの中身をすべて読み込む Dim lines As String() = System.IO.File.ReadAllLines(textFile, enc)
//読み込むテキストファイル string textFile = @"C:\test\1.txt"; //文字コード(ここでは、Shift JIS) System.Text.Encoding enc = System.Text.Encoding.GetEncoding("shift_jis"); //テキストファイルの中身をすべて読み込む string str = System.IO.File.ReadAllText(textFile, enc); //行ごとの配列として、テキストファイルの中身をすべて読み込む string[] lines = System.IO.File.ReadAllLines(textFile, enc);
補足:.NET Framework 2.0以降のVB.NETでは、My.Computer.FileSystem.ReadAllTextメソッドでFile.ReadAllTextと同じことができます。