DOBON.NET

文字コードを指定してテキストファイルを読み込む

ここでは、テキストファイルの内容を文字列として読み込む方法について説明します。

なおEncodingオブジェクトを取得する方法については、「目的の文字コードに合ったEncodingオブジェクトを取得する」に移動しました。

ストリームを使ってテキストファイルを読み込む

最も基本的な方法は、StreamReaderクラスを使う方法です。

早速ですが、以下にStreamReaderクラスを用いてテキストファイルの内容を読み込む簡単な例を示します。この例ではテキストファイル"C:\test\1.txt"をReadToEndメソッドですべて読み込んでいます。

VB.NET
コードを隠すコードを選択
'"C:\test\1.txt"をShift-JISコードとして開く
Dim sr As New System.IO.StreamReader("C:\test\1.txt", _
    System.Text.Encoding.GetEncoding("shift_jis"))
'内容をすべて読み込む
Dim s As String =  sr.ReadToEnd() 
'閉じる
sr.Close()
 
'結果を出力する
Console.WriteLine(s)
C#
コードを隠すコードを選択
//"C:\test\1.txt"をShift-JISコードとして開く
System.IO.StreamReader sr = new System.IO.StreamReader(
    @"C:\test\1.txt",
    System.Text.Encoding.GetEncoding("shift_jis"));
//内容をすべて読み込む
string s = sr.ReadToEnd();
//閉じる
sr.Close();

//結果を出力する
Console.WriteLine(s);

StreamReaderは使用後にCloseメソッドを使って閉じる必要があります。通常は、usingステートメントやtry...finallyを使って確実にCloseメソッドが呼び出されるようにします。詳しくは、「Dispose、Closeが確実に呼び出されるようにする」をご覧ください。

補足:StreamReaderはFileShare.Readとしてファイルを開きます。よって、StreamReaderで開いているファイルは、別のプロセス(あるいは自分のプロセス)からの読み込みは可能ですが、書き込みはできません。この設定を変更する方法は、「ファイルをロック(アクセスを制限)する」で紹介します。

補足:.NET Framework 2.0以降のVB.NETでは、My.Computer.FileSystem.OpenTextFileReaderメソッドを使ってStreamReaderオブジェクトを作成することもできます。また、UTF-8で開くのであれば、File.OpenTextメソッドを使うこともできます。

「Encoding.GetEncoding("shift_jis")」というのは、Shift-JISのエンコーディングを使用して文字列に変換しろという意味です。もしテキストファイルの文字コードがEUCであれば、"shift_jis"を"euc-jp"に変えます。JISであれば、"iso-2022-jp"にします。これについて詳しくは、「目的の文字コードに合ったEncodingオブジェクトを取得する」で説明します。

なお、この例のように3番目の引数(detectEncodingFromByteOrderMarksパラメータ)を省略すると、テキストファイルにBOMが付加していた時は、自動的に文字コードが判別されて、そのEncodingが使用されます。この時判別可能な文字コードは、UTF-8、UTF-16BE、UTF-16LE、UTF-32BE、UTF-32LEです。

補足:BOMは、別の文字コードでは普通に文字として扱われる可能性もあります。よって、文字コードがはっきり分かっている場合は、detectEncodingFromByteOrderMarksをFalseにして、BOMによる自動判別をオフにした方がよいかもしれません。

テキストファイルがUTF-8の場合は、Encodingの指定を省略できます。

VB.NET
コードを隠すコードを選択
'"C:\test\2.txt"をBOMが付加したUnicodeかUTF-8として開く
Dim sr As New System.IO.StreamReader("C:\test\2.txt")
'内容をすべて読み込む
Dim s As String =  sr.ReadToEnd() 
'閉じる
sr.Close()
C#
コードを隠すコードを選択
//"C:\test\2.txt"をBOMが付加したUnicodeかUTF-8として開く
System.IO.StreamReader sr = new System.IO.StreamReader(@"C:\test\2.txt");
//内容をすべて読み込む
string s = sr.ReadToEnd();
//閉じる
sr.Close();

一行ずつ読み込む

先の例では1度にすべて読み込みましたが、今度は一行ずつ読み込む例を示します。ReadLineメソッドで一行読み込み、Peekメソッドで末尾を確認します。ReadLineメソッドはファイルを最後まで読み込むとnull(VB.NETではNothing)を返しますので、これで末尾を判断することもできます。.NET Framework 2.0以降では、StreamReader.EndOfStreamプロパティを使って末尾を確認することもできます。

なおReadLineメソッドが返す文字列には末尾の改行記号(キャリッジリターン、ラインフィード)が含まれませんので注意してください。

VB.NET
コードを隠すコードを選択
'"C:\test\1.txt"をShift-JISコードとして開く
Dim sr As New System.IO.StreamReader("C:\test\1.txt", _
    System.Text.Encoding.GetEncoding("shift_jis"))
'内容を一行ずつ読み込む
While sr.Peek() > -1
    Console.WriteLine(sr.ReadLine())
End While
'閉じる
sr.Close()
C#
コードを隠すコードを選択
//"C:\test\1.txt"をShift-JISコードとして開く
System.IO.StreamReader sr = new System.IO.StreamReader(
    @"C:\test\1.txt",
    System.Text.Encoding.GetEncoding("shift_jis"));
//内容を一行ずつ読み込む
while (sr.Peek() > -1)
{
    Console.WriteLine(sr.ReadLine());
}
//閉じる
sr.Close();

一文字ずつ読み込む

Readメソッドにより、一文字ずつ読み込むこともできます。Readメソッドは整数を返し、最後まで読み込むと-1を返します。この整数を文字に変換するには、Convert.ToCharメソッドなどを使用します。

VB.NET
コードを隠すコードを選択
'"C:\test\1.txt"をShift-JISコードとして開く
Dim sr As New System.IO.StreamReader( _
    "C:\test\1.txt", System.Text.Encoding.GetEncoding("shift_jis"))
'内容を一文字ずつ読み込む
While sr.Peek() > -1
    Console.Write(Convert.ToChar(sr.Read()))
End While
'閉じる
sr.Close()
C#
コードを隠すコードを選択
//"C:\test\1.txt"をShift-JISコードとして開く
System.IO.StreamReader sr = new System.IO.StreamReader(
    @"C:\test\1.txt",
    System.Text.Encoding.GetEncoding("shift_jis"));
//内容を一文字ずつ読み込む
while (sr.Peek() > -1)
{
    Console.Write(Convert.ToChar(sr.Read()));
}
//閉じる
sr.Close();

指定した文字数ずつ読み込む

ReadBlockメソッドを使って、指定した文字数だけ読み込むこともできます。ReadBlockメソッドは読み込んだ文字数を返し、ファイルの末尾に達していると、0を返します。

10文字ずつ読み込む例を以下に示します。

VB.NET
コードを隠すコードを選択
'"C:\test\1.txt"をShift-JISコードとして開く
Dim sr As New System.IO.StreamReader( _
    "C:\test\1.txt", System.Text.Encoding.GetEncoding("shift_jis"))
'内容を10文字ずつ読み込む
While sr.Peek() > -1
    Dim c(9) As Char
    sr.ReadBlock(c, 0, c.Length)
    Console.Write(c)
End While
'閉じる
sr.Close()
C#
コードを隠すコードを選択
//"C:\test\1.txt"をShift-JISコードとして開く
System.IO.StreamReader sr = new System.IO.StreamReader(
    @"C:\test\1.txt",
    System.Text.Encoding.GetEncoding("shift_jis"));
//内容を10文字ずつ読み込む
while (sr.Peek() > -1)
{
    char[] c = new char[10];
    sr.ReadBlock(c, 0, c.Length);
    Console.Write(c);
}
//閉じる
sr.Close();

補足:ReadBlockメソッドとほぼ同じメソッドにStreamReader.Readメソッドがあります。両者の違いは、Readメソッドが、ファイルの末尾に到達しなかったとしても、ストリーム内に使用できるデータがなかった場合、指定された文字数よりも少ない文字しか読み込まない可能性があるのに対して、ReadBlockメソッドは指定された文字数が読み込まれるまでループする(ブロックする)ことで、必ず指定された文字数読み込まれるようにします。しかし実際にStreamReader.Readメソッドが指定された文字数未満しか読み込まないことがあるのかは不明です。

.NET Framework 2.0以降で、ストリームを使わずに簡単に読み込む

.NET Framework 2.0からは、File.ReadAllTextメソッドReadAllLinesメソッドにより、指定したファイルの中身を指定した文字コードですべて読み込むことができます。ReadAllTextはファイルの中身すべてをStringに読み込みます。ReadAllLinesも同じくすべてを読み込みますが、行で分割されたString配列に読み込みます。

これらのメソッドは例外が発生しても確実にファイルを閉じるため、安心です。テキストファイルからすべての文字列を読み込むだけならば、StreamReader.ReadToEndメソッドよりも圧倒的に便利です。

以下にReadAllTextとReadAllLinesメソッドを使った例を示します。

VB.NET
コードを隠すコードを選択
'読み込むテキストファイル
Dim textFile As String = "C:\test\1.txt"
'文字コード(ここでは、Shift JIS)
Dim enc As System.Text.Encoding = System.Text.Encoding.GetEncoding("shift_jis")

'テキストファイルの中身をすべて読み込む
Dim str As String = System.IO.File.ReadAllText(textFile, enc)

'行ごとの配列として、テキストファイルの中身をすべて読み込む
Dim lines As String() = System.IO.File.ReadAllLines(textFile, enc)
C#
コードを隠すコードを選択
//読み込むテキストファイル
string textFile = @"C:\test\1.txt";
//文字コード(ここでは、Shift JIS)
System.Text.Encoding enc = System.Text.Encoding.GetEncoding("shift_jis");

//テキストファイルの中身をすべて読み込む
string str = System.IO.File.ReadAllText(textFile, enc);

//行ごとの配列として、テキストファイルの中身をすべて読み込む
string[] lines = System.IO.File.ReadAllLines(textFile, enc);

補足:.NET Framework 2.0以降のVB.NETでは、My.Computer.FileSystem.ReadAllTextメソッドでFile.ReadAllTextと同じことができます。

  • 履歴:
  • 2006/11/20 「一文字ずつ読み込む」「指定した文字数ずつ読み込む」を追加など。
  • 2007/1/25 File.ReadAllTextとReadAllLinesメソッドに関する記述を追加。
  • 2010/1/22 説明やコードの一部をより分かりやすいように書き換える。
  • 2010/9/9 Encodingに関する説明を補充。
  • 2014/5/7 Encodingオブジェクトを取得する方法を「目的の文字コードに合ったEncodingオブジェクトを取得する」に移動。
  • 2016/8/28 detectEncodingFromByteOrderMarksパラメータに関する説明を追加。

注意:この記事では、基本的な事柄の説明が省略されているかもしれません。初心者の方は、特に以下の点にご注意ください。

  • Windows Vista以降でUACが有効になっていると、ファイルへの書き込みに失敗する可能性があります。詳しくは、こちらをご覧ください。
  • .NET Tipsをご利用いただく際は、注意事項をお守りください。
共有する

この記事への評価

この記事へのコメント

この記事に関するコメントを投稿するには、下のボタンをクリックしてください。投稿フォームへ移動します。通常のご質問、ご意見等は掲示板へご投稿ください。