「Java Modified UTF-8 Encoding」とはどういう意味ですか?

「Java Modified UTF-8 Encoding」とはどういう意味ですか?通常のUTF-8エンコーディングとはどのように違いますか?

7
Java、いつもすべてのことをやりたい
追加された 著者 BoltClock,
追加された 著者 Tomasz Nurkiewicz,
それはどこに言いますか?
追加された 著者 millimoose,
@BoltClock非常に建設的なコメントではありません。 Javaがこの変更されたエンコーディングを使用するように見えるのは、Stringが0x00で終了するStringを使用する環境で終了する場合のみです。
追加された 著者 Mark Rotteveel,

3 答え

詳細は、 のjavadocで説明しています。 DataInput

Modified UTF-8

Implementations of the DataInput and DataOutput interfaces represent Unicode strings in a format that is a slight modification of UTF-8. (For information regarding the standard UTF-8 format, see section 3.9 Unicode Encoding Forms of The Unicode Standard, Version 4.0). Note that in the following tables, the most significant bit appears in the far left-hand column.

... (some tables, please click the javadoc link to see yourself) ...

The differences between this format and the standard UTF-8 format are the following:

  • The null byte '\u0000' is encoded in 2-byte format rather than 1-byte, so that the encoded strings never have embedded nulls.
  • Only the 1-byte, 2-byte, and 3-byte formats are used.
  • Supplementary characters are represented in the form of surrogate pairs.

それを読む方法は、のjavadocで詳しく説明されています。 DataInput#readUTF()

readUTF

String readUTF()
           throws IOException

Reads in a string that has been encoded using a modified UTF-8 format. The general contract of readUTF is that it reads a representation of a Unicode character string encoded in modified UTF-8 format; this string of characters is then returned as a String.

First, two bytes are read and used to construct an unsigned 16-bit integer in exactly the manner of the readUnsignedShort method . This integer value is called the UTF length and specifies the number of additional bytes to be read. These bytes are then converted to characters by considering them in groups. The length of each group is computed from the value of the first byte of the group. The byte following a group, if any, is the first byte of the next group.

If the first byte of a group matches the bit pattern 0xxxxxxx (where x means "may be 0 or 1"), then the group consists of just that byte. The byte is zero-extended to form a character.

If the first byte of a group matches the bit pattern 110xxxxx, then the group consists of that byte a and a second byte b. If there is no byte b (because byte a was the last of the bytes to be read), or if byte b does not match the bit pattern 10xxxxxx, then a UTFDataFormatException is thrown. Otherwise, the group is converted to the character:

(char)(((a& 0x1F) << 6) | (b & 0x3F))

If the first byte of a group matches the bit pattern 1110xxxx, then the group consists of that byte a and two more bytes b and c. If there is no byte c (because byte a was one of the last two of the bytes to be read), or either byte b or byte c does not match the bit pattern 10xxxxxx, then a UTFDataFormatException is thrown. Otherwise, the group is converted to the character:

(char)(((a & 0x0F) << 12) | ((b & 0x3F) << 6) | (c & 0x3F))

If the first byte of a group matches the pattern 1111xxxx or the pattern 10xxxxxx, then a UTFDataFormatException is thrown.

If end of file is encountered at any time during this entire process, then an EOFException is thrown.

After every group has been converted to a character by this process, the characters are gathered, in the same order in which their corresponding groups were read from the input stream, to form a String, which is returned.

The writeUTF method of interface DataOutput may be used to write data that is suitable for reading by this method.

8
追加された
"ヌルバイトは2バイトフォーマットでエンコードされています" - 11000000 10000000 としてエンコードされていることを意味しますか?
追加された 著者 MC Emperor,

Javaプログラミング言語は、内部テキスト表現にUTF-16を使用しており、文字列のシリアル化にUTF-8の非標準的な変更をサポートしています。このエンコーディングは、変更されたUTF-8と呼ばれます。変更されたUTF-8と標準のUTF-8には2つの違いがあります。最初の違いは、ヌル文字(U + 0000)は1バイトではなく2バイト、具体的には11000000 10000000でエンコードされていることです。

3
追加された

Probably this: http://en.wikipedia.org/wiki/UTF-8#Modified_UTF-8

"通常の使用では、Javaプログラミング言語は標準   InputStreamReaderで文字列を読み書きするときのUTF-8   OutputStreamWriterただし、オブジェクトにはModified UTF-8が使用されています   シリアライゼーション、Javaネイティブインタフェース、および   クラスファイルに定数文字列を埋め込んでいます。 "

1
追加された