uniq (GNU coreutils 8.5) does not seem to distinguish between em- and en-dashes:
uniq
$ echo -e "a-b \ na-b" |ユニーク-c
2 a–b
この区別を強制する方法はありますか?私は運がないとLC_COLLATEのさまざまな設定を試みました。
私のために働いた
echo -e "a–b\na—b" | LC_COLLATE=C uniq -c 1 a–b 1 a—b
utf8
LC_COLLATE = en_GB.utf8
LC_COLLATE = C