uniqにemとen-dashを区別させる方法

uniq (GNU coreutils 8.5) does not seem to distinguish between em- and en-dashes:

$ echo -e "a-b \ na-b" |ユニーク-c

  2 a–b

この区別を強制する方法はありますか?私は運がないとLC_COLLATEのさまざまな設定を試みました。

2

1 答え

私のために働いた

echo -e "a–b\na—b" | LC_COLLATE=C uniq -c
      1 a–b
      1 a—b
3
追加された
そうですか。私は utf8 でなければならないと仮定して、 LC_COLLATE = en_GB.utf8 のさまざまな順列を試していました。 LC_COLLATE = C は予想される結果を生成します。乾杯!
追加された 著者 user918938,