Nice programing

유니 코드 코드 포인트를 지정하는 데 'U +'가 사용되는 이유는 무엇입니까?

nicepro 2020. 11. 7. 10:30
반응형

유니 코드 코드 포인트를 지정하는 데 'U +'가 사용되는 이유는 무엇입니까?


유니 코드 코드 포인트가 다음과 같이 나타나는 이유는 무엇 입니까?U+<codepoint>

예를 들어 U+2202는 문자 ∂를 나타냅니다 .

U-(대시 또는 하이픈 문자) 또는 그 밖의 다른 것이 있습니까?


문자 "U +"는 MULTISET UNION "⊎"U + 228E 문자 (내부에 더하기 기호가있는 U 형 공용 기호)의 ASCII 버전으로, 유니 코드를 문자 집합의 조합으로 나타냅니다. 유니 코드 메일 링리스트에서 Kenneth Whistler의 설명을 참조하십시오 .


유니 코드 표준은 코드 포인트 및 문자 이름에 대해 설명하기 위해 몇 가지 표기법이 필요합니다. 1996 년에 출판 된 The Unicode Standard 버전 2.0.0 (출처 : Unicode Consortium 웹 사이트에 보관 된 PDF 사본) 까지 최소한 4 개 이상의 16 진수가 오는 "U +"규칙을 채택했습니다 .

"U +"표기법이 유용합니다. 16 진수를 8 진수, 무제한 16 비트 수량 또는 다른 인코딩의 문자 대신 유니 코드 코드 포인트로 표시하는 방법을 제공합니다. 텍스트 실행에서 잘 작동합니다. "U"는 "유니 코드"를 제안합니다.

1990 년 초반 유니 코드에 대한 소프트웨어 업계의 토론에서 개인적으로 기억하는 것은 유니 코드 1.0과 유니 코드 2.0 시대에 "U +"다음에 4 자리 16 진수의 규칙이 일반적 이었다는 것입니다. 당시 유니 코드는 16 비트 시스템으로 간주되었습니다. 유니 코드 3.0의 출현과 U + 010000 이상의 코드 포인트에서 문자 인코딩으로 "U-"뒤에 6 자리 16 진수가 사용되었습니다. 특히 숫자에서 여분의 두 자리를 강조하기 위해 사용되었습니다. (또는 반대로 "U-"에서 "U +"로의 이동일 수도 있습니다.) 제 경험상 "U +"규칙은 이제 "U-"규칙보다 훨씬 더 일반적이며 자릿수를 나타내는 "U +"와 "U-"의 차이.

하지만 "U +"에서 "U-"로의 전환에 대한 문서는 찾을 수 없었습니다. 1990 년대에 보관 된 메일 링리스트 메시지에는 증거가 있어야하지만 편리하게 가리킬 수는 없습니다. 유니 코드 표준 2.0 "유니 코드 문자 코드는 16 비트의 균일 한 폭을 갖는다."선언 (2-3 페이지). "개별 유니 코드 값은 U + nnnn 으로 표현됩니다 . 여기서 nnnn 은 16 진수 표기법의 4 자리 숫자 "라는 규칙을 정했습니다 (p. 1-5). 서로 게이트 값이 할당되었지만 U + FFFF 위에 정의 된 문자 코드가 없으며 UTF-16 또는 UTF-32에 대한 언급이 없습니다. 4 자리 숫자로 "U +"를 사용했습니다. 유니 코드 표준 3.0.0, 2000 년에 출판되었고 UTF-16 (p. 46-47)을 정의하고 U + 010000 이상의 코드 포인트에 대해 논의했습니다. 어떤 곳에서는 4 자리 숫자로 "U +"를 사용했고 다른 곳에서는 6 자리 숫자를 사용했습니다. 내가 찾은 가장 확고한 추적은 The Unicode Standard , 버전 6.0.0 에서 BNF 구문 표기법 표가 기호를 정의 U+HHHH하고 U-HHHHHHHH(p. 559).

"U +"표기법은 유니 코드 코드 포인트 또는 코드 단위를 나타내는 유일한 규칙이 아닙니다. 예를 들어 Python 언어는 다음 문자열 리터럴을 정의합니다 .

  • u'xyz' 유니 코드 문자열, 유니 코드 문자 시퀀스를 나타냅니다.
  • '\uxxxx' 4 개의 16 진수로 표시된 유니 코드 문자가있는 문자열을 나타냅니다.
  • '\Uxxxxxxxx' 8 개의 16 진수로 표시된 유니 코드 문자가있는 문자열을 나타냅니다.

그것은 당신이 말하는 유니 코드 표준의 버전에 달려 있습니다. 에서 위키 백과 :

이전 버전의 표준은 유사한 표기법을 사용했지만 규칙이 약간 다릅니다. 예를 들어, 유니 코드 3.0은 "U-"다음에 8 자리 숫자를 사용했으며 "U +"는 코드 포인트가 아닌 코드 단위를 나타 내기 위해 정확히 4 자리 숫자와 함께 만 사용할 수 있습니다.


값이 유니 코드임을 보여주는 것은 단지 관례 일뿐입니다. 16 진수 값 ( 0xB9또는 B9h)의 경우 '0x'또는 'h'와 비슷 합니다. 0xB9그렇지 않습니까 0hB9(또는 &hB9또는 $B9)? 그렇게 동전이 뒤집 혔기 때문에 :-)

참고 URL : https://stackoverflow.com/questions/1273693/why-is-u-used-to-designate-a-unicode-code-point

반응형