sql >> Database >  >> RDS >> Mysql

MySQL-, UTF-8- en Emoji-tekens

Het probleem is of de db een diakritisch ongevoelig vergelijk heeft. Het andere probleem is samengestelde tekens, ï kan worden uitgedrukt als één unicode-teken of twee die een surrogaatpaar vormen. Er zijn methoden om een ​​string om te zetten in een vooraf samengestelde of ontlede vorm:precomposedStringWith* en decomposedStringWith*.

Het lijkt erop dat MySQL twee vormen van unicode ucs2 ondersteunt (dat is een oudere vorm die werd vervangen door utf16) die 16 bits per karakter is en utf8 tot 3 bytes per karakter. Het slechte nieuws is dat geen van beide vormen vliegtuig 1-tekens zal ondersteunen die 17 bits vereisen. (voornamelijk emoji). Het lijkt erop dat MySQL 5.5.3 en hoger ook utf8mb4, utf16 en utf32 ondersteunen BMP en aanvullende tekens (lees emoji). Zie MySQL Unicode-tekensets .

Hier is wat code en resultaten om de verschillende unicode-byte-representaties te demonstreren.
Unicode is een 21-bits coderingssysteem.
UTF32 vertegenwoordigt direct de codepunten en demonstreert duidelijk ontbonden surrogaatparen.
UTF8 en UTF16 vereisen een of meer bytes om een ​​unicode-teken weer te geven.

NSLog(@"character: %@", @"Å");
NSLog(@"decomposedStringWithCanonicalMapping UTF8:  %@", [[@"Å" decomposedStringWithCanonicalMapping] dataUsingEncoding:NSUTF8StringEncoding]);
NSLog(@"decomposedStringWithCanonicalMapping UTF16: %@", [[@"Å" decomposedStringWithCanonicalMapping] dataUsingEncoding:NSUTF16BigEndianStringEncoding]);
NSLog(@"decomposedStringWithCanonicalMapping UTF32: %@", [[@"Å" decomposedStringWithCanonicalMapping] dataUsingEncoding:NSUTF32BigEndianStringEncoding]);

NSLog(@"precomposedStringWithCanonicalMapping UTF8:  %@", [[@"Å" precomposedStringWithCanonicalMapping] dataUsingEncoding:NSUTF8StringEncoding]);
NSLog(@"precomposedStringWithCanonicalMapping UTF16: %@", [[@"Å" precomposedStringWithCanonicalMapping] dataUsingEncoding:NSUTF16BigEndianStringEncoding]);
NSLog(@"precomposedStringWithCanonicalMapping UTF32: %@", [[@"Å" precomposedStringWithCanonicalMapping] dataUsingEncoding:NSUTF32BigEndianStringEncoding]);

NSLog(@"character: %@", @"😱");
NSLog(@"dataUsingEncoding UTF8:  %@", [@"😱" dataUsingEncoding:NSUTF8StringEncoding]);
NSLog(@"dataUsingEncoding UTF16: %@", [@"😱" dataUsingEncoding:NSUTF16BigEndianStringEncoding]);
NSLog(@"dataUsingEncoding UTF32: %@", [@"😱" dataUsingEncoding:NSUTF32BigEndianStringEncoding]);

// Voor sommige surrogaatparen is er geen andere vorm

NSString *aReverse = [[NSString alloc] initWithBytes:"\xD8\x3C\xDD\x70\x00" length:4 encoding:NSUTF16BigEndianStringEncoding];
NSLog(@"character: %@", aReverse);
NSLog(@"dataUsingEncoding UTF8:  %@", [aReverse dataUsingEncoding:NSUTF8StringEncoding]);
NSLog(@"dataUsingEncoding UTF16: %@", [aReverse dataUsingEncoding:NSUTF16BigEndianStringEncoding]);
NSLog(@"dataUsingEncoding UTF32: %@", [aReverse dataUsingEncoding:NSUTF32BigEndianStringEncoding]);

NSLog-uitgang:

character: Å
decomposedStringWithCanonicalMapping UTF8:  <41cc8a>   
decomposedStringWithCanonicalMapping UTF16: <0041030a>   
decomposedStringWithCanonicalMapping UTF32: <00000041 0000030a>   

precomposedStringWithCanonicalMapping UTF8:  <c385>   
precomposedStringWithCanonicalMapping UTF16: <00c5>   
precomposedStringWithCanonicalMapping UTF32: <000000c5>   

character: 😱
dataUsingEncoding UTF8:  <f09f98b1>   
dataUsingEncoding UTF16: <d83dde31>   
dataUsingEncoding UTF32: <0001f631>   

character: 🅰
dataUsingEncoding UTF8:  <f09f85b0>
dataUsingEncoding UTF16: <d83cdd70>
dataUsingEncoding UTF32: <0001f170>



  1. Moeten geclusterde indexen uniek zijn?

  2. Moet ik een bitveld indexeren in SQL Server?

  3. Omgaan met grote datavolumes met MySQL en MariaDB

  4. Algebraïsche gegevenstypen in Postgres