Ik ben aan het studeren voor mijn certificaat test volgende woensdag en wordt hier toch nog maar eens geconfronteerd met de vraag. Extract uit de het FTS leerboek:
A text field can hold about two gigabytes of information, which is the equivalent of about a billion characters, or roughly 500,000 pages of English text. FileMaker Pro stores textual data internally as Unicode values, which require up to two bytes of information per character.
Discussie tijdens de FMSummit in Brugge aan tafel 's avonds met mijn nederlands collega die ook Peter heet, waarbij Peter me verteld dat UTF-8 veel meer dan 65000 karakters bevat, omdat de chinese taal alleen al 250.000 lettertekens bevat.
Kwam ik daar even uit de lucht vallen. En nu weer. Dus Wikipedia erbij.
The original specification covered numbers up to 31 bits (the original limit of the Universal Character Set). In November 2003, UTF-8 was restricted by RFC 3629 to end at U+10FFFF, in order to match the constraints of the UTF-16 character encoding. This removed all 5- and 6-byte sequences, and 983040 4-byte sequences.
en dan dit
The first 128 characters (US-ASCII) need one byte. The next 1,920 characters need two bytes to encode. This covers the remainder of almost all Latin alphabets, and also Greek, Cyrillic, Coptic, Armenian, Hebrew, Arabic, Syriac and Tāna alphabets, as well as Combining Diacritical Marks. Three bytes are needed for characters in the rest of the Basic Multilingual Plane, which contains virtually all characters in common use[12] including most Chinese, Japanese and Korean characters. Four bytes are needed for characters in the other planes of Unicode, which include less common CJK characters, various historic scripts, mathematical symbols, and emoji (pictographic symbols).
Tot hier toe is mijn conclusie dat de FTS documentatie niet correct is, en dat een FileMaker veld MINDER karakters kan bevatten als er bijvoorbeeld gebruik wordt gemaakt van niet latijnse talen - of van CJK karakters.
Is die conclusie correct? En het FTS leerboek eigenlijk fout?
Question
Peter Wagemans
Ik ben aan het studeren voor mijn certificaat test volgende woensdag en wordt hier toch nog maar eens geconfronteerd met de vraag. Extract uit de het FTS leerboek:
Discussie tijdens de FMSummit in Brugge aan tafel 's avonds met mijn nederlands collega die ook Peter heet, waarbij Peter me verteld dat UTF-8 veel meer dan 65000 karakters bevat, omdat de chinese taal alleen al 250.000 lettertekens bevat.
Kwam ik daar even uit de lucht vallen. En nu weer. Dus Wikipedia erbij.
https://en.wikipedia.org/wiki/UTF-8#Description
Daar schrijven ze:
en dan ditTot hier toe is mijn conclusie dat de FTS documentatie niet correct is, en dat een FileMaker veld MINDER karakters kan bevatten als er bijvoorbeeld gebruik wordt gemaakt van niet latijnse talen - of van CJK karakters.
Is die conclusie correct? En het FTS leerboek eigenlijk fout?
9 answers to this question
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.