UTF-16


UTF-16 הוא דרך לכתוב כל אות במחשב. סיבית (יחידת מידע קטנה) היא הבסיס. 16 סיביות שוות לשני בתים.

בהתחלה חשבו ש־16 סיביות יספיקו לכולם. אבל נדרשו תווים מיוחדים ותווים משפות שונות. לכן בנו שיטה שמוסיפה אפשרויות.

ב־UTF-16 יש "ממלאים" מיוחדים. אלה הם שתי קבוצות של קודים. קוד אחד מהקבוצה הראשונה ואחד מהשנייה יוצרים תו גדול יותר.

כך אפשר לקודד תווים נדירים מחוץ לטווח הרגיל. לדוגמה, זוג הקודים D84C ו־DFB4 מייצג תו סיני נדיר שנקרא U+233B4.

מערכות Windows חדשות ותוכנת Java שומרות טקסט בזיכרון כ־UTF-16. ב־Windows הבתים מסודרים בסגנון little-endian. ב־Java הם מסודרים ב־big-endian.

לפני כן חשבו שאפשר לפתוח הרבה מאוד תווים. אחרי שנקבע UTF-16, הוחלט להגביל את יוניקוד עד U+10FFFF. לכן גם שיטות אחרות כמו UTF-8 ו־UTF-32 מוגבלות היום.

תגובות גולשים

התגובה תפורסם באתר לאחר אישור המערכת

עדיין אין תגובות. היה הראשון להגיב!