PDA

View Full Version : Unicode là gì ?


hungvanwood
04-07-2012, 08:32 AM
<br>
UNICODE LÀ GÌ?Trả lời:1. Unicode là viết tắt của từ Universal Code, tức là bộ mã vạn năng, có thể dùng để mã hoá tất cả các ngôn ngữ chính trên toàn thế giới (trong đó có tiếng Việt), được dùng chủ yếu trong trao đổi hiển thị dữ liệu trong các hệ thống công nghệ thông tin. Unicode còn là cộng động của một số công ty hàng đầu trong lĩnh vực công nghệ thông tin như Microsoft, IBM, Sun... được thành lập từ năm 1991 nhằm tạo ra một bộ mã dùng chung cho toàn thế giới. Song song với tổ chức Unicode còn có tổ chức ISO(Tổ chức chuẩn quốc tế chính thống) cũng nghiên cứu một bộ mã đa ngữ dùng trong CNTT là ISO /IEC 10646.Unicode và ISO từ năm 1993 đã thống nhất cùng nhau phát triển và đồng nhất 2 bộ mã ở miền 16-Bit. Unicode là bộ mã 16-Bit (có 65.536 ô mã), còn ISO 10646 là bộ mã 32-Bit (có 4.294.967.296 ô mã). Phiên bản mới nhất của UNICODE là phiên bản 4.0 (trong đó có 143 ký tự tiếng Việt Quốc ngữ và 9299 chữ Nôm), Phiên bản mới nhất của ISO là ISO/IEC 10646-1:2000.UTF-8 LÀ GÌ?Trả lời:1. UTF-8 là viết tắt của cụm từ Unicode Transformation Format 8-Bit. Là dạng chuyển đổi Unicode dùng để chuyển ký tự 16-Bit Unicode thành chuỗi ký tự 8-Bit tương đương. Vì đa phần các ứng dụng, các môi trường hiện hành (kể cả Unix-Linux) thường chỉ hỗ trợ các dữ liệu 8-Bit, nên để tăng khả năng tương thích với các hệ thống cũ trong nhiều trường hợp người ta lưu đoạn dữ liệu Unicode thành dạng 8-Bit.UTF-8 được dùng rất phổ biến trong Internet, hệ điều hành Unix-Linux và các hệ quản trị cơ sở dữ liệu như Oracle...Câu hỏi:NHƯỢC ĐIỂM CHÍNH CỦA UNICODE LÀ GÌ?Trả lời:1. Do là bộ mã 16-Bit nên không gian nhớ và trên đĩa cứng của các văn bản được soạn bằng Unicode sẽ lớn hơn các bộ mã 8-Bit.Nhược điểm chính là các ứng dụng hỗ trợ Unicode chưa nhiều, tuy nhiên trong tương lai không xa các ứng dụng sẽ được chuyển sang hỗ trợ Unicode, cũng giống như việc chuyển từ 7-Bit sang 8-Bit từ những năm 80. Và trên thực tế các ứng dụng phổ thông và các hệ điều hành phổ thông nhất đã đều hỗ trợ Unicode.Câu hỏi:ƯU ĐIỂM CHÍNH CỦA UNICODE LÀ GÌ?Trả lời:1. Ưu điểm chính của Unicode là không gian mã rộng hơn 256 lần so với không gian mã của các bộ mã 8-Bit, do đó nó cho phép mã hoá tất cả các ngôn ngữ chính trên thế giới, cho phép tiếng Việt hội nhập với tất cả các ngôn ngữ khác trên thế giới. Tiếng Việt trong Unicode có đầy đủ tất cả các con chữ, cả hoa và thường, đồng thời khắc phục được triệt để các lỗi tranh chấp với ký tự điều khiển của các bộ mã 8-Bit, ví dụ khắc phục hiện tượng mất chữ ‘ư’, ‘ơ’,’ả’...Các công ty lớn hàng đầu thế giới về CNTT đều cam kết hỗ trợ Unicode, Unicode/ISO01646 hiện và đang là xu thế của các chuẩn và công nghệ mới.Câu hỏi:CÁC FILE UNICODE CÓ KÍCH THƯỚC TỪ 2 ĐẾN 256 LẦN SO VỚI 8-BIT?Trả lời:1. Không đúng, chỉ trong trường hợp tất cả các con chữ đều được mã hoá bằng 1 số 16-Bit thì file Unicode sẽ lớn hơn gấp đôi và dung lượng chuyển tải trên đường truyền sẽ lớn hơn gấp đôi.Tuy nhiên trên thực tế các văn bản được soản bằng Word hay các trang Web Unicode, chỉ các chữ tiếng Việt có dấu mới được lưu ở dạng 16-Bit trong khi các chữ ở vùng 7-Bit thì thường được giữ nguyên do đó không phải bao giờ kích thước cũng tăng lên gấp đôi. Theo các phép thông kê thì thông thường các file Unicode có kích thước tăng lên khoảng 25% so với bộ mã 8-Bit TCVN3 và hầu như không tăng so với bộ mã VNI.Câu hỏi:TIẾNG VIỆT ĐƯỢC BỐ TRÍ NHƯ THẾ NÀO TRONG CHUẨN UNICODE?Trả lời:Từ năm 1993, tiếng Việt đã được bố trí đầy đủ tất cả các con chữ dựng sẵn, tổ hợp và cả các ký tự tổ hợp dấu thanh và tổ hợp dấu nguyên âm. Một con chữ tiếng Việt trong một số trường hợp có thể được biểu diễn ở 3 dạng khác nhau: dựng sẵn, tổ hợp, chính tắc (Canonical).Dạng tổ hợp là dạng của các nguyên âm tổ hợp với các ký tự dấu thanh, dạng chính tắc là dạng tổ hợp của các nguyên âm (a,e,u,o) với các ký tự dấu nguyên âm (râu, trăng, mũ) và ký tự dấu thanh. Ví dụ chữ ‘ừ’ có thể được biểu diễn như sau:Tổ hợp chữ Chuỗi mã HexDựng sẵn ư 1EABTổ hợp ư +` 01B0 + 0300Chính tắc u + ’ + ` 0075 + 031B + 0300Trong bảng mã Unicode các con chữ Việt không được xếp liên tục liền nhau trong một vùng mà nằm rải rác trong 5 vùng cách nhau: Latin-1, Latin mở rộng A, La tin mở rộng B, Vùng các ký tự tổ hợp, Latin mở rộng thêm. Chữ hoa và chữ thường trong một số trường hợp được xếp cạnh nhau 1 cách tương ứng mà không cách nhau 1 khoảng 32 giá trị như trong các bảng mã ISO 8859 và trong nhiều trường hợp lại cách nhau với các khoảng có giá trị hoàn toàn khác nhau.Câu hỏi:TẠI SAO TIẾNG VIỆT LẠI KHÔNG ĐƯỢC XẾP VÀO MỘT VÙNG LIÊN TỤC?Trả lời:1. Một trong những nguyên tắc của Unicode là tính tường minh và tính không dư thừa, tức là một hình chữ chỉ có một mã duy nhất để bộ mã có tính nhất quán, tính đơn trị và cũng để tiết kiệm không gian mã. Có nhiều hình chữ có thể xuất hiện trong nhiều ngôn ngữ, ví dụ chữ ‘è’ có trong cả tiếng Việt, tiếng Pháp và tiếng Tiệp, như vậy các ngôn ngữ này phải dùng chung một mã, do đó không thể có 3 chữ ‘è’ cho 3 ngôn ngữ khác nhau. Đây chính là nguyên nhân tại sao các chữ Việt lại không được xếp liên tục cùng nhau.Về vấn đề sắp xếp, nếu các chữ được xếp liên tục thì tưởng chừng việc sắp xếp sẽ được dễ dàng hơn, tuy nhiên trên thực tế không phải như vậy, tiếng Việt không thể chỉ dựa vào giá trị mã của con chữ để sắp xếp mà phải dùng thuật toán tương đối phức tạp để sắp, do đó một khi đã phải dùng thuật toán riêng thì việc các con chữ có ở liên nhau hay không, cũng không anh hưởng lắm đến thuật toán sắp xếp. (ví dụ ‘a’ đứng trước ‘à’ nhưng ‘à’ lại đứng trước ‘an’).Sưu tầm .<br>

<!-- forum using plugin: "View more threads same category" of chiplove.9xpro -->

<h4 style="margin-top:1em">View more latest threads same category:</h4>
<ul style="margin:0.7em 2em;">
<li><a title=" Màu sắc và tram - những hiểu biết cơ bản
" href="showthread.php?15621">Màu sắc và tram - những hiểu biết cơ bản</a> </li>

<li><a title=" thay đổi góc lệch trame như thế nào để không bị moire
" href="showthread.php?15577">thay đổi góc lệch trame như thế nào để không...</a> </li>

<li><a title=" Những kiệt tác từ moire...Minh họa moire trong in ấn...
" href="showthread.php?15557">Những kiệt tác từ moire...Minh họa moire...</a> </li>

<li><a title=" Tram Hàn Quốc là tram gì vậy?
" href="showthread.php?15498">Tram Hàn Quốc là tram gì vậy?</a> </li>

<li><a title=" Làm giúp trame
" href="showthread.php?15405">Làm giúp trame</a> </li>

<li><a title=" Thông số tram như thế nào cho hợp lý?
" href="showthread.php?15382">Thông số tram như thế nào cho hợp lý?</a> </li>

<li><a title=" kiến thức chuyên sâu of chế bản
" href="showthread.php?15289">kiến thức chuyên sâu of chế bản</a> </li>

<li><a title=" Vấn đề về Tram_Màu
" href="showthread.php?15267">Vấn đề về Tram_Màu</a> </li>

<li><a title=" Tram là gì ?
" href="showthread.php?15168">Tram là gì ?</a> </li>

<li><a title=" Nhíp, tay kê là cái gì vậy ????
" href="showthread.php?15166">Nhíp, tay kê là cái gì vậy ????</a> </li>
</ul>