UTF-8

alex171069 · 18 мая, 2009

Господа, я слегка не понимаю как может один символ в кодировке UTF-8 быть представлен 4-6 байтами ?

КАК потом процессор сливает эти байты для того чтобы получить один байт для отображения символа ?

Вот этот алгоритм очень интересен ?

А не всякие пространные статьи о том как появилась эта кодировка да зачем она нужна как в википедии !

allez · 18 мая, 2009

alex171069 писал(а) Mon, 18 May 2009 15:02

Господа, я слегка не понимаю как может один символ в кодировке UTF-8 быть представлен 4-6 байтами ?

А как еще закодировать набор символов, в котором имеется больше 256 знаков? Кстати, вас не смущает, что номера телефонов, являющиеся в сущности цифровыми кодами, могут быть представлены трех-, четырех- и даже семиразрядными числами? Wink

Цитата:

КАК потом процессор сливает эти байты для того чтобы получить один байт для отображения символа ?

Вот этот алгоритм очень интересен ?

Никак не сливает.

Цитата:

А не всякие пространные статьи о том как появилась эта кодировка да зачем она нужна как в википедии !

Нет уж, все-таки почитайте, чтобы впредь таких ~~глупых~~ вопросов не задавать (тем более, что вы, похоже, читать даже и не пытались): http://ru.wikipedia.org/wiki/UTF-8 - никакой пространности и лирических отступлений, одна сухая конкретика.

alex171069 · 18 мая, 2009

Как это нету уважаемые.

А мифическое код-поинт U-0410 скажем - это тоже конкретика ?

А куда эта конкретика показывает ?

В ASCII точно можно сказать, что код буквы показывает на расположение ее в конкретной таблице.

Буква "А" в ASCII - E0 и все ясно где она находится и что нужно рисовать именно "А".

А в UTF-8 буква "А" выглядит как EF BB BF D0 B0 -и где тут буква А ?

С этими байтами, что надо делать чтобы получить U-0410 ?

И вообще какой алгоритм точно укажет на букву А из этого набора цифр?

Иными словами компьютер по какому алгоритму отыскивает букву "А" руководствуясь этим набором цифр ?

Вот этот алгоритм меня очень интересует и его нет в указанной вами статье . http://ru.wikipedia.org/wiki/UTF-8

gogi · 18 мая, 2009

alex171069 писал(а) Mon, 18 May 2009 20:22

Как это нету уважаемые.

А мифическое код-поинт U-0410 скажем - это тоже конкретика ?

А куда эта конкретика показывает ?

В ASCII точно можно сказать, что код буквы показывает на расположение ее в конкретной таблице.

Буква "А" в ASCII - E0 и все ясно где она находится и что нужно рисовать именно "А".

А в UTF-8 буква "А" выглядит как EF BB BF D0 B0 -и где тут буква А ?

С этими байтами, что надо делать чтобы получить U-0410 ?

И вообще какой алгоритм точно укажет на букву А из этого набора цифр?

Иными словами компьютер по какому алгоритму отыскивает букву "А" руководствуясь этим набором цифр ?

Вот этот алгоритм меня очень интересует и его нет в указанной вами статье . http://ru.wikipedia.org/wiki/UTF-8

man 7 utf-8

Войти

UTF-8

Рекомендуемые сообщения

alex171069

Ссылка на комментарий

Поделиться на другие сайты

allez

Ссылка на комментарий

Поделиться на другие сайты

alex171069

Ссылка на комментарий

Поделиться на другие сайты

gogi

Ссылка на комментарий

Поделиться на другие сайты

Присоединяйтесь к обсуждению

Обзор

Активность