UTF-8

alex171069 · 18 мая, 2009

Господа, я слегка не понимаю как может один символ в кодировке UTF-8 быть представлен 4-6 байтами ?

КАК потом процессор сливает эти байты для того чтобы получить один байт для отображения символа ?

Вот этот алгоритм очень интересен ?

А не всякие пространные статьи о том как появилась эта кодировка да зачем она нужна как в википедии !

allez · 18 мая, 2009

alex171069 писал(а) Mon, 18 May 2009 15:02

Господа, я слегка не понимаю как может один символ в кодировке UTF-8 быть представлен 4-6 байтами ?

А как еще закодировать набор символов, в котором имеется больше 256 знаков? Кстати, вас не смущает, что номера телефонов, являющиеся в сущности цифровыми кодами, могут быть представлены трех-, четырех- и даже семиразрядными числами? Wink

Цитата:

КАК потом процессор сливает эти байты для того чтобы получить один байт для отображения символа ?

Вот этот алгоритм очень интересен ?

Никак не сливает.

Цитата:

А не всякие пространные статьи о том как появилась эта кодировка да зачем она нужна как в википедии !

Нет уж, все-таки почитайте, чтобы впредь таких ~~глупых~~ вопросов не задавать (тем более, что вы, похоже, читать даже и не пытались): http://ru.wikipedia.org/wiki/UTF-8 - никакой пространности и лирических отступлений, одна сухая конкретика.

alex171069 · 18 мая, 2009

Как это нету уважаемые.

А мифическое код-поинт U-0410 скажем - это тоже конкретика ?

А куда эта конкретика показывает ?

В ASCII точно можно сказать, что код буквы показывает на расположение ее в конкретной таблице.

Буква "А" в ASCII - E0 и все ясно где она находится и что нужно рисовать именно "А".

А в UTF-8 буква "А" выглядит как EF BB BF D0 B0 -и где тут буква А ?

С этими байтами, что надо делать чтобы получить U-0410 ?

И вообще какой алгоритм точно укажет на букву А из этого набора цифр?

Иными словами компьютер по какому алгоритму отыскивает букву "А" руководствуясь этим набором цифр ?

Вот этот алгоритм меня очень интересует и его нет в указанной вами статье . http://ru.wikipedia.org/wiki/UTF-8

gogi · 18 мая, 2009

alex171069 писал(а) Mon, 18 May 2009 20:22

Как это нету уважаемые.

А мифическое код-поинт U-0410 скажем - это тоже конкретика ?

А куда эта конкретика показывает ?

В ASCII точно можно сказать, что код буквы показывает на расположение ее в конкретной таблице.

Буква "А" в ASCII - E0 и все ясно где она находится и что нужно рисовать именно "А".

А в UTF-8 буква "А" выглядит как EF BB BF D0 B0 -и где тут буква А ?

С этими байтами, что надо делать чтобы получить U-0410 ?

И вообще какой алгоритм точно укажет на букву А из этого набора цифр?

Иными словами компьютер по какому алгоритму отыскивает букву "А" руководствуясь этим набором цифр ?

Вот этот алгоритм меня очень интересует и его нет в указанной вами статье . http://ru.wikipedia.org/wiki/UTF-8

man 7 utf-8

Войти

UTF-8

Рекомендуемые сообщения

alex171069

allez

alex171069

gogi

Присоединяйтесь к обсуждению

Обзор

Активность