Как определить, в какой кодировке пришли данные скрипту?

23 апреля, 2001

Помогите любимому серверу!

Подскажите, как определить, в какой кодировке пришли данные скрипту?

С наилучшими пожеланиями, Никита Мищенко.

3 мая, 2001

Либо по content-type запроса

Content-type: ....;charset=win-1251

Либо статистическим анализом (только он часто Mac и Win1251 путает по причине их похожести).

3 мая, 2001

Хмм...

Ну первый способ ясен - через регэкспы обрезать кодировку и смотреть что и как... Но имхо это не всегда будет правильно работать?..

А алгоритм этого самого статистического анализа не подскажешь? Даже понятия не имею, что это за рыбина такая и с чем ее едят...

Можно и кусок сырца (ну в смысле кода) на перле желательно выслать мне на мыло :о)

3 мая, 2001

Ну кода я не вышлю, и уж тем более не на перле (знаю и 3 года писал на нем, но не люблю).

Тема такая ... если текст более менее большой и содержит в себе русский текст (все что с кодом <128 вообще не волнует), то есть некторая статистика повторения символов с кодами >=128.

Популярных кодировок вообще всего 5: koi, win, iso, mac, dos (поддержку остальных добавить на раз).

Берешь _здоровый_ русский текст в известной кодировке (Война и мир), прогоняешь через частотный анализ (считаешь кол-во символов каждого кода (128-255) и делишт на общее кол-во символов в диапазоне 128-255), получаешь табличку из 128 элементов. Это делается один раз, и лучше считать double-ами.

Потом берешь текст, и конвертишь его из всех кодировок которые ты знаешь в ту, которой был исходный текст (война и мир, и делаешь тот же анализ на него. Затем считаешь среднее расхождение между полученной таблицей и оригинальной и выбираешь ту кодировку, у которой разница меньше всего.

Если проверяемый текст маленький можно брать масимальное отклонение вместо среднего. Кроме этого, можно сделать 3 оригинальные таблицы для номального текста, текста написанного только строчными буквами и текста написанного только ghjbcysvb буквами. Дает хорошие результаты, если не брать кодировку mac ( она от win регистром отличается в основном). Кроме того есть еще буква 'ё', которая может находиться не там где надо Smile В связи с этим лучше ее из анализа исключать вообще.

Используя данный алгоритм в свое время был написан автоматический перекодировщик, который из белиберды (максимум 5 перекодировок текста конвертерами, вплоть до бреда win->iso/dos->win/iso->win/koi->iso/win->iso достать из этого бреда нормальный текст.

~83% вероятности полного совпадения, в любом слчае нормальная читабельность при такой цепочке из 5 перекодировок. Если их <= 3 то вообще 100% (может пробовал мало ? Smile а в твем случае глюк может быть только если маленький текст или не осмысленный.

4 мая, 2001

Н-да... Задачка не из легких...

Но главное - все понятно! :о)

Войти

Как определить, в какой кодировке пришли данные скрипту?

Рекомендуемые сообщения

Гость

Ссылка на комментарий

Поделиться на другие сайты

Гость

Ссылка на комментарий

Поделиться на другие сайты

Гость

Ссылка на комментарий

Поделиться на другие сайты

Гость

Ссылка на комментарий

Поделиться на другие сайты

Гость

Ссылка на комментарий

Поделиться на другие сайты

Присоединяйтесь к обсуждению

Обзор

Активность