Публицистика

[Параметры] [Интерфейс] [Работа с письмами] [Ошибки]

(01) (02) (03) (04) (05) (06) (07) (08) (09) (10) (11) (12) (13) (14) (15) (16) (17) (18) (19) (20) (21) (22) (23) (24) (25) (26) (27) (28) (29) (30) (31) (32) (33) (34) (35) (36) (37) (38) (39) (40) (41) (42) (43) (44) (45) (46) (47) (48) (49) (50) (51) (52) (53) (54) (55) (56) (57) (58) (59) (60) (61) (62) (63) (64) (65) (66) (67) (68) (69) (70) (71) (72) (73) (74) (75) (76) (77) (78) (79) (80) (81) (82) (83) (84) (85) (86) (87) (88) (89) (90) (91) (92) (93) (94)

Текст в компьютер мы вводим с помощью клавиатуры.А если нужно ввести журнальную статью, реферат, книгу, наконец? Сомнительноеудовольствие перепечатывать сотни страниц. Тем более, что во многих случаяхввести большой текст можно с помощью сканера. Правда, сканер, считываястраницу, создает файл в графическом формате, то есть в виде картинки -набора черных и белых точек. Сканер ничего не знает о буквах, словах, алфавитахи языках - буквы для него неотличимы от рисунков. Он одинаково отсканируети фотографию из семейного альбома, и текст из журнала. Если вы захотитепоменять в таком тексте (в картинке) букву "а" на букву "о", то вам придетсяэто делать в специальном графическом редакторе, стирая и рисуя отдельныеточки, составляющие буквы. А вам-то нужен файл в формате текстового редактора.Иными словами, текст, который вы можете быстро и легко исправлять, редактировать,цитировать. "Учат" компьютер читать картинку с текстом (переводить егоиз одного формата в другой) специальные программы - системы оптическогораспознавания символов. О том, как они это делают, мы писали нескольколет назад (см. "самый интересный журнал Наука и жизнь " № 11, 1993 г.). Но прогресс в компьютерноммире развивается стремительно, и свидетельство тому появление новых и болеесовершенных программ-"распознавалок".О них рассказывает А. Абраменко - менеджер компании Abbyy. Заметим, чтоAbbyy - создатель одной из лучших программ распознавания текста. А основыоригинальных методов были заложены еще в студенческих работах нынешнихсотрудников компании.

Четкое изображние - меньше ошибок Представьте себе, как трудно учителю научитьребенка читать, если текст в книжке напечатан нечетко, расплывчато, накаждой букве приходится спотыкаться, выяснять ее. То же самое и с компьютером.Системы оптического распознавания символов - OCR (optical character recognition)- не любят "грязные" тексты. Чем качественнее мы отсканируем для них документ,тем меньше ошибок допустит "ученик". Сделать это на хорошем аппарате несложно.В сканере есть три ручки, с помощью которыхможно управлять процессом сканирования. Первая из них - яркость. Если "фотография"получится очень светлой (высокая яркость), то символы на ней в тонких перешейкахбудут иметь разрывы, и буква "о" превратится в букву "с". А на темной "фотографии"(низкая яркость) соседние буквы склеятсядруг с другом, и будет сложно понять, где начинается одна буква и заканчиваетсядругая. В большинстве систем OCR есть модуль автоматического подбора яркости,но, если вы не удовлетворены результатом его работы, установите яркостьвручную.Вторая ручка - разрешение сканера. Не будемподробно расшифровывать этот термин, скажем только, что, чем выше разрешениесканера, тем отчетливее будут прорисованы мелкие детали изображения. Длясистем распознавания в большинстве случаев оптимальным значением разрешениясчитается диапазон от 300 до 600 dpi.И третья ручка управления сканером - контрастность,с помощью которой регулируется отделение фона от текста. Предположим, высканируете текст, напечатанный через синюю копирку на пожелтевшей бумаге.Увеличивая контрастность, вы можете добиться хорошего изображения буквбез лишних точек, "грязи".

Читаем по слогам После того как сканер передал изображениев систему OCR, установленную в компьютере, начинается процедура сегментирования.Если документ положен в сканер с наклоном или вообще перевернут вверх ногами,программа его выправляет. Анализируя изображение, система OCR делит егона участки. Одни будут преобразовываться в текст; другие (в которых, например,располагаются картинки) будут оставлены без изменений; третьи участки содержаттаблицы, поэтому при их обработке включатся специальные модули.В большинстве систем распознавания возможнакак автоматическая сегментация, так и ручная. Допустим, программа ошибласьв анализе структуры документа, выделила таблицу как картинку - вы можетеоткорректировать результат. Далее разбитый на участки документ поступаетна распознавание.Распознавание - ядро любой системы OCR.От его качественной работы, то есть малого количества допущенных ошибок,зависит время, которое придется потратить на их исправление. Если ошибокбудет слишком много, то польза автоматизированного ввода вообще становитсясомнительной: проще набрать текст, чем исправлять бесконечные ошибки.Распознавание текста начинается с выделенияна изображении (или его части) строк, затем слов и наконец символов. Каждыйсимвол идентифицируется. Система OCR хранит знания о символах в виде эталонов,с которыми сравнивает выделенный объект. Наиболее подходящий эталон и будетсоответствовать нашему символу.Распознавание осложняют дефекты печати,о которых мы говорили ранее, - склеенные и разорванные символы. Для улучшенияраспознавания некачественно напечатанных текстов часто используют специальныеконтекстные модули. В систему OCR закладываются словари языков, моделисловоизменения. Например, в слове "дом" буква "о", написанная с дефектом,превратилась в букву "с". Но программа знает, что слова "дсм" в русскомязыке нет, а слово "дом" есть, значит, решает программа, "скорее всего,это буква "о".После того как текст распознан, вам предлагаетсяисправить в нем ошибки. Это могут быть ошибки, допущенные самой системойпри распознавании, или ошибки, содержащиеся в исходном документе, напримеропечатки. Для удобства поиска и исправления ошибок в системы OCR частовстраивают модули коррекции орфографии. Они самостоятельно просматриваютраспознанный текст и останавливаются на словах, которые не содержатся всловаре системы. Если программа "споткнулась", но слово распознано правильно,это значит, что его просто нет в словаре и надо самостоятельно занестиего в словарь. Если же в слове допущены ошибки, они исправляются, и корректоридет по тексту дальше.Обычно система распознавания сохраняетсвязь между распознанным текстом и исходным изображением. Как только выстановитесь курсором на слове, в другом окне вы видите часть картинки,с которой выделенное слово было распознано. Это очень удобно, так как можнопроверять ошибки, не доставая листа из сканера.Результатом работы системы распознаваниястановится документ в текстовом формате. Вы можете оставить или изменитьоформление документа: шрифты, картинки, разбивку на столбцы, таблицы. Затемвы либо сохраняете файл в одном из стандартных форматов, либо экспортируетенапрямую в MS Word, MS Excel и в другие программы.Так выглядят этапы работы системы распознавания.Время, которое вы сейчас потратили на чтение их описания, больше, чем потребуетсядля их распознавания в ОСR. Сканирование одной страницы длится 15-40 секунд,распознавание - 30 секунд, то есть страница текста вводится в компьютерза одну минуту. Система OCR может работать в пакетном режиме: сначала сканируютсявсе листы, а затем запускается распознавание, которое может работать круглосуточно,без перерывов.

Ищем кошку в темной комнате Как мы отличаем одну букву от другой, столот стула, собаку от кошки? Без ответа на этот вопрос невозможно и искусственнуюсистему научить различать объекты. Наблюдая за человеком и животными, ученыевыдвинули гипотезу об используемых "живыми системами" принципах распознаванияпредметов. А затем применили эти принципы при проектировании компьютерныхпрограмм.Первыми на этом пути считаются исследованияМ. Мински и П. Уинстона в Массачусетском технологическом институте в конце60-х _ начале 70-х годов. В России этими вопросами занимались в НИЦ электроннойи вычислительной техники (НИЦЭВТ). В 1977 году группой исследователей подруководством А. Шамиса (ныне сотрудника компании ABBYY) были сформулированыважнейшие принципы распознавания: целостность, целенаправленность и адаптивность.Согласно принципу целостности, каждый объект(например, человек) состоит из значимых частей (голова, руки, ноги, туловище),находящихся в определенных отношениях друг с другом (голова находится наверхутуловища, руки - на противоположных сторонах туловища, ноги не могут бытьвыше рук). Если нам нужно распознать объект, мы должны найти все составляющиеего части и проверить, выполняются ли заданные для них отношения.Второй принцип - целенаправленность. Распознаваниестроится как процесс выдвижения и доказательства или опровержения гипотез.Например, услышав шорох в углу темной комнаты, мы делаем предположение,что это кошка. И пытаемся опровергнуть нашу догадку или подтвердить ее.Мы говорим себе: "Если это кошка, тоу нее должны быть голова кошки, лапы кошки, кошачий хвост и она должнамяукать". Когда мы разглядим в темноте все перечисленные части и удостоверимся,что они соответствуют нашим представлениям о кошке, мы "распознаем" кошку.Таким образом, мы не просто наблюдали объект, а вначале выдвинули гипотезуо том, что он собой представляет, и начали целенаправленно искать черты,присущие этому объекту.Такова природа процесса распознавания,которое, по сути, не что иное, как классификация. В систему заложены описанияэталонов (или классов), и исследуемый объект соотносится с одним из них.Система не может распознать объект вообще, она только может сказать, относитсяли он к одному из известных ей классов. И если да, то к какому именно.И третий принцип - адаптивность, способностьсистемы самообучаться. Когда человек разбирает непонятное слово, написанноенезнакомым почерком, он находит похожие закорючки в других, уже прочитанныхсловах и запоминает, как автор письма пишет, например, букву "д".Затем возвращается к вызвавшему затруднениеслову и читает его, обладая уже новыми знаниями о написании конкретныхбукв данным почерком.Эти три принципа делают живые организмыидеальными системами распознавания, способными идентифицировать сотни объектовза считанные доли секунды. И если использовать те же принципы при построенииискусственных систем, можно рассчитывать на высокие результаты. Разницав том, что человеческий мозг совершает эту работу с помощью сложных биохимическихреакций, а компьютер - путем вычислений.

Прочтите рукопись мою Распознавание печатных текстов компьютером- область, сегодня достаточно хорошо исследованная. Существующие системыобладают высокой точностью распознавания: более 99,9% на текстах хорошегои среднего качества печати, и спор между компьютерными программами идетза сотые доли процентов. Что же касается распознавания рукописного текста,то качественный рывок еще впереди. Хотя уже есть несколько отработанныхнаправлений. Во-первых, это системы распознавания форм, заполненных печатнымибуквами от руки (анкеты, бюллетени, накладные, чеки и т. д.), которые применяютсяво многих областях. Например, всем уже хорошо известны машиночитаемые формыналоговых деклараций и анкеты Пенсионного фонда.Во-вторых, распознавание раздельных рукописныхбукв, написанных особым пером на специальном экране (touch-screen), широкоприменяется в карманных компьютерах и электронных записных книжках. Этираспознающие системы показывают достаточно высокую точность, приближающуюсяк точности клавиатуры.Чтение компьютером слитных букв, то естьобычного письма, сегодня мало разработано. Прежде всего, потому, что малав этом потребность. Нам известны две области возможного практического примененияподобных систем: распознавание почтовых адресов на конвертах и распознаваниеквитанций при оплате кредитной карточкой (слипов). Но исследовательскиепроблемы, которые надо решить на этом пути, чрезвычайно интересны.Почему непросто распознать слитный текст?Дело в том, что в этой задаче на распознавание приходится лишь 30%, а остальные70% лежат в области понимания компьютером смысла документа. Приведем простойпример. Допустим, вы изучили буквы бразильского языка, знаете правила составленияслов и их произношения. Теперь включите радио и попробуйте за бразильскимдиктором записать текст. В лучшем случае вам удастся "распознать" не более30%. Это происходит потому, что вы не понимаете смысла того, что говоритдиктор.Решить задачу распознавания слитного текстас высоким результатом можно будет, только когда компьютер, сможет пониматьсмысл предлагаемого текста. Нужно создать модель представления о мире изаложить ее в компьютер. И тогда можно будет выпускать качественно новыесистемы распознавания рукописных слитных текстов, а также решать близкиезадачи: распознавание звучащей речи, машинный перевод. А. АБРАМЕНКО.

Переписка с читателями При переводе текста, подготовленногов Лексиконе, в Word (для Windows) каждая строка у меня превращается в отдельныйабзац. Приходится вручную соединять строчки. А при переводе из Windowsв Лексикон текст вообще превращается в бессмысленный набор русских букв.Почему это происходит и как "примирить" два редактора?К. Гай (г. Саратов).Мы уже писали о нестыковке двух популярныхкомпьютерных редакторов (см. "самый интересный журнал Наука и жизнь " № 7, 1998 г.) и ее причинах.Поэтому теперь ограничимся конкретными рекомендациями.Специальная программа - конвертор кириллицы,которая заменяет одни коды букв на другие, - чаще всего встроена в текстовыередакторы Windows. Вызов конвертора производится автоматически. Например,когда мы в окне открытия файла в редакторе WinWord 6.0 указываем форматфайла "Текст ДОС", то в процессе его загрузки будет автоматически произведенапереконвертация кириллицы в кодировку, принятую в Windows. Аналогично присохранении текста из WinWord в файле на диске, когда мы указываем в раскрывающемсясписке "Тип файла" пункт "Текст DОS...", другой конвертор выполняет обратноепреобразование. Наконец, если тип файла при загрузке явно не указан (опция"Все файлы"), текстовый редактор может попытаться подключить нужный конверторсамостоятельно (на основе расширения имени файла) либо за-прашивает типфайла у пользователя в специальном выведенном на экран окне.Если же нужного вам типа файла в спискенет, возможно, вы просто не установили соответству ющий ему конвертор (этохарактерно, например, для WinWord); его доустановка производится при помощипрограммы SETUP для соответствующего редактора. Исключение составляет новыйWord-97 for Windows, где, кажется,загрузка "ДОСовского" русского текста не предусмотрена вообще (даже в такназываемой "русской" версии Office-97). Самый простой выход - вначале загрузитьваш текст в редактор WordPad (он входит в стандартный комплект Windows-95)с указанием формата "Текст DOS", а затем либо перенести его в Word-97 черезбуфер (Clipboard), либо сохранить в файле формата Word 6.0 и снова открытьв Word-9 Сохранение же файла в формате "Текст DOS" во всех версиях WinWordработает корректно.Следует помнить лишь одну деталь: послетого, как вы сохранили ваш текст (новый или измененный) как "Текст DOS"и пытаетесь закрыть его или выйти из Word, на экране появится окно-предупреждение:"Не все элементы форматирования могут быть сохранены". Не нажимайте "ДА",иначе поверх вашего "ДОСовского" варианта программа может записать (подтем же именем с расширением txt) текст в формате Word, и в DOS вы его прочитатьне сможете. Лучше любой текст сначала сохранить в файле формата "ДокументWord" и только затем сохранить повторно (пункт меню "Сохранить как") вформате "Текст DOS".И еще один полезный совет. Если ваш принтерможет печатать только из-под Windows (скажем, из-за отсутствия в Лексиконенужного драйвера принтера) и требуется распечатать на нем "Лексиконовский"текст, просто загрузите его в WordPad или WinWord (как "Текст DOS) и назначьтедля всего этого текста шрифт семейства Courier (скажем, Courier New Cyr)- выравнива ние строк по правому краю будет восстановлено.

РЕФЕРАТЫ Известнонемало случаев, когда компьютерная техника или программные продукты приходятк совершенству не с первого раза. Вот и сейчас обнаружена еще одна недоработкав популярном накопителе Iomega ZipPlus. В некоторых случаях, когда накопительподключен к SCSI-адаптеру вместе с другими SCSI-устройствами, во времязаписи на Zip-диск возможна потеря части информации в записываемом файле.Напомним, что ранее была обнаружена у Zip "цепная реакция" поврежденияголовок поврежденным диском. Поврежденные головки начинают портить другиедиски, которые, в свою очередь, могут повредить головки в другом накопителе.По мнению специалистов, главная причина всего этого - без-удержная гонказа объемами продаж в ущерб качеству продукции. Новыйполиморфный вирус "Inca" для Windows-95 продолжает свое пагубное дело.Хотя "Диалог-Наука" срочно выпустила новое дополнение к антивирусной программеDrWeb 4.01, она все же не всегда справляется с обнаружением вируса в файлах.Вместо нее рекомендуется использовать бета-версию DrWeb for Win32 (ее можнобесплатно переписать с сервера "Диалог-Наука") или новую версию DrWeb 4.02.Обнаружить вирус можно и вручную: признаком наличия "Инки" на вашем ПКпочти наверняка является файл FONO98.VXD в каталоге \WINDOWS\SYSTEM. Посообщению "электронного бюллетеня" BugNet (www.bug-net.com), в последнихверсиях Word for Windows-95 (Word 7.0 и Word 7.ОА) возможна потеря несохраненногофайла при попытке его распечатки на принтере буксировкой пиктограммы файлана пиктограмму принтера. Во избежание этого рекомендуется обязательно сохранятьфайл на диске перед печатью и пользоваться для распечатки соответствующейкомандой меню. КомпанияDiamond Communications реализует на российском рынке программу "Интернетиз космоса", базирующуюся на технологии TurboInternet: для передачи информацииот сети к пользователю используются телевизионные каналы и телевизионныеспутники, тогда как обратная информация (объемы которой существенно меньше)передается традиционным путем. Американскомуподростку, умышленно скопировавшему на школьный компьютер перекачаннуюиз Интернет коллекцию из 60 вирусов (это привело к заражению четырьмя видамивирусов 130 компьютеров округа), кроме отстранения от учебы по крайнеймере до января следующего года грозит крупный штраф и,возможно, даже тюрьма. Впрочем, адвокат виновника полагает, что округ долженудовлетвориться компенсацией в 60 тыс. долларов за причиненный материальныйущерб. А специалист по вирусам из Международной ассоциации по компьютернойбезопасности Дж. Вит и вовсе считает, что школьник, возможно, оказалсяв этой истории в роли "козла отпущения", так как на школьных ПК из-за нехваткисредств не было установлено антивирусное программное обеспечение, большинствообнаруженных вирусов могли "разгуливать" в сети уже давно. Таиландскаякомпания Canon Marketing начала выпуск миниатюрного цветного струйногопузырькового принтера BJC-50 весом всего 900 граммов. Простой заменой картриджаон может быть превращен в сканер. Питание устройства осуществляется нетолько от сети, но и от аккумуляторов, которые при полной зарядке позволяютотпечатать около 100 страниц формата А Новыебеспроводные GSM-телефоны серии V компании Motorola весят всего 76 граммов,а по длине и ширине меньше стандартной визитной карточки. На одной зарядкеаккумуляторов возможна работа в течение 130-160 минут в режиме разговораили до 160 часов в режиме ожидания. КомпанияLogitec выпустила новую клавиатуру, снабженную 17 дополнительными клавишамидля работы в Интернете. Среди них - клавиши для пролистывания WWW-страницвперед-назад, для остановки и повторного возобновления загрузки, для добавленияновых закладок (bookmarks) или для открытия имеющихся. Есть и клавиши,которые пользователь сможет запрограммировать сам, например, на открытиекакого-либо Интернет-адреса. Испанскаякомпания Panda Software, разрабатывающая антивирусное программное обеспечение(на российском рынке Panda появилась год назад), выпустила бесплатный модульдля обнаружения созданной недавно группой хакеров "Культ мертвой коровы"вредоносной программы BackOrifice (обыгрывается название известного приложенияBackОffice). Присланная как приложение к письму е-mailили запущенная как "троянский конь", эта программа позволяет чужому пользователюполучить несанкционированный доступ к различной сетевой информации, к процедурамрегистрации, к вашей файловой системе и к системным и сетевым паролям. По материалам журналов"Компьютерра", "Computer World Россия", "РС Week" и др. Как компьютер, вернее, программа отличаетодну букву от другой? Традиционно существует три метода распознавания (илитипа классификаторов): шаблонные, признаковые и структурные. Шаблонныеклассификаторы преобразуют исходное изображение символа в набор точек изатем накладывают его на шаблоны, имеющиеся в базе системы. Шаблон, имеющийменьше всего отличий, и будет искомым.У этих систем достаточно высокая точность распознавания дефектных символов(склеенных или разорванных). Недостаток - невозможность распознать шрифт,хоть немного отличающийся от заложенного в систему (размером, наклономили начертанием). Признаковые классификаторыпо каждому символу вычисляют набор чисел (признаков). И сравнивают этинаборы. Но так как набор признаков никогда полностью не соответствует объекту,то заведомо часть информации о символе будет теряться. Структурные классификаторыхранят информацию о топологии символа. Например, буква "о" описываетсякак непрерывная кривая, не имеющая пересечений. Этот способ тоже имеетсвои недостатки: как только вы представите "разорванную" из-за дефектовпечати букву "о", она уже не подойдет под свое описание и может быть распознанакак "с" или "п".
Программисты российской компании ABBYYразработали оригинальные технологии, улучшающие качество распознавания.Идея нового способа хранения знаний о букве - структурно-пятенный эталон- впервые появилась на свет в студенческих работах Д. Яна, К. Анисимовичаи П. Сенаторова.
Он лишен недостатков, присущих шаблонными структурным системам (высокая чувствительность к начертаниям и дефектамсимволов), и объединяет их достоинства. В структурно-пятен ном эталонеизображение представляется в виде пятен, связанных парными отношениями.Наглядно это можно представить себе в виде теннисных шаров, нанизанныхна резиновый жгут. Шары могут сдвигаться относительно друг друга. Такуюсвязку подвижных шаров можно "натянуть" на различные изображения одногосимвола, и система становится менее зависимой от шрифтов и дефектов. Технологияраспознавания с помощью структурно-пятенных эталонов получила название"фонтанное преобразование" (от английского font - шрифт).Система оптического распознавания текста "FineReader Рукопись", разработаннаяроссийской компанией ABBYY, применяется для обработки Анкеты Пенсионногофонда и налоговых деклараций. Точность распознавания (прочтения) - до 99,9%.

Меню:

Главная страница Параметры Интерфейс Письма Неполадки