Текст не обязательно набирать на клавиатуре самому. Если текст уже существует в напечатанном виде, его можно ввести в компьютер с помощью специального устройства — сканера и получить соответствующий ему графический образ. А затем, используя систему оптического распознавания (OCR), выделить из полученного изображения текст и в результате он станет доступным для других программ.
Системы оптического распознавания текстов находят широкое применение в тех областях, где требуется вводить в компьютер и обрабатывать значительные объемы информации, в частности, при организации потокового ввода данных для различных информационных систем, автоматизации офисной деятельности и т.д.
Конечно, OCR-система, как и человек, может ошибаться. Надежность ее работы и скорость распознавания во многом зависят от качества исходного текста. На "хороших", с полиграфической точки зрения, текстах ошибок оказывается немного, не более 1-2 на страницу.
OCR-системы способны работать с текстами на разных языках, в том числе и со смешанными текстами произвольных начертаний и размеров. В отдельных случаях для повышения качества распознавания может потребоваться расширение шрифтовой базы системы путем ее обучения. Для борьбы с неизбежно возникающими ошибками используется специализированный, встроенный в систему электронный корректор. Сегодня на российском рынке продаются следующие системы распознавания:
FineReader (BitSoftware, Inc), CuneiForm (CognitiveTechnologiesLtd), Author (Окрус).
С первых лет появления вычислительной техники возникла идея использовать ее для перевода текстов, написанных на естественном языке. Сначала появились электронные словари. Их основное преимущество перед традиционными словарями заключалось в том, что поиск нужного слова в словаре производил сам компьютер, а пользователь лишь набирал это слово на клавиатуре или выделял на экране. Несомненно, работу это облегчало. Но если требовалось перевести целиком предложение, то без знания грамматики уже нельзя было обойтись. А тем более переводить страницу текста, отыскивая в словаре каждое слово, оказывалось задачей не из легких.
Потребность в переводе не отдельных слов, а связанных текстов способствовала созданию систем автоматического перевода. На начальном этапе этих работ казалось, что компьютер сможет полностью заменить человека. Однако при решении ряда даже достаточно простых задач возникали трудности, связанные с необходимостью передачи компьютеру знаний о внешнем мире. Устранить эти трудности стало возможным, лишь рационально организуя взаимодействие человека и компьютера.
В настоящее время область применения систем автоматического перевода достаточно обширна. Наиболее хорошо они работают в таких предметных областях, где каждое слово имеет ограниченный круг значений, например: деловая переписка, техника, медицина и т.д. На пользователя, работающего с такой системой, в основном возлагается задача редактирования полученного текста перевода и расширения словарей системы за счет тех слов, которые ей еще не знакомы.
Объем постредактирования, т.е. редактирования полученного текста, существенно зависит от цели перевода. Если нужно лишь ознакомиться с содержанием иностранного источника, постредактирование может и не понадобиться, но его роль возрастает при переводе официальных документов или технической документации. К числу известных систем перевода относятся Stylus(ПроМТ) и Socrat (Арсеналъ).
Информационной системой называют программу или программный комплекс, предназначенный для накопления и обработки различной информации. В зависимости от характера и объемов обрабатываемой информации, гибкости и мощности существующих для этого средств все информационные системы можно разделить на две большие группы: персональные системы и профессиональные системы.
Персональные системы предназначены для обработки небольших объемов информации и в основном служат для создания пользователю удобств и комфорта в работе. С их помощью можно, например, создать небольшую собственную картотеку, рационально спланировать рабочую неделю и т.д. Объем хранимой в персональных системах информации обычно не велик, и обновление ее выполняется по мере необходимости самим пользователем.
Профессиональные информационные системы значительно сложнее и дороже персональных, они позволяют хранить большие объемы информации и имеют развитые возможности по ее обработке. В зависимости от тематической направленности среди информационных систем различают юридические, библиографические, медицинские и другие.
Каждая информационная система состоит как бы из двух частей: наполнения и оболочки. Наполнение системы, называемое базой данных (БД), представляет собой совокупность содержащейся в системе информации. Способы ввода, размещения и представления этой информации регламентируются на стадии создания системы. В результате вся информация внутри БД оказывается определенным образом структурированной, что значительно облегчает к ней доступ и поиск нужных сведений.
Оболочка информационной системы, называемая системой управления базой данных (СУБД), представляет собой специальную среду. Работая в ней, пользователь может выполнять с БД различные действия. К их числу относятся такие распространенные операции, как: поиск в БД информации, удовлетворяющей определенным критериям, просмотр имеющейся и ввод новой информации, ее сортировка, печать и другие.
1.4.1 Глобальная компьютерная сеть Internet
Internet - глобальная компьютерная сеть, охватывающая весь мир. Сегодня Internet имеет около 15 миллионов абонентов в более чем 150 странах мира. Ежемесячно размер сети увеличивается на 7-10%. Internet образует как бы ядро, обеспечивающее связь различных информационных сетей, принадлежащих различным учреждениям во всем мире, одна с другой.
Если ранее сеть использовалась исключительно в качестве среды передачи файлов и сообщений электронной почты, то сегодня решаются более сложные задачи распределенного доступа к ресурсам. Около двух лет назад были созданы оболочки, поддерживающие функции сетевого поиска и доступа к распределенным информационным ресурсам, электронным архивам.
При низкой стоимости услуг (часто это только фиксированная ежемесячная плата за используемые линии или телефон) пользователи могут получить доступ к коммерческим и некоммерческим информационным службам США, Канады, Австралии и многих европейских стран. В архивах свободного доступа сети Internet можно найти информацию практически по всем сферам человеческой деятельности, начиная с новых научных открытий до прогноза погоды на завтра.
Кроме того Internet предоставляет уникальные возможности дешевой, надежной и конфиденциальной глобальной связи по всему миру. Это оказывается очень удобным для фирм имеющих свои филиалы по всему миру, транснациональных корпораций и структур управления. Обычно, использование инфраструктуры Internet для международной связи обходится значительно дешевле прямой компьютерной связи через спутниковый канал или через телефон.
Электронная почта - самая распространенная услуга сети Internet. В настоящее время свой адрес по электронной почте имеют приблизительно 20 миллионов человек. Посылка письма по электронной почте обходится значительно дешевле посылки обычного письма. Кроме того сообщение, посланное по электронной почте дойдет до адресата за несколько часов, в то время как обычное письмо может добираться до адресата несколько дней, а то и недель.
В настоящее время Internet испытывает период подъема, во многом благодаря активной поддержке со стороны правительств европейских стран и США. Ежегодно в США выделяется около 1-2 миллионов долларов на создание новой сетевой инфраструктуры. Исследования в области сетевых коммуникаций финансируются также правительствами Великобритании, Швеции, Финляндии, Германии.
Однако, государственное финансирование - лишь небольшая часть поступающих средств, т.к. все более заметной становится "коммерцизация" сети (ожидается, что 80-90% средств будет поступать из частного сектора).
За последние 20 лет уровень применения компьютеров в медицине чрезвычайно повысился. Практическая медицина становится все более и более автоматизированной. Существует множество программ для компьютеров.
Сложные современные исследования в медицине немыслимы без применения вычислительной техники. К таким исследованиям можно отнести компьютерную томографию, томографию с использованием явления ядерно-магнитного резонанса, ультрасонографию, исследования с применением изотопов. Количество информации, которое получается при таких исследования так огромно, что без компьютера человек был бы неспособен ее воспринять и обработать.
Как известно, компьютерная томография представляет собой метод рентгенографического исследования, позволяющий при помощи специальной технологии получать рентгенограммы человеческого тела по слоям и запоминать эти снимки в памяти компьютера после специальной обработки; дает возможность установить локализацию патологического процесса, оценить результаты лечения, в том числе, лучевой терапии, выбрать подходы и объем оперативного вмешательства.
Для этой цели используются специальные аппараты (в том числе, отечественный рентгеновычислительный томограф СРТ - 1000) с вращающейся рентгеновской трубкой, которая перемещается вокруг неподвижного объекта, "построчно" обследуя все тело или его часть. Так как органы и ткани человека поглощают рентгеновское излучение в неравной степени, изображения их выглядят в виде "штрихов" - установленного ЭВМ коэффициента поглощения для каждой точки сканируемого слоя. Компьютерные томографы позволяют выделить слои от 2 до 10 мм при скорости сканирования одного слоя 2 - 5 секунд с моментальным воспроизведением изображения в черно - белом или цветном варианте.