ВНИМАНИЕ! На форуме началось голосование в конкурсе "Астрофотография месяца - МАЙ"
0 Пользователей и 4 Гостей просматривают эту тему.
качество моих сканов - 600дпи, пдф с текстовым слоем (без вычитки).
А подложку из под текстового слоя, кстати, насколько сложно убрать?..
Так всётаки в каком качестве сканировать? Я для меньшего объёма уже один журнал прогнал на 150 dpi. Теперь мне кажется что всё нужно будет прогонять по новой на более высоком качестве. Вопрос - каком? Другой вопрос - делать распознавание кто будет? Или мне этим то-же нужно затяться? У меня есть Файнридер, но пользовался я им по стольку, по скольку. Я, честно говоря, думал что простого сканирования будет достаточно.
Цитировать (выделенное)А подложку из под текстового слоя, кстати, насколько сложно убрать?..Я не специалист в обработке изображений, распознавание производил исключительно для возможности поиска в отсканированных номерах, что вы имеете в виду под подложкой? Отсканированный фон (желтизна)? Если да, то изначально я сканирую без него (с удалением фона, настройки сканера позволяют), сканы получаются чистые. Также возможно удалять фон впоследствии в фотошопе.
Если будет необходимость, могу поделиться своей методикой сканирования.
Цитата: ДимСаныч от 25.12.2011 [09:55:00]Так всётаки в каком качестве сканировать? Я для меньшего объёма уже один журнал прогнал на 150 dpi. Теперь мне кажется что всё нужно будет прогонять по новой на более высоком качестве. Вопрос - каком? Другой вопрос - делать распознавание кто будет? Или мне этим то-же нужно затяться? У меня есть Файнридер, но пользовался я им по стольку, по скольку. Я, честно говоря, думал что простого сканирования будет достаточно. Спецы рекомендуют сканировать с разрешением 300 дпи в градациях серого (greyscale).
Никак не отвечу Iskandar. Александр, конечно же, я помню, что именно - Вы первопроходец сканирования материалов ЗиВ. Если не ошибаюсь, вот это Вы еще году так в 2003 или 05 примерно сделали?
Понял, спасибо! А то как-то встречался со сканами (pdf-формат) - OSR-текст на ужасном сером фоне, ближе к сгибам - аж темно сером. Как бороться - непонятно...
Да, это было бы очень полезно для всех , в порядке обмена и сохранения опыта. А то вот Олега так и не удосужились спросить, как он делает, и его наработки пропали...
Спецы рекомендуют сканировать с разрешением 300 дпи в градациях серого (greyscale).
Я так понимаю, это текст? Рисунки, имхо, можно и немного побольше dpi взять, и, главное - там надо, конечно, уже и цвета брать (там, где они цветные, разумеется). Мой личный опыт - имхо, 400 dpi - все же самое оптимальное для подавляющего большинства случаев. Больше - вряд ли нужно (на рисунках уже лезет сетка, и шрифты труднее распознаются).
действительно, для черно-белых фотографий оптимальными параметрами будут 300 dpi в градации серого (Greyscale), правда, фотографии в этом случае надо сканировать отдельно от текста, а сам текст - в черно-белом варианте, иначе получается слишком большой объём.
если бы пришлось и текст сканировать в градации серого, то конечный файл разбух бы до неимоверных размеров.
Цитировать (выделенное)Понял, спасибо! А то как-то встречался со сканами (pdf-формат) - OSR-текст на ужасном сером фоне, ближе к сгибам - аж темно сером. Как бороться - непонятно...Ну это засветка от неплотно прижатого корешка, с ней достаточно легко бороться как на уровне настроек сканеров, так и впоследствии (в фотошопе, например). А серый фон и загрязнения также можно убирать сразу в настройках сканера как при сканировании в полутонах (регулируя яркость и контрастность), так и в монохромном режиме (подбирая порог черно-белого). Если не помогает (что-то остается), то дочищать потом следы в фотошопе.
Для современных (малобюджетных и дешевых в том числе) сканеров уже совершенно безразлично (по затратам времени) сканировать ли на 400дпи или на 600дпи в серых полутонах или в монохроме (я молчу про потоковые двухсторонние сканеры, тем вообще по барабану даже полноцветные на 600дпи), но по моему мнению лучше все-таки сканировать на 600дпи (особенно научные книги и журналы, там часто многоэтажные формулы есть, надстрочные и подстрочные мелкие знаки и сноски, тоже самое касается и всяких цветных диаграмм и графиков). Насчет сетки - это у вас просто не подавлен растр в сканах (это можно сделать в настройках сканера или впоследствии в фотошопе гауссовым размытием). И чем выше разрешение, тем лучше и распознавание, а не наоборот (как вы указали).
Конечно объем пдф получается приличный, но его можно неплохо (часто в два-три и более раза) уменьшить, используя OCR, удаление фона, очистку отсканированного в серых полутонах текста режимом Clearscan ...
Ой-ой. Опять же - нужна куча времени... Вопрос в том у меня и заключается - как выдернуть и убрать вообще серую положку из под текста, не тронув только рисунке. Т.е. - там где рисунки - оставляем как есть, а там, где сканированный начальный текст ПЛЮС слой OSR-текста - как оставить ТОЛЬКО слой OSR-текста, совсем, т.е. абсолютно уничтожив подложку?
Так вот я и спрашиваю - как его удалить? Идея такая - есть масса готовых ранних сканов всяко-разных книг - вот взять их, распознать в них внутри текст, добавить OSR-слой с текстом, и уничтожить после этого подложку.
Насчет распознавания-разрешения - может, мой опыт устарел (последний раз работал с превращение скана в текст года два назад), но - вроде как существовала некая золотая середина - на слишком высоком разрешении текст тоже уже не во всех ситуациях распознавался (крупные подписи). Насчет плохого распознавания низкого разрешения - конечно, да.
насколько я понял, номера Олега, царства ему небесного, для сообщества утрачены?
Другое дело, что у него в работе находился еще ряд номеров - вот они - да, можно считать, что утрачены.
Цитировать (выделенное)Другое дело, что у него в работе находился еще ряд номеров - вот они - да, можно считать, что утрачены.Т.е. утрачены не только недоделанные им номера, но и сам бумажный архив тоже? Было бы жаль, он ведь писал, что у него полный архив (т.е. и все номера после 1999 года).
Ну, по этому поводу я особого беспокойства не испытываю - у нас в библиотеке обсерватории вроде как все номера за последние годы есть...
Дабы не получалось накладок и в целях исключения бесполезной работы и в отношении качества то-же, у меня есть предложение, хотя уже это предлагали, но попробую среферировать:1)Все сканы делать в разрешении 600dpi.2)Закрепить номера журналов и работу с ними (сканирование, сканирование+обработка) за участниками.3)Закрепить участников и выполняемую ими работу в шапке темы.4)Редактировать шапку по мере необходимости.
Цитата: ДимСаныч от 28.12.2011 [08:57:14]Дабы не получалось накладок и в целях исключения бесполезной работы и в отношении качества то-же, у меня есть предложение, хотя уже это предлагали, но попробую среферировать:1)Все сканы делать в разрешении 600dpi.2)Закрепить номера журналов и работу с ними (сканирование, сканирование+обработка) за участниками.3)Закрепить участников и выполняемую ими работу в шапке темы.4)Редактировать шапку по мере необходимости.По поводу 600 dpi. Сравнил скорость сканирования одной страницы журнала в 300 и 600 dpi в ч/б режиме 16 bit -,вышло 19 и 46 с-долговато.Может лучше в 300 dpi,а потом интерполяцией увеличивать до 600dpi.Многие программы позволяют это.Думаю информация при таком подходе не потеряется. Вот пример http://webfiles.ru/27856940