ВНИМАНИЕ! На форуме началось голосование в конкурсе "Астрофотография месяца - МАЙ"
0 Пользователей и 2 Гостей просматривают эту тему.
Временный архив журнала "Земля и Вселенная" На Народе.ру проект временный. Архив журнала "Земля и Вселенная" в стадии создания. В настоящее время сканировано не так много номеров, но работа продолжается. Проект архива некоммерческий, создается на безвозмездной основе.
Ура! Молодцы! Думаю, без особых потерь для редакции можно выкладывать журналы года эдак до 2008 го. Думаю за 3 года все кто хотели купить уже купили
Цитата: doomster1 от 29.05.2011 [17:53:22]Ура! Молодцы! Думаю, без особых потерь для редакции можно выкладывать журналы года эдак до 2008 го. Думаю за 3 года все кто хотели купить уже купили Архив будет до 1999 года включительно. Еще предстоит большая работа по созданию полного архива журнала. Номера после 2000 года в этом году сканировать не планируется. Доступен для скачивания №2 1965 года.
Кто-то выкладывал ссылки на ЗиВ за 1984 год...
Доступен для скачивания №4 1965 года.
Вот тут ещё посмотрите,чтобы двойную работу не делать http://rutracker.org/forum/viewtopic.php?t=3511383
Качество: PDF - OCR с ошибками (600dpi) / DjVu - Отсканированные страницы (600 dpi)...02.pdf 51.04 MB.......01.djvu 4.45 MB
В настоящее время сканировано не так много номеров, но работа продолжается. Проект архива некоммерческий, создается на безвозмездной основе.
Огромные недостатки: * тут .pdf слишком большой размер файла * тут .djvu противен, портят качество рисунков, особенно рисунков с текстами в них, да "грязно" * ошибки встречаются в номерах, не только орфографические, но и просят вас читать исправленные, то есть поправки * невозможность копировать статьи * невозможность выполнять поиск слов или словосочетаний
Доступен для скачивания №3 1988 года.Файл в той же папке "1965".
Цитата: noiro от 13.08.2011 [23:07:40]Доступен для скачивания №3 1988 года.Файл в той же папке "1965". Спасибо! А нельзя ли для затравки что-то более свежее - 2010 или, (боюсь сказать вслух) - 2011... ?
Цитата: Маринер-9 от 15.08.2011 [18:28:11] Спасибо! А нельзя ли для затравки что-то более свежее - 2010 или, (боюсь сказать вслух) - 2011... ?Похоже нельзя,без согласования будут проблемы с авторскими правами.
Спасибо! А нельзя ли для затравки что-то более свежее - 2010 или, (боюсь сказать вслух) - 2011... ?
А хотелось бы узнать, чем вызван скачок в сканах от 66 к 88 году?
Доступен для скачивания №5 1966 года.Файл в той же папке "1965".
Цитата: noiro от 28.07.2011 [18:58:04]Доступен для скачивания №5 1966 года.Файл в той же папке "1965".По логике напрашивается №6 1966 года и следующие по порядку, а тут получается чисто "по-русски" - не доделав одно дело, перепрыгнули на другое. Не знаю, в чем причина, но... жаль.
Доступен для скачивания №6 1966 года.Файл в той же папке "1965".
А вот malshin в РуТрекер.орг выложил свои файлы в .djvu и .pdf без обработки, но в 6-м номере за 1966 у него нет таких вкладок, как в картинке внизу!В моем файле есть.
а конца 90-х есть?)
Временный архив журнала "Земля и Вселенная" останется до конца января 2012 года. В нем пополнения уже не будет. Открыт официальный архив журнала! Для его просмотра войдите по ссылке Астро Архива ПРАО АКЦ ФИАН: http://astro-archive.prao.ru/books/books.php Далее, в разделе "Выбор книг по жанрам" выбрать: "Архивы журнала "Земля и Вселенная". Уже можно ознакомиться с архивами журнала 1965 года. Со временем сделаем архив полным. Нам предстоит еще очень много сделать.
Может, скоординировать усилия? У кого какие номера сканов есть (чтобы не было "зряшной" работы), кто собирается сканировать и какие номера. А также требования к сканам.
Хорошо. Как только буду по свободнее, сделаю. Куда присылать сканы?
Сканы 1984 г. в сети уже есть.
Кто мешает переконвертировать их в ПДФ?
В архиве можно сделать две ссылки для скачивания: в формате pdf и в формате djvu. Я думаю, что лучше делать в формате pdf, но будут желающие видеть формат djvu. Думаю этот вопрос не столь принципиален. Будут два формата сделаны, значит будут две ссылки для скачивания.
Цитата: noiro от 24.12.2011 [14:40:48]В архиве можно сделать две ссылки для скачивания: в формате pdf и в формате djvu. Я думаю, что лучше делать в формате pdf, но будут желающие видеть формат djvu. Думаю этот вопрос не столь принципиален. Будут два формата сделаны, значит будут две ссылки для скачивания.Могу свои djvu http://rutracker.org/forum/viewtopic.php?t=3629354 в pdf сконвертировать.
качество моих сканов - 600дпи, пдф с текстовым слоем (без вычитки).
А подложку из под текстового слоя, кстати, насколько сложно убрать?..
Так всётаки в каком качестве сканировать? Я для меньшего объёма уже один журнал прогнал на 150 dpi. Теперь мне кажется что всё нужно будет прогонять по новой на более высоком качестве. Вопрос - каком? Другой вопрос - делать распознавание кто будет? Или мне этим то-же нужно затяться? У меня есть Файнридер, но пользовался я им по стольку, по скольку. Я, честно говоря, думал что простого сканирования будет достаточно.
Цитировать (выделенное)А подложку из под текстового слоя, кстати, насколько сложно убрать?..Я не специалист в обработке изображений, распознавание производил исключительно для возможности поиска в отсканированных номерах, что вы имеете в виду под подложкой? Отсканированный фон (желтизна)? Если да, то изначально я сканирую без него (с удалением фона, настройки сканера позволяют), сканы получаются чистые. Также возможно удалять фон впоследствии в фотошопе.
Если будет необходимость, могу поделиться своей методикой сканирования.
Цитата: ДимСаныч от 25.12.2011 [09:55:00]Так всётаки в каком качестве сканировать? Я для меньшего объёма уже один журнал прогнал на 150 dpi. Теперь мне кажется что всё нужно будет прогонять по новой на более высоком качестве. Вопрос - каком? Другой вопрос - делать распознавание кто будет? Или мне этим то-же нужно затяться? У меня есть Файнридер, но пользовался я им по стольку, по скольку. Я, честно говоря, думал что простого сканирования будет достаточно. Спецы рекомендуют сканировать с разрешением 300 дпи в градациях серого (greyscale).
Никак не отвечу Iskandar. Александр, конечно же, я помню, что именно - Вы первопроходец сканирования материалов ЗиВ. Если не ошибаюсь, вот это Вы еще году так в 2003 или 05 примерно сделали?
Понял, спасибо! А то как-то встречался со сканами (pdf-формат) - OSR-текст на ужасном сером фоне, ближе к сгибам - аж темно сером. Как бороться - непонятно...
Да, это было бы очень полезно для всех , в порядке обмена и сохранения опыта. А то вот Олега так и не удосужились спросить, как он делает, и его наработки пропали...
Спецы рекомендуют сканировать с разрешением 300 дпи в градациях серого (greyscale).
Я так понимаю, это текст? Рисунки, имхо, можно и немного побольше dpi взять, и, главное - там надо, конечно, уже и цвета брать (там, где они цветные, разумеется). Мой личный опыт - имхо, 400 dpi - все же самое оптимальное для подавляющего большинства случаев. Больше - вряд ли нужно (на рисунках уже лезет сетка, и шрифты труднее распознаются).
действительно, для черно-белых фотографий оптимальными параметрами будут 300 dpi в градации серого (Greyscale), правда, фотографии в этом случае надо сканировать отдельно от текста, а сам текст - в черно-белом варианте, иначе получается слишком большой объём.
если бы пришлось и текст сканировать в градации серого, то конечный файл разбух бы до неимоверных размеров.
Цитировать (выделенное)Понял, спасибо! А то как-то встречался со сканами (pdf-формат) - OSR-текст на ужасном сером фоне, ближе к сгибам - аж темно сером. Как бороться - непонятно...Ну это засветка от неплотно прижатого корешка, с ней достаточно легко бороться как на уровне настроек сканеров, так и впоследствии (в фотошопе, например). А серый фон и загрязнения также можно убирать сразу в настройках сканера как при сканировании в полутонах (регулируя яркость и контрастность), так и в монохромном режиме (подбирая порог черно-белого). Если не помогает (что-то остается), то дочищать потом следы в фотошопе.
Для современных (малобюджетных и дешевых в том числе) сканеров уже совершенно безразлично (по затратам времени) сканировать ли на 400дпи или на 600дпи в серых полутонах или в монохроме (я молчу про потоковые двухсторонние сканеры, тем вообще по барабану даже полноцветные на 600дпи), но по моему мнению лучше все-таки сканировать на 600дпи (особенно научные книги и журналы, там часто многоэтажные формулы есть, надстрочные и подстрочные мелкие знаки и сноски, тоже самое касается и всяких цветных диаграмм и графиков). Насчет сетки - это у вас просто не подавлен растр в сканах (это можно сделать в настройках сканера или впоследствии в фотошопе гауссовым размытием). И чем выше разрешение, тем лучше и распознавание, а не наоборот (как вы указали).
Конечно объем пдф получается приличный, но его можно неплохо (часто в два-три и более раза) уменьшить, используя OCR, удаление фона, очистку отсканированного в серых полутонах текста режимом Clearscan ...
Ой-ой. Опять же - нужна куча времени... Вопрос в том у меня и заключается - как выдернуть и убрать вообще серую положку из под текста, не тронув только рисунке. Т.е. - там где рисунки - оставляем как есть, а там, где сканированный начальный текст ПЛЮС слой OSR-текста - как оставить ТОЛЬКО слой OSR-текста, совсем, т.е. абсолютно уничтожив подложку?
Так вот я и спрашиваю - как его удалить? Идея такая - есть масса готовых ранних сканов всяко-разных книг - вот взять их, распознать в них внутри текст, добавить OSR-слой с текстом, и уничтожить после этого подложку.
Насчет распознавания-разрешения - может, мой опыт устарел (последний раз работал с превращение скана в текст года два назад), но - вроде как существовала некая золотая середина - на слишком высоком разрешении текст тоже уже не во всех ситуациях распознавался (крупные подписи). Насчет плохого распознавания низкого разрешения - конечно, да.
насколько я понял, номера Олега, царства ему небесного, для сообщества утрачены?
Другое дело, что у него в работе находился еще ряд номеров - вот они - да, можно считать, что утрачены.
Цитировать (выделенное)Другое дело, что у него в работе находился еще ряд номеров - вот они - да, можно считать, что утрачены.Т.е. утрачены не только недоделанные им номера, но и сам бумажный архив тоже? Было бы жаль, он ведь писал, что у него полный архив (т.е. и все номера после 1999 года).
Ну, по этому поводу я особого беспокойства не испытываю - у нас в библиотеке обсерватории вроде как все номера за последние годы есть...
Дабы не получалось накладок и в целях исключения бесполезной работы и в отношении качества то-же, у меня есть предложение, хотя уже это предлагали, но попробую среферировать:1)Все сканы делать в разрешении 600dpi.2)Закрепить номера журналов и работу с ними (сканирование, сканирование+обработка) за участниками.3)Закрепить участников и выполняемую ими работу в шапке темы.4)Редактировать шапку по мере необходимости.
Цитата: ДимСаныч от 28.12.2011 [08:57:14]Дабы не получалось накладок и в целях исключения бесполезной работы и в отношении качества то-же, у меня есть предложение, хотя уже это предлагали, но попробую среферировать:1)Все сканы делать в разрешении 600dpi.2)Закрепить номера журналов и работу с ними (сканирование, сканирование+обработка) за участниками.3)Закрепить участников и выполняемую ими работу в шапке темы.4)Редактировать шапку по мере необходимости.По поводу 600 dpi. Сравнил скорость сканирования одной страницы журнала в 300 и 600 dpi в ч/б режиме 16 bit -,вышло 19 и 46 с-долговато.Может лучше в 300 dpi,а потом интерполяцией увеличивать до 600dpi.Многие программы позволяют это.Думаю информация при таком подходе не потеряется. Вот пример http://webfiles.ru/27856940
По поводу 600 dpi. Сравнил скорость сканирования одной страницы журнала в 300 и 600 dpi в ч/б режиме 16 bit - вышло 19 и 46с - долговато.
Может лучше в 300 dpi, а потом интерполяцией увеличивать до 600dpi. Многие программы позволяют это.
Думаю что 300 хватит, но утверждать не берусь, сталкивался мало. Главное наверно распознать текст, а фото, особенно в старых журналах, не высокого качества.
Время сканирования не казённое
....- Почему никто из вас (да и мало кто из сканировщиков, в том числе и профи) не задумывается о будущих читателях отсканированных вами журналов и книг? То, что устраивало всех раньше (потому что были сильные ограничения по интернету, дисковым объемам и пр.), многих с трудом устраивает сейчас, а завтра устраивать не будет никого совсем ... поэтому я всегда за максимальное качество и соответственно против, в таком проекте участвовать не намерен. Цитировать (выделенное)Время сканирования не казённоеА у кого есть казенное время на сканирование? Да почти что ни у кого, все используем личное время, вместо отдыха.
У вас устаревший сканер. Два года назад я купил себе бюджетный кэнон и не парюсь. Если нет денежных средств, почему бы не купить дешево подержанный, но относительно новый и быстрый?
Интерполяция практически не улучшает качество скана (сейчас хлебаю по полной с обработкой чужих сканов на 300дпи).
- Кроме фото и текста есть еще и диаграммы/таблицы/рисунки с мелкими значками, на которых как раз 300дпи мало, достаточно посмотреть на номера Олега, которые сделаны на 300дпи ...
А Вы посчитайте количество желающих помочь, и подумайте стоит ли им кидать предъявы
2)Закрепить номера журналов и работу с ними (сканирование, сканирование+обработка) за участниками.3)Закрепить участников и выполняемую ими работу в шапке темы.
только некоторые модели действительно быстро сканируют(стоит 3500р),остальные примерно также как у мен
А улучшать там нечего
и если весь архив будет в таком качестве,я уверен 99% читателей это устроит.
К такому результату нужно стремиться!
Очень интересно, как товарищ собирается улучшать к примеру скан на странице 5 по последней ссылке (комету Галлея)? Видимо 600 точек дадут нам еще сведения о текстуре бумаги.
Попробуйте улучшить хотя бы второе издание Сикорука плиз, век благодарен буду!
Если же нужно почистить уже имеющийся плохой скан этого издания - то могу попробовать.
Хорошая инструкция для сканировшиков http://rutracker.org/forum/viewtopic.php?t=2556964
молодец! а норот как обычно, поговорил и забыл)
исключив повторы и отобрав лучшее, указывая, кто именно сканировал конкретный номер.
Цитировать (выделенное)исключив повторы и отобрав лучшее, указывая, кто именно сканировал конкретный номер.То, что выложено сейчас в архиве ПРАО за 67(с №3) по 76- качеством убито нафиг, так что слова о отборе лучшего - полная фикция, и тоже самое можно сказать об исключении повторов и чистом плагиате сканов ...