Форум 3DNews

Форум 3DNews (http://forum.3dnews.ru/index.php)
-   Общие проблемы (http://forum.3dnews.ru/forumdisplay.php?f=5)
-   -   создание электронного архива (http://forum.3dnews.ru/showthread.php?t=55948)

NaimaD 02.03.2006 18:02

создание электронного архива
 
Не знал, куда постить, посему пишу сюда...

В общем... Начальство поставило задачу: подумать, как можно организовать создание электронного архива имеющихся документов (думаю где-то около миллиона (а то и больше) страниц печатного текста).

Вот я теперь как Иванушка сижу и горючи слёзы лью: поди туда, не знаю куда, принеси то, не знаю что... :(

Есть ли какой-нить, может, софт который помог бы сортировать такое количество документов?

Или, на крайняк, какая-нить компания, которая могла бы заняться подобной архивацией?

Или толпа фрилансеров...?

Может хоть кто-то какую-то идею подкинет? Вообще любое предложение? Я даже не знаю, с какой стороны взяться....

Чувствую себя идиотом :rolleyes:

Vanya 02.03.2006 18:14

А что с ними делать надо?
Сканировать-распознавать?
сортировать по имени, дате содержимому?
Или базу из них делать?

Хоть примерно..

Vanya добавил :

Если по минимуму, поиск по содержимому doc и подобных файлв, подойдет "Персональный поиск яндекс"
Это локальный движок яндекса

NaimaD 02.03.2006 22:10

Цитата:

Сообщение от Vanya
А что с ними делать надо?

Надо создать электронные копии всех документов (просто скан, можно без распознавания), вместе с подписями, печатями итд итп...

Цитата:

Сообщение от Vanya
сортировать по имени, дате содержимому?

Скорее, по типу документа, принадлежности к тому или иному клиенту... В том-то и загвоздка - это скорее ручная работа :(

Цитата:

Сообщение от Vanya
Если по минимуму, поиск по содержимому doc и подобных файлв, подойдет "Персональный поиск яндекс"
Это локальный движок яндекса

Ну, нет, не совсем то, я думаю...

Вот, нашёл такую штуку: http://www.elar.ru/. Тогда остаётся другая проблема: как и где всё это чудо хранить? Тот же Элар на выставке Инфосекьюрити 2005, помнится, представлял систему архива, построенную на куче ДВДшек-RW. А как бэкапить всё это? Объём там должен получиться весьма приличный (думаю, выходной формат будет PDF).
К тому же, пока нет возможности перегонять большое кол-во инфы на удалённый сайт, потому что офис подключен на 128к :(

Vanya 03.03.2006 09:36

NaimaD
Цитата:

Сообщение от NaimaD
Надо создать электронные копии всех документов (просто скан, можно без распознавания), вместе с подписями, печатями итд итп...

Фирм не знаю, но есть рульные сканеры с автоподачей документов.
Переиздавали книгу, 2 тома 450 страниц. Вот ее разрезали и в этом сканере отсканировали-распознали за два неполных рабочих дня
Сканер HP ScanJet 7450. Это если сканировать на месте.
А так можно студентам поручить - пусть сканют :gigi:
Прикинуть цифры - ~10 страниц в минуту = 1700 часов - 210 человекодней
7 человек за месяц сделают.

Стоимость скана у меня в институте (в ларьке) от 2 до 5 рублей

Цитата:

Сообщение от NaimaD
Скорее, по типу документа, принадлежности к тому или иному клиенту

Это хорошо бы сделать организационно - до сканирования разобрать по кучкам

Цитата:

Сообщение от NaimaD
как и где всё это чудо хранить?

винты рулят.
Если прикинуть - 1 файл- 1 мег.
976 гиг
207 DVD :fie:
Четыре винта по 250 гиг imho лучше.
бэкап на стриммер

И еще пока ты ничего не испортил ;) поправлю. Если сканируешь и оставляешь изображением, ни в коем случае не запихивай в pdf. Оставляй как есть, (tif, jpg с высоким качеством и т.п.) pdf - больше для вектрного текста нужен. Если только растр :fie:

Еще. Если будешь оставлять растр - обращайся до сканирования, расскажу основы атоматической чистки большого количества файлов :hi:

NaimaD 03.03.2006 10:10

Цитата:

Сообщение от Vanya
Сканер HP ScanJet 7450

Стоит 5590. Но объём не тот, чтобы так это всё сканировать... Вообще, смешно получилось.

-Посмотри нам сканер побыстрее
-То есть??
-Ну, чтобы сканировал побыстрее, чем этот
-А зачем?
-Хотим наш архив отсканировать
-:wow:

Цитата:

Сообщение от Vanya
Это хорошо бы сделать организационно - до сканирования разобрать по кучкам

Ну, безусловно... Естесственно, что всё уже разбито по папкам, наверное похожая структура и останется...

Цитата:

Сообщение от Vanya
винты рулят.
Если прикинуть - 1 файл- 1 мег.
976 гиг
207 DVD
Четыре винта по 250 гиг imho лучше.
бэкап на стриммер

Ну, винты-то рулят...
А вот с бэкапом, извини, не понимаю: я свои 72 ГБ не могу на стриммер впихнуть (36 ГБ максимум на касету влезает), а сколько же мне кассет-то понадобится? И сколько времени займёт одно копирование, если 36 ГБ пишутся около трёх часов? Может, посоветуете что-нибудь, а то я по стриммерам не спец :red:

Цитата:

Сообщение от Vanya
Если сканируешь и оставляешь изображением, ни в коем случае не запихивай в pdf. Оставляй как есть, (tif, jpg с высоким качеством и т.п.) pdf - больше для вектрного текста нужен.

Да, я прекрасно себе представляю разницу между вектором и растром, как, впрочем, и между ТИФом, ДЖПЕГом и ПДФом :) С ПДФом юзерам работать удобнее, можно устанавливать параметры безопасности (типа запрета на печать) и он не сильно большой по размеру получается (при хорошем качестве). Так что лучше пусть будет ПДФ... :)

Цитата:

Сообщение от Vanya
основы атоматической чистки большого количества файлов

Хммм, а поподробнее?

Vanya 03.03.2006 10:27

Цитата:

Сообщение от NaimaD
Стоит 5590. Но объём не тот, чтобы так это всё сканировать... Вообще, смешно получилось.

http://xcom-shop.ru/files/4330578ba15309.25039759
второй с автоподатчиком. Емкость страниц 50. 10 страниц в минуту
Есть и быстрее, вроде


Цитата:

Сообщение от NaimaD
основы атоматической чистки большого количества файлов

В кратце - все сканируется с одинаковыми настройками
Потом в Photoshop делается action чистки (levels, curves, color, resolution, file format, save)
А потом ЭТО делается через Photoshop batch со всеми файлами.

Конечно кто-то предложит "делать все в автомате, типа сканер сам все настроит" но лично мне это не нравится :fie:

NaimaD 03.03.2006 10:42

Цитата:

Сообщение от Vanya
второй с автоподатчиком. Емкость страниц 50. 10 страниц в минуту
Есть и быстрее, вроде

Да, он от нашего не сильно отличается. На 5590 тоже стоит автоподатчик точно такой же :)
У того же Элара промышленные сканнеры, до 180 стр/мин... Да и не покупать же ещё 6 сканнеров, чтобы "7 человек за месяц управились" :)

Vanya 03.03.2006 10:50

NaimaD
Вторая часть похоже про тебя :mlol:
http://www.korova.ru/humor/viewer.php?id=3170&types=t

Vanya добавил :

PS 5590 я думал это цена ;)

Lamo 03.03.2006 10:58

NaimaD
жестко это тебя :rolleyes:
Цитата:

Чувствую себя идиотом
в такой ситуации и не только ты

NaimaD 03.03.2006 11:29

Цитата:

Сообщение от Vanya
Вторая часть похоже про тебя

:mlol: :gigi: :lol: Супер :)

Цитата:

Сообщение от Lamo
в такой ситуации и не только ты

Ну, я понимаю... Но что делать-то? :)


Кстати, Lamo, может подскажешь, как бэкапить такой объём данных? Сколько максимум на стриммеры влезает (с учётом возможности использования многозарядных стриммеров)?

Lamo 03.03.2006 11:32

NaimaD
Цитата:

может подскажешь, как бэкапить такой объём данных?
для начала вопрос - насколько часто это делать нужно?

NaimaD 03.03.2006 11:37

Цитата:

Сообщение от Lamo
для начала вопрос - насколько часто это делать нужно?

Я думаю, что должно хватить одного полного и еженедельного дифференциального каждый месяц. Может быть, даже чуть реже - документы не очень часто добавляются.

Lamo 03.03.2006 14:14

NaimaD
Вообще-то каждый тип документов имеет свой срок архивного хранения,
тут все в _организацию_ этого дела упирается, а не в бэкап.
Полный бэкап - раз в квартал по самое нехочу,
Объем... вот будет ли конечный документ хоть немного сжиматься?
Цитата:

Сообщение от NaimaD
Сколько максимум на стриммеры влезает (с учётом возможности использования многозарядных стриммеров)?

много :)
http://desc.allshops.ru/514/5147673.html
http://www.it-legion.ru/index.php?productID=31048

нравятся мне эти РУКОводители -
бзданут, воздух испортят, а задыхаются другие

NaimaD 03.03.2006 15:40

Цитата:

Сообщение от Lamo
каждый тип документов имеет свой срок архивного хранения

Ну, это-то да. По истечение срока давности и потери актуальности, думаю, документ будет просто переноситься перманентно на диск какой-нить...

Цитата:

Сообщение от Lamo
Полный бэкап - раз в квартал по самое нехочу

Согласен, в принципе...

Цитата:

Сообщение от Lamo
Объем... вот будет ли конечный документ хоть немного сжиматься?

Если будет ПДФ, то вряд ли больше, чем на 5% - внутри будет не текст, а картинки.

Цитата:

Сообщение от Lamo
много

Ага. Только вот они точно стоят как чугунный мост через атлантику :) Впрочем, это не мои проблемы.

Цитата:

Сообщение от Lamo
нравятся мне эти РУКОводители -
бзданут, воздух испортят, а задыхаются другие

А что, бывает иначе? :)

LeXiy 04.03.2006 03:10

Со стримерами не сталкивался, но мне кажется винтов с зеркалированием пока будет достаточно. С ростом архива докупать винты или большего размера взамен старых. А бакапить на другой комп. Так проще для тебя. А это должно быть главным для тебя в такой ситуации. Начальство ставит задачу - ты выбираешь путь наиболее легкий или наиболее интересный для тебя. А уж вопрос денег пусть заботит начальство. Есть деньги - будешь реализовывать, нет - докажи, что иначе ни как нельзя. Так будет проще тебе.

NaimaD 04.03.2006 15:03

Цитата:

Сообщение от LeXiy
Со стримерами не сталкивался, но мне кажется винтов с зеркалированием пока будет достаточно. С ростом архива докупать винты или большего размера взамен старых. А бакапить на другой комп. Так проще для тебя. А это должно быть главным для тебя в такой ситуации. Начальство ставит задачу - ты выбираешь путь наиболее легкий или наиболее интересный для тебя. А уж вопрос денег пусть заботит начальство. Есть деньги - будешь реализовывать, нет - докажи, что иначе ни как нельзя. Так будет проще тебе.

Нет. Смысл в том, что должен быть бэкап на переносной носитель - чтобы можно было сделать копию и унести её из офиса, а в случае какого-нибудь катаклизма (скажем, серверная сгорела) восстановить все данные. Я не зря сказал, что нет возможности перегонять инфу через интернет - канал тонкий.
Да и в любом случае, если местом основного хранения будет выбран сервер с HDD, то там будет РЭЙД5, иначе бессмысленно всё это делать.

LeXiy 05.03.2006 03:04

NaimaD Полностью согласен.

astarodubcev 08.08.2006 14:23

Вот, есть еще такая компания: http://www.alee-archive.ru, которая
занимается подобной архивацией. Поставляет и программное обеспечение, и оборудование для хранения (Raid), и сканирует (http://www.scandocs.ru).

falc 09.08.2006 15:02

У меня студент работал в конторе, которая профессионально занимается переводом документов в электронный вид. ИМХО в данном случае заключить договор с подобной фирмой - самый правильный выход.


Текущее время: 03:24. Часовой пояс GMT +3.

Powered by vBulletin® Version 3.8.4
Copyright ©2000 - 2020, Jelsoft Enterprises Ltd. Перевод: zCarot