МИНОА. Часть 6

О том, где можно грамотно «складировать» собранную ранее информацию

 

Серия статей о методах изыскания, накопления, обработки и анализа информации (МИНОА):
МИНОА. Часть 1 — Какие задачи накопления и анализа информации стоят в том числе перед биржевиками и каким образом они могут решаться
МИНОА. Часть 2 — Популярные, маргинальные, народные источники информации и технические средства для ее получения
МИНОА. Часть 3 — Поиск эксклюзива с помощью Google
МИНОА. Часть 4 — Венец поискового интерфейса: Quintura
МИНОА. Часть 5 — О том, как получить доступ к бездонному кладезю информации при помощи нескольких несложных команд
МИНОА. Часть 6 — О том, где можно грамотно «складировать» собранную ранее информацию

Сегодня знаменательное событие, почти что путевка в жизнь — дата-майнинг. Мы завершили изучение технологий сбора данных и переходим к ответственному моменту — накоплению плодов наших изысканий. Не будет преувеличением сказать, что этот — второй — этап алгоритма МИНОА является едва ли не самым важным в методологическом отношении. Стоит неправильно выбрать «контейнер» для наших информационных наработок, как все последующие усилия по превращению чужого контента в собственный оригинальный материал пойдут коту под хвост.

Открыл, прочитал и забыл…

Призываю читателей отнестись к сказанному со всей серьезностью. Всем, кому кажется, что я преувеличиваю формальный аспект дата-майнинг, предлагаю для осмысления следующий пример. Предположим, мы собрали солидный информационный массив по некой обширной теме, по которой нам предстоит подготовить аналитический отчет для правления компании. Мы складировали его в неправильном месте: скажем, просто покидали на жесткий диск в какую-то директорию файлы самого разнообразного формата — .pdf, .html, .doc, .txt, .rtf (перечисляю наиболее часто встречающиеся в интернете).

Будем считать, что на этом этап накопления данных завершился. Что делать дальше? Очевидно — изучать материалы. Здесь накладок быть не должно: документ — он и есть документ, независимо от формата — открыл, прочитал, запомнил…

Ой ли? Так уж прямо и запомнил? Поверьте умудренному в данном вопросе человеку, которому приходится ежедневно перемалывать тонны самой разнообразной информации: ничего вы никогда не запомните! Даже если обладаете феноменальной памятью. Потому что дело тут не в памяти, а в технологии дата-майнинг. В частности, в интенсивности процесса. Одно дело — читать детективный роман на протяжении недели, а потом с легкостью пересказывать захватывающий сюжет приятелю. Совсем другое — постоянно, на потоке перелопачивать никак между собой не связанные килобиты информационного шлака. Сегодня — одна тема, через три дня — другая, через неделю — третья. Можно не сомневаться, что через месяц весь этот селевый поток превратится в аморфную бессодержательную массу.

Самое неприятное — данные мало переварить, еще нужно каким-то образом извлечь из информационного мусора ценные зерна, которые затем будут использоваться в работе. Как это сделать? В ситуации, когда вы просто свалили собранный материал в кучу на жестком диске (пусть даже в отдельную директорию), фиаско гарантировано. Потому что вы никогда:

1) не вспомните, где и в каком файле вы наткнулись глазами на те самые ценные зерна;

2) не вспомните частности, нюансы и детали, особенно если они связаны с именами собственными — населенными пунктами, фамилиями, названиями компаний и т. п.

Предвижу возражение: «В чем проблема-то? По ходу изучения сведений мы просто делаем заметки, выписываем нужные имена, фиксируем собственные оригинальные мысли и идеи». Все перечисленное, безусловно, входит в джентльменский набор дата-майнера: без заметок никуда, и об этом у нас еще будет возможность поговорить. Однако любая из них предполагает и обратное движение — к факту для уточнения деталей.

Пример: вы изучали компанию Mattel, крупнейшего в мире производителя детских игрушек, и в процессе чтения материалов сделали пометку: «Скандалы с использованием детского труда на китайских фабриках компании!» Через какое-то время вы садитесь за составление отчета и пытаетесь найти документ, в котором содержались подробности «маттеловского рабства». Как вы собираетесь выуживать это из 150 различных файлов, собранных по теме и сваленных в кучу на жестком диске? А теперь усложним ситуацию: через три года после работы над информацией о компании вы изучаете феномен «китайского экономического чуда» и решаете, что было бы неплохо использовать столь фактурный материал, как рабский труд на производстве. Вы смутно помните, что нечто подобное проскальзывало в контексте Mattel. Только как эту фактуру извлечь на свет божий через… когда вообще все давно забылось?2

 

 

Фавориты и аутсайдеры

Короче говоря, вы уже догадались, что решение проблем, связанных со структурированием собранной информации, упирается в правильный «контейнер» для ее хранения. Файлы на диске — это худший способ. Так какой вариант будет лучшим?

В этом случае необходимо использовать компьютерную программу, которая умеет:

1) структурировать данные;

2) создавать информационную базу данных;

3) индексировать созданную базу данных.

Как вы понимаете, выдвинутые требования предполагают превращение пассивного хранилища («контейнера») сведений в активный информационный архив. Забегая вперед, скажу, что все существующие сегодня решения для платформ Windows и Mac OS X выглядят неудовлетворительными, поскольку дают крен в сторону как раз пассивного хранилища со скудными поисковыми возможностями. По этой причине в работе нам постоянно придется дополнять подобные любительские «контейнеры» профессиональными программами для создания реляционных баз данных и их индексации.

О базах и индексах мы поговорим в следующих статьях, пока же остановимся на лучших решениях для непосредственного хранения материалов.

Как я уже сказал, информационных «контейнеров» много — особенно для Windows — один другого хуже: WebPicker, NetNotes, CyberArticle, NetCollector, Inquery, WebResearch, Evernote. Mac OS X тоже не отстает: Together, EagleFiler, тот же самый Evernote. Хочу предупредить читателей о вреде последней: конек Evernote — именно кросс-платформность. Программу можно использовать как на декстопе (Windows, Mac OS X), так и для мобильных решений — iOS (iPhone), Android. Проблема, однако, в том, что по достижению определенной критической массы — у меня цифра составила 4 тыс. документов, собранных в информационном архиве, — она становится практически неуправляемой. Изначально ущербная архитектура базы данных заставляет относительно большие архивы в прямом смысле слова еле ползать и тормозить даже на сверхбыстром современном компьютере.

Особо печально то обстоятельство, что об этом концептуальном изъяне на сайте разработчика нет ни слова, а мне бы не хотелось, чтобы читатели повторили мой горький опыт: пришлось ликвидировать базу Evernote и мучительно переносить все, крупицу за крупицей, в альтернативный архив, после того как за год скопилось изрядное количество материала. Лучше уж сразу делать правильный выбор.

Практически все программы из категории информационных архивов я тестировал в разное время, а затем делился впечатлениями с читателями на страницах «Компьютерры» в своей регулярной колонке «Голубятня». Достаточно «погуглить», чтобы найти нужную ссылку на интересующий вас вариант, поэтому не будем тратить времени на копание в аутсайдерах. Сразу перейдем к фаворитам.

Таковых два, причем оба идут со значительным отрывом от конкурентов:

1) лучший информационный контейнер для Windows — программа WebResearch (бывший ContentSaver) немца Мартина Коппманна;

2)  лучший информационный контейнер для Mac OS X — EagleFiler американской компании C-Command Software.

 

 

EagleFiler

О WebResearch я писал очень много в «Компьютерре», поэтому за деталями функциональности программы отсылаю читателей к серии статей на эту тему3. Универсальные же преимущества хорошего информационного архива мы разберем сегодня на примере EagleFiler, который последний год служит мне верой и правдой после счастливой эмиграции на Mac OS X.

Внешний вид любого информационного архива стандартен. В левой части главного окна вы видите древовидную структуру собранных документов, которая полностью настраивается пользователем под личные нужды: любое число папок, подпапок и т. п. В верхнем правом окне — список документов, хранящихся в выбранном разделе архива, в нижнем правом — содержание документа. Как правило, хороший информационный архив понимает все популярные текстовые форматы — .doc, .rtf, .html и .pdf. В качестве премии можно рассматривать специальные форматы для чтения (.epub, .fb2, .pdb) и почтовые — .mbox, .eml. С ними работают и EagleFiler, и WebResearch.

Обилие форматов, однако, не столь важная фича, как правильная структура базы данных, в которой информационный архив содержит собранные документы. От нее зависят два ключевых момента: удобство доступа и скорость поиска. Скажем, EagleFiler использует универсальную базу SQL (в варианте Core Data из Cocoa API), позволяющую хранить материалы в самостоятельных файлах и папках на жестком диске, зеркально отражающих их распределение в вашем иерархическом дереве. Удобство такого решения трудно переоценить — особенно при миграции на другую программу или даже платформу. Вопросы безопасности не должны беспокоить пользователя: несмотря на открытую структуру баз данных в EagleFiler, они при желании легко шифруются с использованием надежных алгоритмов AES-128 либо AES-256.

Такая прозрачная структура идеально решает и вторую главную задачу информационных архивов — поиск. Поскольку встроенная в программу поисковая система полностью индексирует собранную базу, он осуществляется молниеносно. Маленькая и приятная мелочь — подсветка полученных результатов, которая в разы повышает эффективность работы, однако по непонятной причине очень часто игнорируется создателями софта.

Каков алгоритм использования информационных архивов? Все очень просто: в самом процессе сбора материалов мы сохраняем документы не непосредственно на жесткий диск (в ту или иную директорию), а в архив WebResearch или EagleFiler. Делается это просто: работая в браузере, мы используем либо специальную комбинацию клавиш, либо плагин программы для этого браузера (поддерживаются MSIE, Firefox и Safari), либо самостоятельное окошко-приемник (так называемый Drop Pad), в который мышкой перетаскиваем всю страницу или только выделенную ее часть.

Практическая рекомендация: заполняя входные данные пересылаемых документов, обязательно прописывайте смысловые и тематические теги, а также короткие сопроводительные заметки, которые впоследствии окажут неоценимую помощь при поиске.

Вот, собственно, и вся наука грамотного «складирования» информации в дата-майнинг. В дальнейшем мы научимся использовать поисковые возможности информационных архивов и более продвинутых программ — глобальных индексных поисковых систем — для эффективного перевода собранных данных из пассивного состояния в творческий актив.

1 Начало серии статей о методах изыскания, накопления, обработки и анализа информации (МИНОА) см. в D №22 от 29 ноября 2010 года.

2 Читатель уже догадался, что я использую примеры из личной практики: вот эти статьи, написанные для «Бизнес-журнала» — «Принцесса-шмель» о Mattel (www.sgolub.ru/protograf/printsessa-shmel) и «Убить дракона» о китайском чуде (www.sgolub.ru/protograf/ubit-drakona).

3 Статьи можно почитать здесь:

sgolub.ru/protograf/vozvrashchenie-porosyachego-vostorga-chast-i

sgolub.ru/protograf/vozvrashchenie-porosyachego-vostorga-chast-ii

sgolub.ru/protograf/finita-porosyachego-vostorga.

Автор: Сергей Голубицкий, опубликовано в журнале D’ (D-Штрих) №8 от 26 апреля 2011

 

Метки текущей записи:

 
Статья прочитана 2903 раз(a).
 

Статьи из рубрики:

  • МИНОА. Часть 4...

    У Google имеется несколько надстроек, облегчающих поиск информации в...

  • Лови момент...

    О секретах богатства, финансовых коучах, мошенниках и Бодо Шефере

  • МИНОА. Часть 5...

    О том, как получить доступ к бездонному кладезю информации при помощи...

 

комментария 2

  1. Зачем давать ссылки на страницы с запрещенным доступом?
    sgolub.ru/protograf/vozvrashchenie-porosyachego-vostorga-chast-i
    sgolub.ru/protograf/vozvrashchenie-porosyachego-vostorga-chast-ii
    sgolub.ru/protograf/finita-porosyachego-vostorga

  2. Видимо на сайте Голубицкого нет этих статей, я так понимаю.
    Вот правильные ссылки:
    «Финита поросячьего восторга» offline.computerra.ru/2005/613/237990/
    «Возвращение поросячьего восторга» offline.computerra.ru/2005/612/237081/

Здесь вы можете написать отзыв

This blog is kept spam free by WP-SpamFree.

Архивы

Коллеги

Читать Algoritmus

Контакты