Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
книги хакеры / DAMA_DMBOK_Свод_знаний_по_управлению_данными.pdf
Скачиваний:
18
Добавлен:
19.04.2024
Размер:
13.88 Mб
Скачать

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

5.3 Организационные и культурные изменения

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-x cha

 

 

 

 

Бизнесмены — это по определению люди, полностью занятые делом, а потому нужно как-то заставить их осознать пользу, которую способна принести их делу продвинутая статистиче ская аналитика. Непонимание вполне успешно устраняет грамотно поставленная программа информационно-разъяснительной работы с целевой аудиторией. Центр компетенций, к при меру, может предлагать тренинги, распространять стартовые наборы, разрабатывать образцо вые стандарты практики и рекомендации по их применению, полезные советы по изысканию источников данных и хитрые приемы их подключения, да и просто делать массу всего полезного с точки зрения доказательства полезности решений или предъявления бизнес-пользовате лям наглядных свидетельств богатства возможностей, которые открывает постепенный пере ход на модель самообслуживания. В дополнение к управлению знаниями такой центр способен выполнять и функции информационно-коммуникационного центра, обеспечивающего непре рывность взаимодействия между разработчиками, конструкторами, аналитиками и сообще ствами потребителей данных.

Как и в случае DW/BI, реализация среды больших данных требует согласованных усилий специалистов различных профилей. В частности, в проекте должны принимать участие следую щие лица.

Архитектор платформы больших данных: подбор и конфигурирование аппаратного обеспе чения, операционных систем, файловых систем, служб и т. п.

Архитектор загрузки данных: анализ данных, системы записей, моделирование, карты пре образования данных и т. п. Также может отвечать за сопоставление источников кластерам Hadoop с целью обработки запросов и анализа.

Специалист по метаданным: интерфейсы, архитектура и контент метаданных

Ведущий аналитик: выбор или разработка аналитических средств для конечных пользовате лей, реализация новейших методологических рекомендаций в связанных наборах инструмен тов, оптимизация доступа конечных пользователей к результатам обработки данных.

Специалист в области науки о данных: снабжение всех вышеперечисленных специалистов необходимыми сведениями о теории, методологии и практике статистического анализа, а так же содействие в разработке необходимых средств прикладных вычислений и технических приложений.

6. РУКОВОДСТВО В ОБЛАСТИ БОЛЬШИХ ДАННЫХ И НАУКИ О ДАННЫХ

Большие данные, как и любые другие, требуют обеспечения надлежащего руководства. Изыска ние и анализ источников, поглощение и усвоение, обогащение и публикация — все эти процессы требуют, помимо технического контроля, еще и механизмов контроля со стороны бизнеса, в част ности с целью решения вопросов следующего характера.

662

Г Л А В А 14

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

Изыскание источников. Что и когда искать? Как выбрать наилучший источник данных для конкретного исследования?

Совместное использование. Какие соглашения и договоры о совместном доступе к данным, распространении результатов, обмене данными и т. п. нужно заключить и на каких условиях, включая внутриорганизационные договоренности и контракты со сторонними поставщика ми, клиентами и партнерами?

Метаданные. Как трактуется смысл и значение различных данных там, откуда они поступа ют? Как обеспечить правильную интерпретацию результатов получателями?

Обогащение. Нуждаются ли данные в обогащении? Какими методами? Какую пользу прине сет обогащение данных?

Доступ. Какие из результатов публиковать? Кому и когда открывать к ним доступ? Как регу лировать порядок доступа?

Для грамотного решения вопросов, касающихся оборота данных и обращения с данными, требу ется целостное представление о данных, имеющихся в распоряжении предприятия.

6.1 Управление каналами визуализации

Важнейший фактор успеха реализации программы статистических исследований — правиль ный выбор средств визуализации, которые должны максимально соответствовать потребностям пользовательского сообщества. В зависимости от размера и характера организации возможно использование самых разнообразных средств визуального отображения данных в различных про цессах. Важно всякий раз убеждаться, что используемые средства визуализации не слишком пе реусложнены и соответствуют уровню понимания целевой группы пользователей. Высокообра зованные продвинутые пользователи будут со временем становиться всё требовательнее в своих запросах к сложным визуальным представлениям. Скоординированный подход к проектиро ванию архитектуры данных предприятия, управлению портфелем информационных ресурсов и техническому сопровождению систем — необходимое условие надлежащего контроля каналов визуализации как внутри портфеля, так и внешних. Не забывайте, что любая смена поставщиков данных, провайдеров контента или критериев выбора отображаемой информации с большой ве роятностью приводит к изменению набора и структуры элементов, доступных для визуального просмотра ниже по потоку, и может потребовать перенастройки средств визуализации с целью восстановления их эффективной работы.

6.2 Наука о данных и стандарты визуализации

Передовой практикой сегодня считается создание экспертного сообщества для определения и публикации стандартов визуализации, руководств по их применению и спецификаций арте фактов, производимых при использовании различных методов выдачи визуального контента. Особую важность соблюдение стандартов визуализации имеет в тех случаях, когда контент адре сован клиентам или строго регламентирован. Стандарты визуализации могут регулировать:

Большие данные и наука о данных

663

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

выбор программных средств в зависимости от аналитической парадигмы, сообщества поль зователей или предметной области;

порядок и сроки запросов новых данных и/или обновлений;

технологические процессы обработки наборов данных различных типов;

процедурные правила и нормы нейтрального и объективного представления экспертных заключений во избежание привнесения искажений в результаты или их предвзятой интер претации; соблюдение всех методологических требований, предъявляемых к статистическим исследованиям, включая:

объективность критериев формирования выборок, включения и исключения точек/эле ментов данных;

формулировку гипотез, проверяемых моделями;

статистическую достоверность и значимость результатов;

обоснованность и корректность интерпретации результатов;

применимость и уместность использованных методов.

6.3 Безопасность данных

Наличие надежного процесса обеспечения информационной безопасности и защиты данных само по себе является ценнейшим ресурсом в активе организации. Для больших данных, как и для любых других, должны устанавливаться правила обращения, защиты и контроля доступа, дополненные средствами мониторинга их соблюдения. Особое внимание должно уделяться вос препятствованию злоупотреблениям персональными данными и обеспечению их защищенности на протяжении всего жизненного цикла.

Проработайте уровни доступа к данным авторизованных сотрудников и пользователей. Уров ни доступа к данным, получаемым по подписке, должны соответствовать соглашениям с провай дерами. Настройте службы данных раздельно по профилям сообществ пользователей, с тем что бы можно было ограничивать выдачу конфиденциальных и иных данных лишь сообществами, имеющими право обрабатывать эти данные с целью освоения; в выдачах остальным категориям данные должны быть скрыты. Часто организации определяют и прямые запретительные правила (например, блокируют возможность запросов данных по фамилиям, адресам или номерам теле фонов). Для защиты строго конфиденциальных или персональных идентификационных данных (номеров ID-документов, кредитных карт и т. п.) используются шифрование или обфускация. При необходимости может быть выбран метод шифрования, при котором сохраняются соотно шения значений, но не сами значения, что позволяет пользователям выявлять статистические закономерности без доступа к фактическим данным.

Рекомбинацией называют возможность реконструкции или восстановления исходных персо нальных идентификационных или конфиденциальных данных. Такой риск нужно учитывать при обеспечении ИБ и защиты не только «обычных», но и больших данных. В частности, результаты анализа могут нарушать неприкосновенность личной информации, даже если до начала анали за было невозможно определить, к кому относится каждый отдельно взятый элемент данных.

664

Г Л А В А 14

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

Во избежание подобных и иных недоразумений, приводящих к нарушениям в сфере информа ционной безопасности и защиты данных, критически важно получать четкое понимание резуль татов обработки еще на уровне управления метаданными. А для этого требуется знание назначе ния и задач использования или анализа данных, а также распределение ролей исполнителей этих задач. Отдельным доверенным лицам может быть санкционирован доступ к незашифрованным данным подобного рода в режиме чтения, но лишь по крайней служебной необходимости, далеко не всем и уж точно не с целью углубленного анализа (см. главы 2 и 7).

6.4 Метаданные

В рамках инициативы по сбору и исследованию больших данных организация формирует об щий набор данных, созданный с использованием различных подходов и стандартов. Интегра ция столь разнородных данных — задача крайне трудная. Без метаданных, описывающих каж дый набор, на успешное использование всей совокупности данных рассчитывать не приходится. Управление метаданными должно вестись тщательнейшим образом, начиная со стадии освоения данных. Сообществу пользователей нужно предоставить инструменты, позволяющие создавать и вести главный список наборов данных, в котором каждому набору должны соответствовать метаданные, характеризующие структуру, содержание и качество данных, включая первоисточ ник и происхождение данных; определения и назначения объектов и элементов данных. Техниче ские метаданные можно собирать с помощью разнообразных инструментальных средств работы с большими данными, включая слои хранения, инструменты интеграции, управления основными данными, а иногда и получать прямо из файловых систем — источников данных. Следует так же сопоставить и оценить плюсы и минусы обработки входящих данных с целью определения метаданных в потоковом режиме или в статике, а также определить, не требуются ли какие-то дополнительные вычисляемые элементы данных, необходимые для поддержки возможности от слеживания происхождения данных до первоисточника.

6.5 Качество данных

Под качеством данных понимается мера их соответствия ожиданиям: чем меньше отклонение, тем выше степень соответствия данных ожиданиям и, как следствие, качество данных. В высоко технологичных средах стандарты качества, по идее, должны определяться достаточно просто (хотя на практике приходится наблюдать немало организаций, где они усложнены, и еще боль ше организаций, вовсе не занимающихся определением стандартов качества данных). Находятся и скептики, ставящие под сомнение и целесообразность, и саму возможность управления каче ством больших данных. Здравый смысл, однако, подсказывает, что управлять качеством больших данных можно и нужно. Достоверная аналитика немыслима на основе недостоверных данных. В проектах, предусматривающих сбор и анализ больших данных, судить о качестве вводных на вскидку действительно невозможно, но именно поэтому и требуются особые усилия по оценке качества источников, иначе никакой уверенности в том, что результаты анализа соответствуют действительности, не будет. Для этого можно провести первичную экспертизу набора данных из

Большие данные и наука о данных

665