Статистическая информация: сбор, обработка, анализ

За всю историю статистики были предприняты различные попытки создать таксономию уровней измерения. Психофизик Стэнли Смит Стивенс определил номинальные, порядковые, интервальные и пропорциональные шкалы.

Номинальные измерения не имеют значимого порядка рангов среди значений и допускают любое однозначное преобразование.

Обычные измерения имеют неточные различия между последовательными значениями, но имеют определенный порядок этих значений и допускают любое сохраняющее порядок преобразование.

Интервальные измерения имеют значимые расстояния между пунктами, но нулевое значение является произвольным (как в случае замеров долготы и температуры в градусах Цельсия или Фаренгейта) и допускает любое линейное преобразование.

Измерения отношения имеют как значимое нулевое значение, так и расстояния между различными измерениями, кроме того, допускают любое преобразование масштабирования.

Переменные и классификация информации

Поскольку переменные, соответствующие только номинальным или порядковым измерениям, не могут быть разумно измерены численно, иногда они группируются как категориальные переменные. Измерения же отношения и интервала группируются в качестве количественных переменных, которые могут быть либо дискретными, либо непрерывными из-за их числового характера. Такие различия часто бывают слабо соотнесены с типом данных в компьютерной науке, поскольку дихотомические категориальные переменные могут быть представлены булевыми значениями, политомными категориальными переменными с произвольно определенными целыми числами в интегральном типе данных и непрерывными переменными с реальными компонентами, которые включают вычисление с плавающей запятой. Но отображение типов данных статистической информации зависит от того, какая классификация применяется.

Другие классификации

Были созданы также и другие классификации статистических данных (информации). Например, Мостеллер и Тьюки различали оценки, ранги, подсчитанные доли, подсчеты, суммы и балансы. Нелдер в свое время описал непрерывные подсчеты, непрерывные соотношения, соотнесение подсчетов и категориальные способы передачи данных. Все эти методы классификации применяются при сборе статистической информации.

Проблематика

Вопрос о том, уместно ли применять различные виды статистических методов к данным, полученным с помощью разных процедур измерения (сбора), осложняется проблемами, касающимися преобразования переменных и точной интерпретации вопросов исследования. «Связь между данными и тем, что они описывают, просто отражает тот факт, что определенные виды статистических утверждений могут иметь значения истинности, которые не являются инвариантными при некоторых преобразованиях. То, является ли преобразование целесообразным для размышления, зависит от вопроса, на который вы пытаетесь ответить.

Что такое тип данных

Тип данных является фундаментальным компонентом семантического содержимого переменной и контролирует, какие виды вероятностных распределений могут логически использоваться для описания переменной, допустимых операций над ней, типа регрессионного анализа, используемого для ее прогнозирования, и т. д. Концепция типа данных похожа на концепцию уровня измерения, но более конкретна - например, для подсчета данных требуется другое распределение (Пуассона или биномиальное), чем для неотрицательных реальных значений, но оба подпадают под тот же уровень измерения (шкала коэффициентов).

Шкалы

Были предприняты различные попытки создать таксономию уровней измерения для обработки статистической информации. Психофизик Стэнли Смит Стивенс определил номинальные, порядковые, интервальные и пропорциональные шкалы. Номинальные измерения не имеют значимого порядка рангов среди значений и допускают любое однозначное преобразование. Обычные измерения имеют неточные различия между последовательными значениями, но отличаются значимым порядком этих значений и допускают любое сохраняющее порядок преобразование. Интервальные измерения имеют значимые расстояния между измерениями, но нулевое значение является произвольным (как в случае замеров долготы и температуры в градусах Цельсия или Фаренгейта) и допускает любое линейное преобразование. Измерения отношения имеют как значимое нулевое значение, так и расстояния между различными определенными измерениями и допускают любое преобразование масштабирования.

Данные, которые не могут быть описаны с использованием одного числа, часто включаются в случайные векторы вещественных случайных величин, хотя существует растущая тенденция обрабатывать их самостоятельно. Таковые примеры будут рассмотрены ниже.

Случайные векторы

Отдельные элементы могут или не могут быть коррелированы. Примерами распределений, используемых для описания коррелированных случайных векторов, являются многомерное нормальное распределение и многомерное t-распределение. В общем, могут быть произвольные корреляции между любыми элементами, однако это часто становится неуправляемым выше определенного размера, что требует дополнительных ограничений на коррелированные компоненты.

Случайные матрицы

Случайные матрицы могут быть расположены линейно и рассматриваться как случайные векторы, однако это не может быть эффективным способом представления корреляций между различными элементами. Некоторые вероятностные распределения специально предназначены для случайных матриц, например, матрица нормального распределения и распределение Вишарта.

Случайные последовательности

Иногда они считаются такими же, как случайные векторы, но в других вариантах термин применяется конкретно к случаям, когда каждая случайная переменная коррелирует только с близлежащими переменными (как в модели Маркова). Это частный случай байесовской сети и используется для очень длинных последовательностей, например, генные цепочки или длинные текстовые документы. Ряд моделей специально разработан для таких последовательностей, например, скрытые марковские.

Случайные процессы

Они аналогичны случайным последовательностям, но лишь тогда, когда длина последовательности неопределенна или бесконечна, а элементы в последовательности обрабатываются один за другим. Это часто используется для данных, которые могут быть описаны как временные ряды. Это актуально, когда речь идет, например, о цене акций на следующий день.

Заключение

Анализ статистической информации целиком и полностью зависит от качества ее собирания. Последнее, в свою очередь, сильно связано с возможностями ее классификации. Видов классификации статистической информации, разумеется, существует немало, в чем читатель мог убедиться самостоятельно при ознакомлении с этой статьей. Тем не менее наличие эффективного инструментария и хорошее владение математикой, а также познания в области социологии сделают свое дело, позволив провести любой опрос или исследование без существенных поправок на погрешность. Источники статистической информации в виде людей, организаций и других субъектов социологии, к счастью, представлены в большом изобилии. И никакие трудности не могут быть помехой для настоящего исследователя.

Комментарии