Статистическая информация: сбор, обработка, анализ

За всю историю статистики были предприняты различные попытки создать таксономию уровней измерения. Психофизик Стэнли Смит Стивенс определил номинальные, порядковые, интервальные и пропорциональные шкалы.

Номинальные измерения не имеют значимого порядка рангов среди значений и допускают любое однозначное преобразование.

Обычные измерения имеют неточные различия между последовательными значениями, но имеют определенный порядок этих значений и допускают любое сохраняющее порядок преобразование.

Интервальные измерения имеют значимые расстояния между пунктами, но нулевое значение является произвольным (как в случае замеров долготы и температуры в градусах Цельсия или Фаренгейта) и допускает любое линейное преобразование.

Измерения отношения имеют как значимое нулевое значение, так и расстояния между различными измерениями, кроме того, допускают любое преобразование масштабирования.

Переменные и классификация информации

Поскольку переменные, соответствующие только номинальным или порядковым измерениям, не могут быть разумно измерены численно, иногда они группируются как категориальные переменные. Измерения же отношения и интервала группируются в качестве количественных переменных, которые могут быть либо дискретными, либо непрерывными из-за их числового характера. Такие различия часто бывают слабо соотнесены с типом данных в компьютерной науке, поскольку дихотомические категориальные переменные могут быть представлены булевыми значениями, политомными категориальными переменными с произвольно определенными целыми числами в интегральном типе данных и непрерывными переменными с реальными компонентами, которые включают вычисление с плавающей запятой. Но отображение типов данных статистической информации зависит от того, какая классификация применяется.

Другие классификации

Были созданы также и другие классификации статистических данных (информации). Например, Мостеллер и Тьюки различали оценки, ранги, подсчитанные доли, подсчеты, суммы и балансы. Нелдер в свое время описал непрерывные подсчеты, непрерывные соотношения, соотнесение подсчетов и категориальные способы передачи данных. Все эти методы классификации применяются при сборе статистической информации.

Проблематика

Вопрос о том, уместно ли применять различные виды статистических методов к данным, полученным с помощью разных процедур измерения (сбора), осложняется проблемами, касающимися преобразования переменных и точной интерпретации вопросов исследования. «Связь между данными и тем, что они описывают, просто отражает тот факт, что определенные виды статистических утверждений могут иметь значения истинности, которые не являются инвариантными при некоторых преобразованиях. То, является ли преобразование целесообразным для размышления, зависит от вопроса, на который вы пытаетесь ответить.

Что такое тип данных

Тип данных является фундаментальным компонентом семантического содержимого переменной и контролирует, какие виды вероятностных распределений могут логически использоваться для описания переменной, допустимых операций над ней, типа регрессионного анализа, используемого для ее прогнозирования, и т. д. Концепция типа данных похожа на концепцию уровня измерения, но более конкретна - например, для подсчета данных требуется другое распределение (Пуассона или биномиальное), чем для неотрицательных реальных значений, но оба подпадают под тот же уровень измерения (шкала коэффициентов).

Шкалы

Были предприняты различные попытки создать таксономию уровней измерения для обработки статистической информации. Психофизик Стэнли Смит Стивенс определил номинальные, порядковые, интервальные и пропорциональные шкалы. Номинальные измерения не имеют значимого порядка рангов среди значений и допускают любое однозначное преобразование. Обычные измерения имеют неточные различия между последовательными значениями, но отличаются значимым порядком этих значений и допускают любое сохраняющее порядок преобразование. Интервальные измерения имеют значимые расстояния между измерениями, но нулевое значение является произвольным (как в случае замеров долготы и температуры в градусах Цельсия или Фаренгейта) и допускает любое линейное преобразование. Измерения отношения имеют как значимое нулевое значение, так и расстояния между различными определенными измерениями и допускают любое преобразование масштабирования.

Данные, которые не могут быть описаны с использованием одного числа, часто включаются в случайные векторы вещественных случайных величин, хотя существует растущая тенденция обрабатывать их самостоятельно. Таковые примеры будут рассмотрены ниже.

Случайные векторы

Отдельные элементы могут или не могут быть коррелированы. Примерами распределений, используемых для описания коррелированных случайных векторов, являются многомерное нормальное распределение и многомерное t-распределение. В общем, могут быть произвольные корреляции между любыми элементами, однако это часто становится неуправляемым выше определенного размера, что требует дополнительных ограничений на коррелированные компоненты.

Случайные матрицы

Случайные матрицы могут быть расположены линейно и рассматриваться как случайные векторы, однако это не может быть эффективным способом представления корреляций между различными элементами. Некоторые вероятностные распределения специально предназначены для случайных матриц, например, матрица нормального распределения и распределение Вишарта.

Случайные последовательности

Иногда они считаются такими же, как случайные векторы, но в других вариантах термин применяется конкретно к случаям, когда каждая случайная переменная коррелирует только с близлежащими переменными (как в модели Маркова). Это частный случай байесовской сети и используется для очень длинных последовательностей, например, генные цепочки или длинные текстовые документы. Ряд моделей специально разработан для таких последовательностей, например, скрытые марковские.

Случайные процессы

Они аналогичны случайным последовательностям, но лишь тогда, когда длина последовательности неопределенна или бесконечна, а элементы в последовательности обрабатываются один за другим. Это часто используется для данных, которые могут быть описаны как временные ряды. Это актуально, когда речь идет, например, о цене акций на следующий день.

Заключение

Анализ статистической информации целиком и полностью зависит от качества ее собирания. Последнее, в свою очередь, сильно связано с возможностями ее классификации. Видов классификации статистической информации, разумеется, существует немало, в чем читатель мог убедиться самостоятельно при ознакомлении с этой статьей. Тем не менее наличие эффективного инструментария и хорошее владение математикой, а также познания в области социологии сделают свое дело, позволив провести любой опрос или исследование без существенных поправок на погрешность. Источники статистической информации в виде людей, организаций и других субъектов социологии, к счастью, представлены в большом изобилии. И никакие трудности не могут быть помехой для настоящего исследователя.

Сордес Блэкфорд 12 декабря, 2018

Комментарии

Мама, родившая абсолютно идентичных тройняшек, показала, как они выросли (фото)

Беки-Джо Аллен известие о том, что она будет скоро мамой еще троих детей, повергло буквально в шок. Но большим сюрпризом оказалось то, что у двадцатит...

Что ваш мизинец говорит о вашей личности и характере?

Хотите узнать больше о себе и своем характере? Тогда просто взгляните на мизинец. Оказывается, его длина может рассказать больше, чем любой психологич...

Сестры-тройняшки, родившиеся в 1977 году, сделали тест ДНК

Очаровательные сестры-близнецы, известные на весь мир, сделали ДНК-тест. Результаты шокировали женщин и окружение сестер....

Генеалогия

Сила макияжа: 78-летняя пенсионерка превращается в настоящую красавицу. Фото

Совместимы ли пожилой возраст и макияж? Мать знаменитого визажиста на собственном примере доказывает, что совместим. Она красится на протяжении многих...

Косметика

Собчак вернулась в Россию и рассказала, что ждет уехавших в Израиль артистов

Несмотря на слухи об эмиграции, телеведущая и журналистка Ксения Собчак все же вернулась в Россию. Себя она позиционирует как патриот. В новом выпуске...

Знаменитости

9 знаменитых евреек отечественного кино и шоу-бизнеса, красота которых бесспорна

Многие еврейки отличаются привлекательной внешностью. В СМИ время от времени публикуются рейтинги самых красивых представительниц этой национальности....

Знаменитости

Как выглядела певица Наргиз без тату и пирсинга? Ольга Кормухина поделилась фото, на котором певице всего 16 лет

Как выглядела певица Наргиз без тату и пирсинга? Этот вопрос интересует многих, и данная статья позволяет любопытным получить ответ на него....

Знаменитости

Почему русские боялись попадать в плен к хантам и манси

Покорение русскими сибирских земель далось нелегко. Практически все народы в той или иной степени оказывали жесточайшее сопротивление. Однако никто из...

Алана Томпсон: быстрый путь медовой девочки от любимицы нации до посмешища

Эта малышка ворвалась, как неистовый ураган, в сердца всех американцев. До нее победительницами детских конкурсов становились очаровательные худенькие...

Окружающая среда

В 2008 году в Баку похоронили Муслима Магомаева: как сейчас выглядит его могила и белоснежный мраморный памятник (фото)

В 2008 году мир покинул великий певец Муслим Магомаев, песнями которого наслаждались миллионы жителей Советского Союза и люди, живущие далеко за его п...

Знаменитости

Честность, трудолюбие: 10 качеств хорошего отца

Современные отцы должны обладать некоторыми важными чертами характера, чтобы вырастить детей успешными и счастливыми....

Отцовство

Так вот ты какая, дочь Ихтиандра! Ирина Коренева унаследовала такие же красивые глаза, как у отца (фото)

Большинство отечественных телезрителей запомнили его по роли Ихтиандра из фильма «Человек-амфибия». Детство Владимира Коренева прошло в Севастополе, г...

Знаменитости