обычно мы не знаем истинную функцию распределения СВ, но из опыта мы получаем эмпирическую функцию распределения. Чем больше объем выборки, тем точнее эмпир распределени отражает истинное распределение
истинная функция распределения
вероятность попадания СВ в любой промежуток на прямой
что можно найти с помощью функции распределения
реальная и гипотетическая (нельзя выделить, например концентрации)
2 типа генеральной совокупности в статистике
тобы сделать заключение о генеральной совокупности
для чего нужна выборка
точечная (одно значение) и интервальная оценка
2 типа оценки статистического параметра
извлечение выборки
как называется отбор выборки из генеральной совокупности
если извлекать из ген совокупности множество выборок, то параметры выборок будут немного отличаться. Это отклонение среднего выборки от среднего ген совокупности. Не зная среднего ген совокуп ошибку посчитать нельзя. Чем больше выборка тем меньше ошибка
что такое ошибка выборки
для 200 5-6%, для 600 - 4 %, чем больше выборка, тем меньше ошибка
какая ошибка выборки для выборки 200 и 600 значений?
как бы не были распределены значения СВ в генеральной совокупности, средние значения выборок из ген совокупности распределеяются нормально
что следует из центральной предельной теоремы
визуально с помощью графика рассеяния. Выброс отбрасывают не автоматически, а обязательно анализируют причины появления этих выбросов.
как оценивают наличие выбросов при корреляционном анализе
принимается по умолчанию. Гласит, что между величинами нет связи (зависимости). Если мы опровергаем гипотезу, значит связь есть. По принципу презумпции невиновности. Мы не должны докахывать, что связь есть. Мы долдны опровергнуть гипотезу о том, что связи нет.
обьясни нулевую гипотезу
КД это квадрат коэф корреляции. Разность (100 – r2) представляет собой процент дисперсии, который нельзя объяснить регрессией.
как находят коэф детерминации в регрессионном анализе
такое значение в выборке, справа и слева от которого находится равное количество наблюдений. значения в выборке при этом должны быть упорядочены. Среднее значение выборки - ср.арифм, но самая высокая вероятность получить СВ - равна значению медианы.
медиана?
20% сотрудников выполняют 80% работы (эмпирическое наблюдение)
принцип Парето
характеризует ассиметрию распределения СВ относительно симметричного (колоколообразного, нормального распределения, где КА = 0). Если КА положителен, то правый хвост длинее левого, если КА отрицателен, то левый хвост длиннее правого
коэффициент ассиметрии
характеризует остроту пика распределения СВ. Если КЭ около 0, то пик соотвтетсвует нормальному распределению, если больше 0, то пик острее нормального. Если КЭ меньше 0, то пик более гладкий, чем у нормального распределения.
коэффициент эксцесса
результаты стат анализа позволяют предоставить очень сложную объёмную исходную информацию в виде одного, двух чисел. для того чтобы сделать вывод по огромному колву Исх данных.
для чего нужен стат анализ?
какая вероятность того, что это просто совпадение
что показывает p уровень значимости?
т.е. не являются случайными
что такое статистически значимые различия?
корреляционный анализ устанавливает связь между переменными, но не объясняет причину связи
что показывает корреляционный анализ переменных?
статистике часто приходится работать с теми данными которые есть, а не с теми которые хотелось бы иметь
почему результат не идеален? почему бы не проанализировать другое?
какова вероятность получить соответствующее значение СВ соотвтетсвующей медиане (50%) квартилю 25, процентилю (1%). Так же показывает процент значений СВ ниже/выше значения (медианы, кварт и процент)
что показывает медиана, квартиль, перцентиль?
позволяет сравнить полученные результаты и сделать вывод (например измеренную концентрацию с ПДК). Абсолютные результаты позволяют планировать (например, какое кол-во еды нужно запланировать, если знаем кол-во населения)
почему относительная статистика в научных исследованиях лучше?
среднее квадратическое отклонение это корень из дисперсии. среднеквадратическое отклонение измеряется в тех же единицах что и случайная величина, а дисперсия в квадратах этой величины.
отличие дисперсии от среднеквадратического отклонения
стандартное отклонение
второе название среднеквадратического отклонения
действует только для нормального распределения. сигма это среднеквадратическое отклонение. 99% значений случайной величины лежат в пределах 3 среднеквадратических отклонений. 95% две сигмы. 68% одна сигма.
правило трёх сигм
это мат описание какого либо объекта или процесса
что такое мат модель?
био модели менее точные, потому что биологические системы более сложные и менее изучены
отличие физических и биологических мат моделей?
вероятностная модель. информация в модели представлена случайными величинами и описывается через законы распределения вероятностей
что такое стохастическая модель?
детерминированные описываются функциями и стохастические описывается через законы распределения вероятностей
2 вида мат моделей?
чем больше факторов учитывает модель тем больше коэффициентов она содержит, если коэффициент недостаточно хорошо обоснован, то модель становится менее точной
чем больше факторов учитывает модель тем она менее точная, почему?
зависимость переменной у от переменных х. при условии, что выражение имеет статистическую значимость. одному и тому же значению х могут соответствовать различные значения у.
регрессионный анализ
если статистически значимо значит вероятность того что это случайно мала.
статистическая значимость
дисперсионный анализ
что такое ANOVA
признак по которому оценивают что либо на соответствие требованиям
критерии?
допустимая вероятность отклонить Но когда на самом деле она верна
что такое уровень значимости р?
больше оснований отклонить нулевую гипотезу
чем меньше р значение тем....
отношение числа исходов связанных с этим событием к общему числу исходов
классическое определение вероятности события
необходимо увеличить выборку. возможно тогда р будет 0,05
что нужно сделать если уровень значимости чуть больше 0,05 ?