07.12.2020-11.12.2020
Дистанцiйна освiта з iнформатики
в перiод грудень 2020 року.
Тема: Обробка та візуалізація статистик
засобами табличного процесора MS Excel.
Вид роботи: практична робота в Інтернеті.
Теоретична
робота.
Мультимедійна інформація для теоретичної
роботи
Відео-урок 1. Описова статистика аналізу
даних
В
уроці розбирається як провести просту статистичну обробку даних в Excel за
допомогою надбудови "Аналіз даних". Як приклад розглядається елемент
"Описова статистика". Всі уроки по Excel поспіль (плейлист)http:
//www.youtube.com/playlist? list = ...
Відео-урок
3.
Текстова інформація для теоретичної
роботи
Статистичні методи можуть бути використані
для отримання відповідей на кшталт:
- Якого
типу дані і в якій кількості потрібно зібрати?
- Як
варто організувати та узагальнити дані?
- Як
ми можемо проаналізувати дані та дійти висновків?
- Як
ми можемо оцінити силу висновків та оцінити їхню непевність?
Перше питання ми дещо розглянули в першому
розділі, коли говорили про збирання даних. Про організацію та структурування даних
ми говорили в другому розділі. У цьому розділі йтиметься переважно про
узагальнення та аналіз даних.
Види шкал та змінних
Ми вже говорили про типи даних в першому
розділі, але для цілей статистичного аналізу варто дати означення основних
типів змінних (та типів шкал) — від цього залежить, які математичні операції
можна робити з різними змінними для статистичного аналізу.
Змінна — будь-яка характеристика об’єкта,
що вимірюється чи досліджується. Змінна може набувати різних значень для різних
об’єктів. Виділяють такі типи шкал:
Номінальна.
Категорійна змінна,
значення якої не можуть бути впорядковані – наприклад ім’я людини («Якби вибори
Президента України відбулися у найближчу неділю, за кого б Ви проголосували?»)
або стать.
Єдина операція, яку можна застосовувати до змінних з номінальною
шкалою — це перелік, підрахунок частоти появи того чи іншого значення в масиві.
Порядкова.
Змінна, значення якої за
означенням впорядковані (наприклад «слабо», «помірно», «сильно»). Прикладом
порядкової змінної в соціологічному опитування буде питання типу: «Наскільки ви
довіряєте самому собі?» — з варіантами відповіді «Зовсім не довіряю», «Скоріше
не довіряю, ніж довіряю», «Важко сказати довіряю чи ні», «Скоріше довіряю ніж
не довіряю», «Цілком довіряю». Або ж значення в полі «Освіта» (неповна середня,
середня, середня спеціальна, незакінчена вища, вища, вчений ступінь).
Значення такої змінної можна порівнювати на тотожність, на
«більше-менше», але при цьому не можна сказати наскільки більше
чи менше.
Метричні шкали:
Інтервальна.
Значення змінної
впорядковані як в порядковій шкалі, але при цьому відмінності між значеннями є
змістовними — наприклад, температура за Цельсієм, часові інтервали, тощо.
Допустимі операції — додавання та віднімання, але не множення чи
ділення.
Шкали відношень
Шкала вимірювань
кількісної властивості, змінні мають всі властивості, що й інтервальні, але
також мають «природню» нульову точку «відліку» — наприклад вік, вага,
температура за Кельвіном.
Додавання, віднімання, множення, ділення — є змістовними
операціями.
Також змінні розділяють на дискретні та
неперервні. Так, кількість дітей у якійсь родині, кількість автомобільних
аварій на певній території, або кількість людей, що прочитали цей текст за
останній місяць — це результат простого підрахунку випадків настання певного
явища, і тому є значеннями дискретних змінних. Дискретною є змінна, значеннями
якої можуть бути лише цілі числа.
А неперервні змінні — такі як довжина,
вага, температура, вік — можуть бути виміряні достатньо точно, і не мають мінімальної
неподільної одиниці виміру. Вага може бути виміряна з точністю до грама, а може
— й до мікрограма, а вік — з точністю до днів, годин, хвилин, секунд.
У невеликих масивах даних ми можемо знайти
принаймні мінімальне та максимальне значення, побачити, наскільки повторюються
значення або наскільки багато значень є близькими один до одного. Для цього
досить відсортувати масив даних в електронній таблиці за певною колонкою
(змінною) — впорядкувати масив за певною ознакою. Але коли масиви даних надто
великі, потрібно застосовувати інші методи для стиснення інформації, отримання
розуміння про характеристики масиву.
Описова статистика
Найпростішими способами статистичного
аналізу є описові статистики, які, як видно з назви, на найпростішому рівні
кількісно описують або підсумовують масив даних.
Описова статистика вказує: 1)розмах вибірки даних;
2)середнє арифметичне вибріки даних;
Максимальне значення; мінімальне значення;
Одновимірний
розподіл
Одновимірний розподіл — дозволяє
підсумувати частоту, з якою різні значення певної змінної спостерігаються в
наборі даних. Наприклад, ми маємо набір даних, у якому представлено 26 дітей
віком від 1 до 6 років. Тоді частотний розподіл змінної «вік» може виглядати у
таблиці наступним чином:
Вік |
1 |
2 |
3 |
4 |
5 |
6 |
Частота |
5 |
3 |
7 |
5 |
4 |
2 |
Звісно, коли у нас змінні інтервальні, і
значень їх дуже багато, доцільно розбити на певні інтервали, об’єднати значення
змінних за певними категоріями:
Вікова
група |
1–2 |
3–4 |
5—6 |
Частота |
8 |
12 |
6 |
Можна також побачити частоту того чи іншого
значення у вигляді частки чи відсотка від усіх спостережень. У таблиці нижче
представлено частотний розподіл та відносний частотний розподіл.
Оцінка студентів |
Частота |
Відносна частота |
0
– 25 |
2 |
0,13 |
26
– 50 |
5 |
0.31 |
51
– 75 |
4 |
0.25 |
76
– 100 |
5 |
0.31 |
Разом |
16 |
1,00 |
Як видно з таблиці, підсумок відносної
частоти в у кожній з категорій дорівнює 1 — або 100% — оскільки включає в себе
всі спостереження.
Одновимірний розподіл може бути
реалізований щодо якісних та кількісних змінних, дискретних та неперервних, для
відкритих та закритих категорій (так, «відкритою» категорією буде «люди старші
60 років», або «дохід нижче 3000 грн»). Ми можемо класифікувати дані за
кількісними характеристиками — такими як вікові групи, зарплата, рівень доходу,
тощо; можемо також класифікувати за якісними характеристиками — такими як
стать, професія, національність, тощо.
Приклад — частотний
розподіл кількісних дискретних даних з відкритою категорією |
||
Рівень доходу, грн |
Частота |
Відносна частота |
0
– 5000 |
15 |
0,30 |
5000
– 10000 |
25 |
0,50 |
10000
– |
10 |
0,20 |
Разом |
50 |
1,00 |
Приклад — частотний
розподіл даних номінальної шкали виміру |
||
Стать |
Частота |
Відносна частота |
Чоловіки |
20 |
0,40 |
Жінки |
30 |
0,60 |
Разом |
50 |
1,00 |
Двовимірний розподіл або
крос-табуляція
Ще одним способом узагальнення даних в таблиці
є двовимірний розподіл — «крос-табуляція». По суті, це таблиця, що представляє
дані, зіставляючи дві окремі характеристики (змінні) — по колонкам і рядкам.
Так, в колонках — різні значення (чи групи значень, категорії) однієї змінної,
а в рядках — значення іншої змінної.
У попередньому розділі, де йшлося про
структурування даних, ми розглядали як приклад таблицю з даними Держстату — як
приклад погано структурованих даних.
Область |
2012 |
2013 |
2014 |
Вінницька |
35441 |
37323 |
39184 |
Волинська |
19546 |
20609 |
21971 |
Дніпропетровська |
95349 |
99995 |
109545 |
Донецька |
128767 |
135362 |
114135 |
Важливо розуміти, що з точки зору
грамотного і охайного структурування даних — до початку аналізу — в наборі
даних (в таблиці) всі змінні мають бути в колонках, всі спостереження в рядках,
а на їх перетині — значення змінних для спостережень.
Практична
робота
Завдання 1. Обрахувати середнє, моду, медіану для
статистичних даних , що подані в таблицях,
використовуючи засоби MS Excel.
Вік
малюків |
1 |
2 |
3 |
4 |
5 |
6 |
Частота |
25 |
23 |
27 |
25 |
44 |
12 |
Бали
учнів |
10 |
12 |
9 |
8 |
7 |
6 |
Частота |
57 |
53 |
29 |
21 |
34 |
62 |
Довідкова інформація для практичної роботи
Міри центральної тенденції
У
статистиці, такі показники розподілу як середнє, мода та медіана — називають
мірами центральної тенденції. Вони показують загальні характеристики розподілу
даних за певною змінною, дозволяють виявити одне значення (або кілька значень —
якщо мода в розподілі не одна, але про це детальніше згодом), що описує весь
розподіл. Можна також сказати, що середнє,
мода та медіана — це окремі значення що представляють весь набір даних,
типові для всіх значень у групі.
Міри центральної тенденції потрібні з наступних міркувань:
·
Щоб отримати
загальну картину розподілу. Ми не можемо запам’ятати кожен факт, що стосується
сфери дослідження.
·
Щоб отримати
чітку картину щодо досліджуваної сфери для розуміння та отримання потрібних
висновків.
·
Щоб отримати
чіткий опис групи в цілому та мати змогу порівнювати дві або більше груп у
термінах типової «поведінки».
Середнє
(Mean)
Найвідомішою мірою центральної тенденції — і найбільш вживаною в
повсякденному побуті — є середнє, або ж просте середнє, або ж арифметичне середнє (arithmetic mean) —
просто середнє значення ряду даних.
Для його обчислення досить скласти разом всі значення в
розподілі, і поділити на кількість спостережень. В Екселі чи Google
Spreadsheets для цього є функція MEAN.
Є різні математичні способи підрахунки середнього, але в усіх сучасних
електронних таблицях та спеціальних програмних пакетах для роботи з даними і
статистикою є ця функція, тож ми не будемо зупинятися на математичних
викладках.
Є певні загальні правила для використання середнього, зокрема:
·
Середнє — це «центр тяжіння» розподілу, і кожне значення дає
внесок у визначення середнього значення, коли поширення значень є симетричними
довкола центральної точки.
·
Середнє значення більш стабільне, ніж медіана чи мода. Тому,
коли потрібно знайти найбільш стабільну міру центральної тенденції,
використовують середнє.
Переваги середнього:
·
Середнє визначене дуже жорстко, тому не виникає питань чи
нерозуміння щодо його значення та суті.
·
Це найбільш поширена міра центральної тенденції, оскільки її
легко зрозуміти.
·
Середнє легко підрахувати.
·
Враховує всі значення розподілу.
Обмеження чи недоліки середнього:
·
На значення середнього впливають екстремальні значення (відомий
іронічний жарт про «середню температуру по лікарні»).
·
Часом середнім є значення, що не присутнє в розподілі.
·
Часом результатом можуть бути абсурдні значення. Наприклад,
маємо 41, 44, та 42 учнів у 5а, 5б та 5в класах якоїсь школи. Виходить, що
середня кількість учнів у 5 класах школи – 42,3(3). А так не буває.
Медіана
(Median)
Медіану можна визначити як точку на ряді розподілу
(впорядкований набір значень змінної для різних спостережень — наприклад від
найменшого до найбільшого значення) — до цієї точки розташовано половина всіх
значень, і після цієї точки теж половина значень. Тобто, медіана, це значення,
що ділить впорядкований ряд навпіл. Якщо кількість значень непарна, то береться
одне зі значень — те, що стоїть у розподілі рівно по центру.
Коли значень парна кількість, то беруть два центральні значення,
і знаходять їхнє середнє.
Для чого використовують медіану?
·
Коли потрібно знайти точну середню точку, точку на «півдорозі»
від найменшого значення до найбільшого.
·
Коли екстремальні значення впливають на середнє — медіана є
найкращою мірою центральної тенденції.
·
Медіану використовують коли потрібно, щоб певні значення
впливали на центральну тенденцію, але все, що про них відомо — що вони «нижче»
або «вище» медіани
Переваги медіани:
·
Легко вирахувати та зрозуміти.
·
Для підрахунку медіани не потрібні всі значення в розподілі.
·
Екстремальні значення розподілу не впливають на медіану.
·
Її можна визначити і для «відкритих» категорій / класів
інтервалів.
Обмеження медіани:
·
Вона не так жорстко визначена як середнє, оскільки її значення
не так вираховується, як знаходиться (серед значень в розподілі).
·
Не враховує всі спостереження (значення для всіх спостережень).
·
З медіаною потім не можна робити алгебраїчні перетворення так,
як із середнім.
·
Потребує впорядкування значень або класів інтервалів у
висхідному чи спадному порядку.
·
Часом медіаною може бути значення, не присутнє у самому
розподілі.
Мода
(Mode)
Третя міра центральної тенденції — це мода — значення,
що найчастіше зустрічається в розподілі. Як правило, вона представляє найбільш
типове значення. На моду ніколи не впливають екстремальні значення в розподілі,
а впливають – екстремальні частоти значень, наскільки часто те чи інше значення
змінної зустрічається в розподілі.
Мода використовується:
·
Коли нам треба швидка і приблизна міра центральної тенденції.
·
Коли потрібна міра центральної тенденції, що має бути типовим
значенням.
Переваги моди:
·
Мода показує найбільш поширене значення в розподілі.
·
На моду не впливають екстремальні значення – так як на середнє.
·
Моду можна визначити для відкритих інтервалів / категорій.
·
Допомагає аналізувати якісні дані.
·
Моду можна виявити просто побудувавши графік розподілу чи
стовпчасту діаграму.
Обмеження:
·
Не включає до визначення / розрахунку всі спостереження
розподілу, а лише концентрацію частот.
·
Подальші алгебраїчні перетворення неможливі – на відміну від
середнього.
·
Буває важко визначити моду у випадку багатомодального чи
бімодального розподілу
·
Розподіл може мати більше двох популярних значень, але якщо має
більше ніж трьох мод, опис такого розподілу в термінах найбільш частих значень
може втрачати будь-який сенс.
Як
читач вже міг помітити, ми вже активно використовуємо графічне відображення,
візуалізацію даних – для їх аналізу.
Ми
можемо представити розподіл даних (особливо одновимірний розподіл) різного типу
графіками. Як правило, використовуються два виміри (дві осі) у графіках для розподілів.
На осі X розташовують значення змінних, а на осі Y – частоту цих змінних – у
абсолютних чи відносних значеннях.
Нагадаємо
собі, що аналіз даних, побудова певних висновків на основі масивів даних – це,
в першу чергу, стиснення інформації, її узагальнення. Так, побудова простої
стовпчастої діаграми – засобами будь-якої електронної таблиці, наприклад, – дає
нам можливість швидко і просто – візуально – визначити моду або медіану.
Детальніше візуалізацію даних буде розглянуто у наступному розділі, але
загалом, треба пам’ятати, що візуалізація даних – не лише важливий елемент
представлення даних, наприклад, під час публікації результатів дослідження, але
й важливий елемент аналізу, що дозволяє швидко знаходити особливості в масиві
даних, робити певні висновки, наштовхувати на ті чи інші шляхи подальшого
аналізу.
Власне,
пояснення наступного важливого поняття у статистиці – нормального розподілу –
навряд чи можливе без візуалізації, без графіку т.зв. «кривої Ґауса».
Результат цієї
роботи треба надіслати на електронну адресу учителя
інформатики:
vinnser@gmail.com (Сергій
Петрович)
ktdfz@i.ua(Юрій Васильович)
Назва архівованого файлу:
Прізвище_імя_ клас_ Середні
Додаткова інформація для учнів
Вiдеострiми - це прямi включення вiдео нa сaйтaх зa допомогою смaртфонiв,
веб-кaмер. тощо.
Кiлькa
остaннiх рокiв в Iнтернетi, зокремa у
соцiaльних мережaх, aктивно розвивaються i швидко розповсюджуються рiзномaнiтнi
вiдео ресурси тa вiдеосервiси. Цьому неaбияк сприяє покрaщення пропускної здaтностi
Iнтернет-кaнaлiв, зокремa, зaпровaдження
високошвидкїсного мобiльного Iнтернету
стaндaрту 3G. Тaкож стрiмке поширення вiдеоформaтiв в Iнтернетi вiдбувaється i через розвиток тa
здешевлення технологiчних пристроїв для зйомки. Нaрaзi високоякiсними
вiдеокaмерaми облaднaнi всi сучaснi смaртфони, плaншети, a тaкож доступними й
недорогими стaли побутовi вiдеокaмери. Водночaс якiсть зйомки ними все ще покрaщується.
Деякi сучaснi мобiльнi пристрої, зокремa IPhone 7, знiмaють у HD-якостi - нaстiльки
високiй, що не всi пристрої для прийому вiдео зможуть його демонструвaти без
погiршення роздiльної здaтностi тa кольоропередaчi.
Звичaйно,
цi змiни познaчились як нa професiйному телебaченнi, тaк i нa aмaторських вiдеомaтерiaлaх.
Користувaцького вiдео стaє все бiльше, його якiсть покрaщується, a контент нaбувaє
креaтивностi. Нaрiжний кaмiнь сучaсного телевиробництвa - уже не вaртiсть i кiлькiсть
технiки, a iдея. Як реaлiзувaти свою iдею? Неоднорaзово
переможцями рiзномaнiтних фестивaлiв стaвaли низькобюджетнi вiдеороботи, вiдзнятi
звичaйними мобiльними пристроями. Нaтомiсть - фiльми i передaчi iз використaнням
нaдсучaсної технiки, з мiльйонними бюджетaми не отримують нaлежної оцiнки як експертiв,
тaк i aудиторiї.
Сучaсне
прямоефiрне телебaчення невпинно модифiкується, iнтегрується з Iнтернет-технологiями. Нинi прaктично нa
кожному iнформaцiйному телекaнaлi, a подекуди i в iнформaцiйних передaчaх нa зaгaльнонaцiонaльних
телекaнaлaх, з'являються прямi включення з мобiльних пристроїв, тaк звaнi вiдеострiми.
Дослiдженням
у цaринi сучaсних телевiзiйних технологiй присвяченi роботи видaтних свiтових нaуковцiв
Е. Бойдa, Дж. Мiллерсонa, I. Фенгa, a тaкож прaцi сучaсних укрaїнських дослiдникiв
у гaлузi соцiaльних комунiкaцiй В. Ф. Iвaновa, В. В. Гоян, В. Е. Шевченко, Л.
М. Городенко, О. В. Ситникa, A. П. Зaхaрченкa тa iн. Тaкож свiй прaктичний досвiд
описaли й узaгaльнили деякi журнaлiсти, зокремa вiдеострiмер Hromadske.TV Б. Кутєпов. Проте явище вiдеострiмiв з'явилося
зовсiм недaвно, донинi ця темa є недостaтньо вивченою i ґрунтовних нaукових
дослiджень у цьому нaпряму ще немaє.
Подaльше
вивчення й нaукове осмислення феномену вiдеострiмiв як рiзновиду прямоефiрного
телевiзiйного мовлення є нaдзвичaйно aктуaльним i вaжливим, оскiльки це явище є
основою розвитку телебaчення мaйбутнього.
Немає коментарів:
Дописати коментар