Zadania rachunkowe, jakie pojawiły się w dotychczasowych odcinkach ligi, nawet jeśli były trochę skomplikowane, dało się je wykonać "ręcznie" - na papierze, ewentualnie wspomagając się kalkulatorem w obliczaniu cząstkowych wyników. Czytelnicy na pewno domyślają się, że osoby zajmujące się profesjonalnie analizą danych w dzisiejszych czasach nie wykonują obliczeń w ten, lecz wspomagają się komputerami.
Ponieważ dziś bardzo wiele operacji wykonuje się wprost na komputerach - od zakupu biletów aż po operacje na giełdzie - gromadzenie rozmaitych danych stało się bardzo proste i może się odbywać niejako przy okazji tych czynności. Powstałe w ten sposób zbiory danych mogą być ogromne. W wypadku operacji na jednej giełdzie papierów wartościowych mogą dochodzić do kilkudziesięciu gigabajtów dziennie. Wyciąganie wniosków z tak dużych zbiorów danych nie jest możliwe w oparciu o ręczne obliczenia, tym bardziej że dla osób zawierających transakcje na giełdzie bardzo istotny bywa czas poświęcony na analizy, tak by móc jak najszybciej reagować na sytuację na rynku.
Współczesna statystyka (i nie tyko ona, ale wszystkie dyscypliny matematyczne oparte o rachunek prawdopodobieństwa) bardzo mocno posiłkuje się komputerami w przeprowadzaniu rachunków. Istnieje wiele programów, tak komercyjnych jak i darmowych, które służą do bardziej i mniej profesjonalnych obliczeń statystycznych. Okazuje się jednak, że dla prostych obliczeń i analiz, do przeprowadzania których zaproszeni są uczestnicy Ligi zadaniowej z analizy danych, w zupełności wystarczy... arkusz kalkulacyjny.
U większości pierwsze skojarzenie w związku z nazwą "arkusz kalkulacyjny" to Excel - część pakietu biurowego Microsoft Office. Jest to bardzo dobre narzędzie do prowadzenia rozmaitych obliczeń i, choć czasem trudno w to uwierzyć, bywa wykorzystywane jako podstawowe narzędzie obliczeniowe nie tylko w małych firmach, ale także w niektórych bankach czy towarzystwach ubezpieczeniowych. Prostota jego obsługi i intuicyjność wykonywanych operacji przysparzają mu wielkiej popularności. Właściwie jedyną jego poważną wadą dla wielu potencjalnych użytkowników jest to, że jest to produkt komercyjny. Z tego powodu wiele osób decyduje się na zastąpienie go (i całego pakietu MS Office) jakimś darmowym odpowiednikiem. Dużą popularnością cieszy się pakiet Libre Office (dawniej Open Office) i jego arkusz kalkulacyjny Calc.
Excel ma dość rozbudowany moduł z funkcjami statystycznymi, jedna nie można w nim łatwo narysować choćby wykresu pudełkowego. Z tego powodu będziemy się posługiwali innym arkuszem kalkulacyjnym. Nosi on nazwę Gnumeric.
Częściowo spolszczoną wersję Gnumerica na systemów operacyjnych z rodziny Windows można znaleźć np. tutaj (w razie problemów z pobraniem pliku warto sprawdzić, czy ich źródłem nie jest nadgorliwość programu antyzirusowego). W internecie można znaleźć także starsze wersje tego programu oraz dystrybucje linuxowe.
Obsługa narzędzia jest bardzo prosta dla tych, którzy znają już podstawy obsługi innych arkuszy kalkulacyjnych np. Excela. W odróżnieniu od niego w Gnumericu nie przetłumaczono na język polski nazw funkcji.
Przy pracy z Gnumerikiem warto zwrócić uwagę, w jakim formacie zapisujemy efekt naszej pracy. Choć Gnumeric bez problemu odczytuje takie formaty jak .xls, .xlsx czy .ods, to, co zostało wykonane w Gnumericu, najlepiej zapisać w formacie własnym tego programu czyli w formacie .gnumeric (Plik > Zapisz jako i z listy na dole wybrać Gnumeric XML (*.gnumeric)). Jeśli zapiszemy efekt naszej pracy w innym formacie, możemy utrafić część wyników np. jeśli w Gnumericu zrobiliśmy coś, czego nie da się zrobić w Excelu.
Oto funkcje, które możemy wykorzystać do obliczeń statystycznych, jakie już poznaliśmy. Argumentem każdej z nich jest zakres komórek, w których znajdują się dane:
- average - średnia arytmetyczna,
- varp - wariancja,
- stdevp - odchylenie standardowe,
- median - mediana,
- min - najmniejsza wartość w zbiorze danych,
- max - największa wartość w zbiorze danych,
- quartile - kwartyl (pierwszym argumentem funkcji jest zakres komórek, w których są umieszczone dane, drugi argument odnosi się do kwartyla: 1 oznacza pierwszy kwartyl, 2 - medianę, 3 trzeci kwartyl; ponadto 0 oznacza minimum a 4 - maksimum).
Listę przydatnych funkcji uzupełnimy o jeszcze dwie:
- sum - suma liczb z zakresu komórek,
- sqrt - pierwiastek kwadratowy.
Gnumeric umożliwia także narysowanie histogramów oraz wykresów pudełkowych.
Aby narysować histogram, wybieramy z górnego menu Statystyka > Statystyka Opisowa > Tablice Częstości > Histogram, aby otworzyć odpowiednie okno dialogowe. Zawiera ono kilka kart.
- W karcie Wejście wybieramy odpowiedni obszar, w którym umieszczone są dane, dla których chcemy narysować histogram.
- Na karcie Odcięcia wybieramy, w ilu przedziałach zostaną pogrupowane obserwacje celem narysowania histogramu. Jeśli zaznaczymy pole Skumulowane odcięcia, wówczas w polu Liczba odcięć musimy wpisać liczbę przedziałów. Jeśli pola Minimalne odcięcie i Maksymalne odcięcie pozostaną puste, wówczas końce przedziałów zostają wyznaczone tak, iż przedział od minimum z obserwacji do maksimum zostanie podzielony na odcinki równej długości, a ich liczba to właśnie wielkość określona jako liczba odcięć. Jeśli wpiszemy coś w polu Minimalne odcięcie lub w polu Maksymalne odcięcie, to przy wyznaczaniu przedziałów minimum zostanie zastąpione liczbą z pola Minimalne odcięcie bądź też maksimum przez liczbę z pola Maksymalne odcięcie. Jeśli wybierzemy opcję Z góry ustalone odcięcia, będziemy musieli w jakimś miejscu arkusza umieścić kolejno listę końców przedziałów i podać ją w polu Zakres odcięcia. Pierwszy sposób postępowania (Skumulowane odcięcia) jest szybszy i z pewnością wygodniejszy do zorientowania się w tym, jak wygląda zbiór danych. Drugi sposób (Z góry ustalone odcięcia) przydaje się wtedy, gdy chcemy, by przedziały miały końce w punktach, jakie sobie z góry ustalamy.
- Na karcie Zbiory zaznaczamy, jaka ma być postać przedziałów, w obrębie których nastąpi zliczanie obserwacji.
- Karta Wykresy & Opcje pozwala nam wybrać rodzaj wykresu, jaki chcemy otrzymać. Wykres słupkowy składa się z poziomych pasów, wykres kolumnowy składa się z pasów poziomych natomiast wykres histogramowy również składa się z pionowych pasów, ale na nim pasy te łączą się w miarę możliwości w jeden obszar. Jeśli zaznaczymy opcję Brak wykresu, to wówczas nastąpi jedynie zliczenie obserwacji w poszczególnych przedziałach, natomiast nie narysuje się wykres. Na tej samej karcie możemy zaznaczyć jeszcze opcję Procentowo. Jeśli tak uczynimy, na osi Y będzie zaznaczone, jaka część obserwacji znajduje się w danym przedziale. W przeciwnym razie na osi Y będzie zaznaczone, ile obserwacji mieści się w danym przedziale.
- Najważniejsza informacja, jaką musimy podać na karcie Wyjście, to miejsce, gdzie ma się pojawić nasz wykres. Do wyboru mamy nowy plik, nowy arkusz w ramach tego samego pliku oraz miejsce w bieżącym arkuszu. Przy niewielkich analizach najlepiej wybrać tę trzecią opcję. Wówczas należy jeszcze podać komórkę, od której pojawi się wynik.
Po wypełnieniu w oknie dialogowym wszystkiego co trzeba i kliknięciu OK naszym oczom powinien ukazać się histogram. Możemy go przesunąć oraz rozciągnąć. Jeśli przesuniemy go, w miejscu, gdzie się znajdował, naszym oczom ukaże się tabela, na podstawie której powstał wykres.
Jeszcze prościej sporządza się wykres pudełkowy. Tutaj wystarczy jedynie umieścić obserwacje w kolumnie (lub w kilku kolumnach obok siebie, jeśli chcemy narysować od razu wykresy pudełkowe dla kilku zbiorów obserwacji), zaznaczyć dane a następnie wstawić wykres (Wstaw > Wykres lub ikonka z wykresem słupkowym) i z dostępnej listy rodzajów wykresów wybrać ten podpisany jako Statistics. Do wyboru mamy tu kilka podtypów wykresów pudełkowych. Różnią się one orientacją (poziome lub pionowe pudełka) oraz tym, jak są wyznaczane wąsy. Obrazki z kółeczkami oznaczającymi obserwacje odstające pozwalają na narysowanie takich wykresów pudełkowych, jakie były opisane w miniwykładzie z lutego. Obrazki bez kółeczek oznaczających obserwaje odstające prowadzą do narysowania wykresów pudełkowych, na których wąsy to minimum i maksimum z obserwacji.
Wygląd gotowych wykresów można w pewnym stopniu zmieniać, kilkając prawym przyciskiem myszy na wykres i wybierając Właściwości z pojawiającego się menu.
W pliku, do którego link znajduje się tutaj, zostały obliczone średnia, wariancja, odchylenie standardowe oraz piątka Tukeya dla pewnego zbioru danych. Sporządzone zostały także histogram i wykres pudełkowy. Ligi.
[koniec wykładu dla gimnazjalistów]
Uważny użytkownik Gnumerica z pewnością dostrzeże, że oprócz funkcji varp istneje jeszcze funkcja var, która też oblicza wariancję. Jaka jest różnica między tymi funkcjami?
Funkcja varp oblicza wariancję tak, jak to było opisane w miniwykładzie z listopada Tymczasem w funkcji var zamiast dzielenia przez liczbę obserwacji wykonuje się dzielenie przez liczbę obserwacji pomniejszoną o 1. Innymi słowy na podstawie obserwacji x1, x2, ... xn funkcja varp oblicza wyrażenie:
[tex]\frac{1}{n}[(x_1-\overline{x})^2+(x_2-\overline{x})^2+\dots+(x_n-\overline{x})^2][/tex]
a funkcja var oblicza wyrażenie:
[tex]\frac{1}{n-1}[(x_1-\overline{x})^2+(x_2-\overline{x})^2+\dots+(x_n-\overline{x})^2],[/tex]
gdzie [tex]\bar{x}[/tex] oznacza średnią arytmetyczną z liczb x1, x2, ... xn. Pierwszą wielkość (którą już wcześniej poznaliśmy) statystycy nazywają wariancją obciążoną, natomiast druga wielkość to wariancja nieobciążona. W ramach tego miniwykładu nie jesteśmy w stanie wyjaśnić, skąd się biorą te nazwy, ani też dlaczego rozpatruje się obie te wielkości. Na potrzeby naszych rozważań wystarczy nam jedna z tych wielkości: wariancja obciążona, którą wcześniej poznaliśmy.
Jak nietrudno zgadnąć, stdevp i stdev to odchylenia standardowe rozumiane odpowiednio jako pierwiastki z wyników działania funkcji varp i var.więcej informacji o danych.
Oblicz w arkuszu kalkulacyjnym Gnumeric średnią, wariancję, odchylenie standardowe, piątkę Tukeya oraz współczynnik skośności dla zestawu danych, jaki znajduje się w tym pliku. Sporządź też histogram i wykres pudełkowy dla tych danych i oceń symetrię danych. Jako rozwiązanie prześlij arkusz kalkulacyjny w formacje .gnumeric z przeprowadzonymi obliczeniami, nadając mu nazwę postaci Imie_Nazwisko_kwiecien.gnumeric. Wszystkie ewentualne komentarze umieść w tym pliku.
Z kwietniowym zadaniem najlepiej poradzili sobie Aleksandra Domagała i Kacper Toczek i otrzymują 3 punkty. Mieszko Baszczak i Joanna Lisiowska po rundzie kwietniowej wzbogacili się o dwa punkty. Tym samym na prowadzenie wysunęła się Aleksandra Domagała, wyprzedzając Joannę Lisiowską. Na trzecim miejscu Mieszko Baszczak.
W kwietniowym etapie Tomasz Stępniak zdobył 3 punkty zaś Daria Bumażnik 2,5 punktu. Tym samym klasyfikacja generalna nie uległa zmianie: Tomasz Stępniak (I miejsce) przed Darią Bumażnik (II miejsce) i Krzysztofem Danielakiem (III miejsce).
Rozwiązanie zadania znajduje się w tym pliku.