География выпускников лицея №20. Анализ и визуализация данных

0
0
Материал опубликован 17 July

Автор публикации: А. Гания, ученица 10 класса

Автор публикации: А. Ловцова, ученица 10 класса

Муниципальное бюджетное общеобразовательное учреждение «Лицей № 20»


Городская научно-практическая конференция обучающихся

«Мое открытие»


Информационные технологии






География выпускников Лицея №20.

Анализ и визуализация данных


Проект






Авторы: Ганич Анастасия,

Ловцова Арина


Класс: 10


ОУ: МБОУ Лицей № 20


Руководитель:

Гречанникова Дарья Олеговна,

педагог дополнительного образования








МЕЖДУРЕЧЕНСК, 2021



















ВВЕДЕНИЕ

Лицей №20 славится своими выпускниками. Они поступают в различные вузы по всей стране, а также за ее пределами. А после окончания университетов добиваются высоких результатов на производстве, в науке, творчестве.

Школа поддерживает связь с выпускниками. Тому доказательство, регулярные встречи выпускников с учениками Лицея №20. Но мы могли бы привлечь больше выпускников в лицейское сообщество.

На собраниях и мероприятиях, нам часто рассказывают об успехах выпускников, но интерактивная карта станет наглядным представлением. Карта может быть размещена на официальном сайте Лицея и в социальных сетях. Так как Лицей является базовой школой РАН, и карта будет демонстрировать, что это не просто так, а действительно по результатам высоких достижений. Окружающие будут видеть перспективы обучения в Лицее №20.

Помимо этого Дата-аналитика и Дата-журналистика одним из самых перспективных направлений, и сегодня такие специалисты очень востребованы в разных сферах: начиная от производства, заканчивая социальными институтами: образование и здравоохранением. Мы считаем, что будет полезно разобраться в основах дата-анализа и понять, интересно ли нам данное направление. В ходе проделанной работы мы сможем изучить и попрактиковаться с новыми программами для обработки данных, а также узнать ближе профессию data-аналитика

Мы сами планируем поступать в другую страну или город для дальнейшего обучения, и поэтому информация, полученная в ходе проекта, будет актуальна и для нас. В процессе работы мы сможем выявить ТОП стран и городов по наибольшему количеству выпускников Лицея №20.

Цель: создание интерактивной карты для легкого доступа к информации о городах, в которые поступают и в которых живут выпускники Лицея №20.

Задачи:

1. Изучение литературы и интернет-ресурсов по теме проекта.

2. Создание и проведение опроса среди выпускников разных лет.

3. Поиск архивов.

4. Скрейпинг социальных сетей (сбор данных о выпускниках Лицея №20)

5. Визуализация данных в виде интерактивной карты, графиков и диаграмм

6. Итоги проделанной работы

Объект исследования: ДАТА-анализ

Предмет исследования: технологии анализа и визуализации данных с программированием и без.

Методы: опрос, скрейпинг, анализ литературы и интернет ресурсов, работа с архивом.

Срок реализации проекта: ноябрь 2020 – март 2021

Этапы проекта:

Подготовительный. Исследование источников по теме.

Срок: ноябрь - декабрь

Основной. Сбор данных и визуализация

Срок: январь-февраль

Аналитический. Публикация работы. Подведение итогов. Анализ.

Срок: март

Перед началом работы над проектом, мы сформулировали несколько гипотез:

1. Самыми востребованными городами поступления для выпускников Лицея №20 являются Новосибирск и Томск. Потому что они являются перспективными городами с хорошей научной школой, находящиеся недалеко от Междуреченска. И не у каждого есть возможность (материальная) для обучения вдали от дома.

2. Чем выше результат ЕГЭ, тем дальше выпускник может уехать и больше вариантов для подачи документов.

3. Нам кажется, что ученики чаще не возвращаются в Междуреченск для дальнейшей жизни, а остаются в городе обучения или уезжают в более перспективные для будущего города.














1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ДАТА-АНАЛИТИКИ


Первый этап работы изучение теории по теме проекта. Так как для нас сфера ДАТА-аналитики нова, нам пришлось изучить дополнительные источники информации, касающиеся сбора, обработки и визуализации данных. Краткий обзор основных терминов представлен ниже.


1.1. Понятие ДАТА-анализа

ДАТА-анализ де­я­тель­ность, свя­зан­ная с ана­ли­зом дан­ных и по­ис­ком луч­ших решений на их ос­но­ве. Всё на­чи­на­ет­ся со сбо­ра дан­ных и пре­об­ра­зо­ва­ние их в удоб­ный для вос­при­я­тия фор­мат. Дальше ис­поль­зу­ет­ся ви­зу­а­ли­за­ция, ра­бо­та со ста­ти­сти­кой и аналитиче­ские ме­то­ды обработки информации.


1.2. Где найти данные?

Первый вопрос, которые задает себя любой ДАТА-аналитик, где взять данные. В крупных компаниях данные автоматически собираются в массивы. Если же этого не происходит, как быть, где еще можно получить данные.

Первое: открытые источники. Сегодня организации и учреждения публикуют открытые данные в различных форматах. Их можно брать и использовать.

Еще один вариант: автоматический сбор данных с различных ресурсов – скрейпинг. Скрейпинг – это технология получения необходимых данных путем извлечения их с веб-страниц. Он может быть сделан как с программированием, так и без (с использованием готовых приложений).

Метод состоит в том, что изначально создается алгоритм, который заходит на главную страницу сайта и начинает переходить по всем внутренним ссылкам, тщательно собирая нужную информацию. В качестве результата работы – готовый CSV файл, в котором вся нужная информация лежит в строгом порядке.

Еще один способ сбора данных это проведение опросов. Кстати, также можно пользоваться необработанными данными различных социологических исследований, если удается их получить.


1.3. Работа с данными

После сбора данных их необходимо почистить. Колонки необходимо четко и правильно назвать. Очень важно, не должно быть объединенных ячеек. Одна ячейка – одна информация. Также все данные необходимо привести к единообразию. Один и тот же объект, должен быть назван везде одинаково.


1.4. Визуализация данных

Визуализация данных — это представление данных в виде, который обеспечивает наиболее эффективную работу человека по их изучению. Это могут быть графики, диаграммы, карты, схемы.


1.5. Что такое интерактивная карта и как ей пользоваться?

Интерактивная карта — это электронная карта, работающая в режиме двухстороннего диалогового взаимодействия человека и компьютера, представляющая собой визуальную информационную систему.
























2. СОЗДАНИЕ ИНТЕРАКТИВНОЙ КАРТЫ 2.1. Сбор данных


Первоначально мы планировали взять данные о выпускниках в школе. Но, к сожалению, закон «О персональных данных» не позволил нам этого сделать. Школа не может разглашать персональные данные обучающихся и выпускников без их согласия.

Перед нами встали вопросы: «Где брать данные?», «Менять ли тему проект?», «Как быть дальше?». Тогда мы решили выбрать другие способы сбора информации: опрос и скрейпинг.

Опрос t1752730324aa.gif это метод сбора первичной информации, применяемый в социальных исследованиях, а именно получение информации от первых лиц.

Данный вид сбора информации был основным для нас. Первым делом мы подготовили вопросы, которые касались места обучения и места проживания выпускников, а также баллов ЕГЭ. Со всеми вопросами можно ознакомиться в Приложение 1. Опрос решили разместить в Google.Формах (Приложение 2, рис. 1). Он позволяет заполнить его из любой точки планеты, где есть Интернет. А также Google.Формы позволяют выгружать данные в формате CSV или сразу в Google.Таблицы. Опрос распространяли через знакомых, учителей, социальные сети Лицея №20 (Приложение 2, рис. 2), родителей.

В конечном итоге мы получили 75 ответов, которые вывели в таблицу Google.

Также мы решили попробовать собрать данные из социальной сети Вконтакте. Для этого использовали приложение для браузера WebScraper. После установки расширения, при нажатии сочетания клавиш Ctrl+Shift+I, в окне элементов старницы появилась вкладка WebScraper. Именно в ней мы прописали алгоритм сбора информации.

Сначала, используя расширенный поиск, мы отфильтровали людей по образовательной организации. В фильтре школа указали Лицей №20. Написали подробный алгоритм, который автоматизировал и сам выбирал нужную нам информацию.

Выбираем в меню Create new sitemap, для создания нового алгоритма. В графe «sitemap name» вводим название нашего алгоритма. В графе «Start URL» мы скопировали данные из адресной строки браузера. Это станет началом нашего поиска.

Далее необходимо прописать каждый шаг сбора, делаем это при помощи кнопки «Add new selector»

Сначала мы начали собирать имена и фамилии выпускников лицея. Выбирали данные и следили, чтобы была выделена вся нужная нам информация.

Далее переходим на одну из страниц и на ней выбираем нужную нам информацию. В нашем случае мы выбирали год рождения, город проживания и ВУЗ. Но не у каждого была вся информация, а у некоторых совсем ничего, этого следовало ожидать.

Позже мы запускали скрейпинг и ожидали результатов. Их мы выводили в таблицу Exel, а затем тщательно чистили полученные данные.

Мы собрали данные с 33 страниц пользователей социальной сети «Вконтакте». Все данные выгрузили в формате CSV, а затем импортировали в таблицы.


2.2. Чистка данных

После мы почистили данные в таблицах. Это очень важный этап в работе с данными, им ни в коем случае нельзя пренебрегать. При помощи функции найти и заменить привели к единообразию названия всех объектов. Например, чтобы КузГТУ везде назывался одинаково.

Затем при помощи функции AVERAGE посчитали средний балл каждого по всем предметам ЕГЭ.

Далее нам необходимо было сделать несколько сводных таблиц. Для этого мы выделяли зону очищенных данных. Затем на вкладке данные выбирали пункт «Создать сводную таблицу». Сводные таблицы создавали на новых листах.

Чтобы создать сводную таблицу по регионам обучения, для строк вы выбрали «регион обучения», пункт «столбец» пропустили. В пункте «значения» опять выбрали «регион обучения» и функцию COUNTA, эта функция позволяет посчитать автоматически, сколько человек отметили данный регион, как регион обучения.

По этому принципу сделали и другие сводные таблицы для анализа количества выпускников живущих в разных регионах, и связи региона обучения и баллов ЕГЭ.

Сводные таблицы скопировали, и вставили при помощи функции «специальная вставка», вставили только значения. Чтобы потом работать только со значениями уже, а не формулами.


2.3. Создание карты

Получив всю нужную нам информацию и обработав ее, мы приступили к визуализации. Данные решили оформить в виде карты. Для этого решили использовать ресурс: Datawrapper.de

Сначала скачали данные в CSV.

Далее, мы выбрали страну (страны), территория которой будет использоваться. Загрузили нужные данные, которые заранее были прочищены и правильно оформлены.

Затем автоматически создается карта по введенным нами данным. Её можно редактировать под себя, для удобного использования. В нашем случае мы добавили, чтобы при наваждении на нужную нам область отображалось количество выпускников и в некоторых случаев их личные данные для связи будущих 11 классиков с ними.

Для начала нужно зарегистрироваться. После кликаем на «New map» и на «Choropleth map».
Выбираем «Russia » Regions (with Crimea)». Дальше нужно загрузить данные.
У Datawrapper есть такая особенность —нужно использовать точное написание регионов, чтобы он мог их распознать. Если вы захотите как-то иначе обозначить регион, то Datawrapper вас просто не поймет.
После того, как данные загружены и распознаны, переходим к настройкам внешнего вида карты.
Так как никаких значений на самой карте не отображается, нам нужно, чтобы они появлялись при наведении. Поэтому идем в настройку tooltips. Кликаем на «Customize tooltips.

Теперь нужно добавить легенду, чтобы читатель понимал, что у нас закодировано цветом. Легенду можно сгенерировать автоматически. И расположить ее там, где она ничего не перекрывает. В нашем случае это верхний левый угол.

Далее добавляем заголовок, подзаголовок, источник данных и указываем авторство. Все это важно делать для того, чтобы даже вырванный из текста график мог говорить сам за себя и не нуждался в дополнительных пояснениях.

Затем остаётся экспортировать визуализацию. В разделе «Publish & Embed» опубликовать карту. Можно выбрать какой вариант экспорта подходит вам: ссылка на визуализацию, embed code или png. 












ЗАКЛЮЧЕНИЕ

Подводя итог, хочется отметить, что мы смогли познакомиться и попрактиковаться с новыми для нас видами деятельности. Не все оказалось таким простым и легким. Начинающий дата-аналитик может столкнуться с проблемой доступа к архивным данным из-за закона «О персональных данных». Для того, чтобы разобраться со скрейпингом сайтов без программирования нам потребовалось много времени. К сожалению, разобрать с написание программ мы для скрейпинга при помощи языка программирования Phyton мы не успели. Хотя очевидно, что такой навык дает больше возможностей для сбора информации.

Тем нее менее на удалось собрать данные, проанализировать их и создать карту.

В итоге, наши гипотезы уверенно подтвердились:

1. Мы были правы, самыми востребованными городами поступления для выпускников Лицея №20 являются Новосибирск и Томск.

2. Также, как мы и предполагали, чем выше результат ЕГЭ, тем дальше выпускник может уехать и больше вариантов для подачи документов.

3. Нам кажется, что ученики чаще не возвращаются в Междуреченск для дальнейшей жизни, а остаются в городе обучения или уезжают в более перспективные для будущего города. (13 из 75)

















СПИСОК ЛИТЕРАТУРЫ


Нафлик К.Н. Данные: визуализируй, расскажи, используй. t1752730324ab.gif М.: МИФ, 2020 г. t1752730324ab.gif 288 с.

Герасимова Е. Большой гид по Data Science для начинающих: термины, применение, образование и вход в профессию. [Электронный ресурс] // Цех. t1752730324ab.gif Режим доступа: https://zeh.media/znaniye/obrazovaniye/1478263-bolshoy-gid-po-data-science-dlya-nachinayushchikh-terminy-primeneniye-obrazovaniye-i-vkhod-v-profess (20.11.2020)

Константарас Е. Думай как дата-журналист: Руководство по журналистике данных. [Электронный ресурс] // Режим доступа: https://issuu.com/irrpress/docs/__________________________-________ (13.12.2020)

Марховская А. Карты в Datawrapper. [Электронный ресурс] // Мастерская важных историй. t1752730324ab.gif Режим доступа: https://istories.media/workshops/2020/08/01/karti-v-datawrapper/ (10.02.2021)

Мастерская Важных историй. Канал на видеохостинге YouTube [Электронный ресурс] // Режим доступа: https://www.youtube.com/channel/ UCVZy5a_8sMo4ncI6XBb5iMQ/videos (27.11.2020)


















ПРИЛОЖЕНИЯ


Приложение 1. Опросник для выпускников


1. Фамилия Имя Отчество

2. Год рождения 

3. Год окончания школы

4. ВУЗ, в которой поступил(-а) после школы (полное наименование)

5. ВУЗ, в который поступил(-а) после школы (краткое наименование)

6. Город обучения 

7. Страна обучения

8. Город проживания на момент опроса

9. Страна проживания на момент опроса

10. Специальность ( в соответствии с дипломом) 

11. Баллы ЕГЭ (математика)

12. Баллы ЕГЭ (русский язык)

13. Первый предмет по выбору

14. Баллы ЕГЭ (первый предмет по выбору)

15. Второй предмет по выбору

16. Баллы ЕГЭ (второй предмет по выбору)

17. Третий предмет по выбору

18. Баллы ЕГЭ (третий предмет по выбору)














Приложение 2. Создание опроса

t1752730324ac.png

Рис. 1. Опрос в Гугл.Документах для выпускников.


t1752730324ad.png Рис. 2. Пост в социальных сетях Лицея с просьбой пройти опрос






Приложение 3. Последовательность скрейпинга при помощи приложения WebScraper t1752730324ae.gif

Рис. 3. Этап 1


t1752730324af.gif

Рис. 4. Этап 2


t1752730324ag.gif

Рис. 5. Этап 3




t1752730324ah.gif

Рис. 5. Этап 4


t1752730324ai.gif

Рис. 6. Этап 5











Приложение 4. Последовательность создания интерактивной карты в Tableu.Public


t1752730324aj.gif

Рис. 7. Загрузка датасета


t1752730324ak.gif

Рис. 8. Создание карты

t1752730324al.gif

Рис. 9. Выбор плиточной карты


t1752730324am.png

Рис. 10. Определение минимального значения демонстрации регионов

t1752730324an.png

Рис. 10. Дизайн карты






















Приложение 5. Итоговые продукты


t1752730324ao.png

Рис. 11. Интерактивная карта с активными ссылками на страницы выпускников


t1752730324ap.png

Рис. 12. Карта с распределение баллов ЕГЭ по областям

t1752730324aq.png


Рис. 13. Карта выпускников в Tableu Public




в формате Microsoft Word (.doc / .docx)
Комментарии
Комментариев пока нет.