
Введение и обоснование выбора данных
Для выполнения данного анализа я выбрала датасет «World University Rankings» с Kaggle. Этот датасет содержит информацию о рейтингах университетов по всему миру, включая такие параметры, как академическая репутация, репутация среди работодателей, соотношение студентов и преподавателей, количество иностранных студентов и преподавателей и другие.
Обоснование выбора данных:
1. Высшее образование является важным аспектом развития общества, и анализ данных о рейтингах университетов может дать интересные инсайты о факторах, влияющих на качество образования. 2. Датасет содержит множество параметров, которые можно анализировать, такие как академическая репутация, репутация среди работодателей, соотношение студентов и преподавателей, и другие. 3. Данные охватывают университеты по всему миру, что позволяет провести многофакторный анализ на глобальном уровне.
Этапы анализ
1. Загрузка данных 2. Предварительный анализ и очистка данных 3. Выбор параметров для отслеживания 4. Визуализация данных с использованием Pandas и Matplotlib/Seaborn 5. Развернутые выводы по каждому графику
Загрузка данных
In []:
import pandas as pd
(Загрузка данных) df = pd.read_csv ('/content/cwurData.csv')
(Вывод первых 10 значений) print ('Вывод первых 10 значений') print (df.head (10))
(Вывод последних 10 значений) print ('Вывод последних 10 значений') print (df.tail (10))
(Предварительный анализ) print ('Предварительный анализ') print (df.info ()) print (df.describe ())
Очистка данных
In []:
(Очистка данных) df.dropna (inplace=True) df.drop_duplicates (inplace=True)
(Вывод первых 10 значений после очистки) print ('Вывод первых 10 значений после очистки') print (df.head (10))
(Вывод последних 10 значений после очистки) print ('Вывод последних 10 значений после очистки') print (df.tail (10))
Выбор параметров для отслеживания
Для анализа выберем следующие параметры:
1. Академическая репутация (Quality of Education) 2. Репутация среди работодателей (Alumni Employment) 3. Соотношение студентов и преподавателей (Quality of Faculty) 4. Количество публикаций (Publications) 5. Количество цитирований (Citations)
Визуализация данных
Академическая репутация по университетам
In []:
import matplotlib.pyplot as plt import seaborn as sns
(Настройка стиля) sns.set_style («whitegrid»)
(Фильтрация данных по топ-университетам) top_universities = df.nsmallest (50, 'quality_of_faculty')
(Линейный график академической репутации по университетам) plt.figure (figsize=(12, 8)) sns.lineplot (x='institution', y='quality_of_education', data=top_universities, marker='o', palette='tab10') plt.title ('Top 10 Universities by Quality of Education', fontsize=20, fontweight='bold', color='darkblue') plt.xlabel ('University', fontsize=14, fontweight='bold', color='darkgreen') plt.ylabel ('Quality of Education', fontsize=14, fontweight='bold', color='darkgreen') plt.xticks (rotation=45) plt.tight_layout () plt.show ()
Вывод по графику академической репутации
График показывает:
1. Гарвардский университет и Массачусетский технологический институт лидируют по академической репутации. 2. Оксфордский университет и Кембриджский университет также занимают высокие позиции. 3. Академическая репутация распределяется среди различных университетов мира, что подчеркивает глобальный характер высшего образования.
Репутация среди работодателей по университетам
In []:
(Бар-график репутации среди работодателей по университетам) plt.figure (figsize=(12, 8)) sns.barplot (x='institution', y='alumni_employment', data=top_universities, palette='coolwarm') plt.title ('Top 10 Universities by Alumni Employment', fontsize=20, fontweight='bold', color='darkblue') plt.xlabel ('University', fontsize=14, fontweight='bold', color='darkgreen') plt.ylabel ('Alumni Employment', fontsize=14, fontweight='bold', color='darkgreen') plt.xticks (rotation=45, fontsize=12, fontweight='bold') plt.yticks (fontsize=12, fontweight='bold') plt.tight_layout () plt.show ()
Вывод по графику репутации среди работодателей
График показывает:
1. Массачусетский технологический институт и Стэнфордский университет имеют высокую репутацию среди работодателей. 2. Гарвардский университет и Оксфордский университет также высоко оцениваются работодателями. 3. Репутация среди работодателей является важным фактором для студентов при выборе университета.
Соотношение студентов и преподавателей по университетам
In []:
(Box Plot соотношения студентов и преподавателей по университетам) plt.figure (figsize=(12, 8)) sns.boxplot (x='institution', y='quality_of_faculty', data=top_universities, palette='coolwarm') plt.title ('Top 10 Universities by Quality of Faculty', fontsize=20, fontweight='bold', color='darkblue') plt.xlabel ('University', fontsize=14, fontweight='bold', color='darkgreen') plt.ylabel ('Quality of Faculty', fontsize=14, fontweight='bold', color='darkgreen') plt.xticks (rotation=45, fontsize=12, fontweight='bold') plt.yticks (fontsize=12, fontweight='bold') plt.tight_layout () plt.show ()
Вывод по графику соотношения студентов и преподавателей
График показывает:
1. Массачусетский технологический институт и Калифорнийский технологический институт имеют низкое соотношение студентов и преподавателей, что свидетельствует о более индивидуальном подходе к обучению. 2. Гарвардский университет и Стэнфордский университет также показывают хорошие результаты по этому показателю. 3. Низкое соотношение студентов и преподавателей может быть индикатором высокого качества образования.
Количество публикаций по университетам
In []:
(Бар-график количества публикаций по университетам) plt.figure (figsize=(12, 8)) sns.barplot (x='institution', y='publications', data=top_universities, palette='coolwarm') plt.title ('Top 10 Universities by Number of Publications', fontsize=20, fontweight='bold', color='darkblue') plt.xlabel ('University', fontsize=14, fontweight='bold', color='darkgreen') plt.ylabel ('Number of Publications', fontsize=14, fontweight='bold', color='darkgreen') plt.xticks (rotation=45, fontsize=12, fontweight='bold') plt.yticks (fontsize=12, fontweight='bold') plt.tight_layout () plt.show ()
Вывод по графику количества публикаций
График показывает:
1. Гарвардский университет и Массачусетский технологический институт лидируют по числу публикаций. 2. Стэнфордский университет и Кембриджский университет также имеют значительное количество публикаций. 3. Количество публикаций может быть индикатором исследовательской активности и вклада университета в науку.
Количество цитирований по университетам
(Бар-график количества цитирований по университетам) plt.figure (figsize=(12, 8)) sns.barplot (x='institution', y='citations', data=top_universities, palette='coolwarm') plt.title ('Top 10 Universities by Number of Citations', fontsize=20, fontweight='bold', color='darkblue') plt.xlabel ('University', fontsize=14, fontweight='bold', color='darkgreen') plt.ylabel ('Number of Citations', fontsize=14, fontweight='bold', color='darkgreen') plt.xticks (rotation=45, fontsize=12, fontweight='bold') plt.yticks (fontsize=12, fontweight='bold') plt.tight_layout () plt.show ()
Вывод по графику количества цитирований
График показывает:
1. Гарвардский университет и Массачусетский технологический институт имеют высокое количество цитирований, что указывает на значительное влияние их исследований. 2. Стэнфордский университет и Оксфордский университет также имеют высокие показатели цитирования. 3. Высокое количество цитирований может свидетельствовать о качестве и значимости исследований, проводимых в университете.
Использование ИИ
Для анализа и визуализации данных я использовал модель ChatGPT, разработанную OpenAI. ChatGPT — это мощная языковая модель, обученная на большом объеме текстовых данных для выполнения различных задач, связанных с пониманием и генерацией текста. В данном случае, модель использовалась для:
1. Генерации идей для анализа данных: ChatGPT помог выбрать подходящий датасет и определить ключевые параметры для анализа. 2. Создания кода для анализа и визуализации данных: Модель генерировала Python-код для загрузки, очистки данных и создания визуализаций с использованием библиотек Pandas, Matplotlib и Seaborn. 3. Интерпретации результатов: ChatGPT предоставил развернутые выводы по каждому из созданных графиков, что помогло лучше понять результаты анализа.
Модель ChatGPT была использована следующим образом:
1. Выбор датасета: На основе диалога с моделью был выбран датасет «World University Rankings» для анализа качества высшего образования. 2. Определение параметров анализа: Совместно с моделью были выбраны ключевые параметры для анализа, такие как академическая репутация, репутация среди работодателей, соотношение студентов и преподавателей, количество публикаций и количество цитирований. 3. Генерация кода: ChatGPT сгенерировал Python-код для выполнения анализа данных, включая загрузку и очистку данных, создание визуализаций и интерпретацию результатов. 4. Интерпретация данных: Модель предоставила развернутые выводы по каждому графику, что помогло понять результаты анализа и сделать значимые выводы.
Также я использовала нейросеть Stable Diffusion 2.1 Demo для создания обложки к проекту.
Заключение
Анализ данных о рейтингах университетов показал важность различных факторов, влияющих на качество высшего образования. Графики наглядно демонстрируют, какие университеты лидируют по различным параметрам, таким как академическая репутация, репутация среди работодателей, соотношение студентов и преподавателей, количество публикаций и количество цитирований.
Ссылка на dataset