Комп'ютерна Академія IT STEP - повноцінна IT-освіта для дорослих і дітей. Ми навчаємо з 1999 року. Авторські методики, викладачі-практики, 100% практичних занять.

Ви використовуєте застарілий браузер!

Ваш браузер Internet Explorer, на жаль, є застарілим. Ця версія браузеру не підтримує багато сучасних технологій, тому деякі функції сайту можуть працювати з помилками. Рекомендуємо переглядати сайт за допомогою актуальних версій браузерів Google Chrome, Safari, Mozilla Firefox, Opera, Microsoft Edge

🔥Пройдіть Безкоштовний Тест на ІТ-професію! Дізнайтеся що саме вам підходить!

00

днів

09

годин

17

хвилин

Пройти!
ШАГ логотип

Неочевидні помилки в Python Pandas під час роботи з Big Data (великим об’ємом даних)

ITSTEP Academy

Програмування

12.07.2022

2120 переглядів

Pandas – це інструмент для обчислення даних, розроблений на мові програмування Python. Пандас використовується для комерційних цілей, штучного інтелекту – обробити велику кількість змінних та структурувати їх в єдину систему.

Простіше кажучи, Пандас — це велика таблиця Excel для програміста. Ось як виглядає проста схема обчислення продажів компанії в Pandas:

Після внесення даних у Pandas, вони структуруються в систему за допомогою спеціальних команд

Результат отримуємо у вигляді таблиці зі стовпчиками та рядками

Вся таблиця з даними називається DataFrame. За його допомогою аналітик може побудувати великий ланцюжок дій, не вдаючись до старомодного Excel або інших програм.

Наприклад – використовуючи додаткову команду pandas (append). Вона замінює формат, представлений на зображенні в один рядок. Pandas заздалегідь запам'ятав великий набір даних і може уявити його у простому варіанті через подібні команди.

Кожен стовпець у датафрейм називається Series. Він відповідає за певну категорію даних. У нашому прикладі це: загальний дохід (revenue), кількість проданих предметів (items_sold) та нові клієнти (new_clients).

Начебто все просто: написав просту команду, завантажив дані і все збереглося в DataFrame. Але під час роботи з даними більше 1 ГБ (BigData) у аналітиків виникають помилки. І деякі важко помітити, особливо новачкові.

З оглядовим вступом закінчили. Перейдемо до 5 неочевидних помилок у Датафрейм Пандас. А головне — як їх вирішити чи не стикатись зовсім.

Ви працювали з більшим об'ємом, ніж дозволяє обробка даних у Python Pandas

У Пандас немає багатопроцесорної підтримки і він повільно працює з великими наборами даних. Доводиться витрачати купу часу в очікуванні, поки бібліотека прочитає безліч файлів, агрегує та обчислить функції.
 
Для експерименту ми взяли приклад користувача з Інтернету. Він завантажив у Пандас 10 файлів за 196 МБ кожен. І перевірив, скільки часу займе обробка даних:

16 секунд на майже 2 ГБ пам'яті — це дуже довго. А якщо програміст працює із сотнями бібліотек по 200 МБ, проводить 100-150 тестів? Весь робочий день безрезультатно витрачається на обробку даних.

Альтернатива — використання для BigData бібліотеки Dask. Система продумана так, щоб швидко структурувати великий обсяг даних. Подивіться самі.

Операції Python в Dask зайняли всього 212 мілісекунд на обробку даних!

Потім структуровані дані можна окремо завантажити і прораховувати в Пандас, тому що він працює швидше саме з маленькими бібліотеками.

Pandas міг неправильно прочитати типи даних

Тип даних — внутрішнє уявлення коду, яке Python використовує для розшифровки: що зберігати і як керувати даними, що додавати, а на що ділити і т.д. Наприклад, щоб отримати суму 5+10 або об'єднати кілька слів в одне.

Неочевидна помилка в тому, що між Pandas, Python та NumPy існує певний збіг.

Порівняння типів даних

Під час імпортування csv. Пандас та NumPy одночасно можуть виникати помилки, бо ніхто тип даних не враховував. Наприклад:

Користувач завантажив файли в Пандас з різних бібліотек, через що виникла помилка в системі.

Розбіжності навантажують оперативну пам'ять комп'ютера. Система могла працювати швидше, але ми перешкодили їй додатковими бібліотеками NumPy.

Поради щодо уніфікації баз даних

Отже спочатку дивимося, що типи даних встановлені правильно. Де є помилка — виправляємо.

Стилізація бази даних через CSS

Деякі аналітики додають у блокноти стиль, колір та візуалізацію даних через коди CSS. З одного боку — це корисно для обробки інформації. Дані можна знайти за кольором або категорією. З іншого боку, новачок, які ще не освоїв Пандас досконало, може неправильно стилізувати таблицю. І отримати помилку під час читання.

Для стилізації даних використовується параметр style. Ось приклад однієї з таких візуалізацій у HTML-блокноті.

Деякі дані виділені за допомогою CSS, щоб не заплутатись у BigData

Про правильне використання стайлерів у бібліотеці Пандас ми докладно розповідаємо на одному з уроків курсу Python від Академії STEP.

Мораль: не вмієте керувати Pandas та CSS одночасно — це і не так важливо! Стилізація стає другорядною, коли страждає функціонал. Спочатку потрібно вивчати основи, а вже за бажанням — доповнення.

Читання CSV займає багато часу

CSV-файл — один із найпростіших форматів для зберігання таблиць. Тому його люблять додавати до бібліотеки Пандас. Але читання csv. займає більше часу, ніж інші формати. Подивіться на приклад:

Така табличка — одна з ланок в BigData. А що якщо потрібно прочитати та структурувати понад 2000 аналогічних файлів?

У прикладі розробників стандартний csv. файл читався майже три хвилини. Потім, для експерименту використовували формати parquet, feather, pickle. Результат — до 9 мілісекунд!

Мораль: спробуйте використати інший формат файлу під час роботи з BigData. Можливо, у вас вийде скоротити час зчитування Pandas. І зберегти нерви.

Та навіщо читати посібники? Є причина

Помилка новачка — одразу йти і робити, не читаючи фундаментальних матеріалів. До таких відносяться мануали з Python та Pandas.

Завантажити посібник можна за посиланням

Так, це забере більше часу, ніж хотілося б. Бажання піти і щось уже кодити бере вгору. А на проблеми відповідь завжди знайдеться в інтернеті. Не зовсім.

У посібнику Pandas докладно розписано всі помилки, про які ми говорили у статті. Навіть є окремий розділ роботи з BigData: як правильно завантажувати дані, у якому форматі і що писати, щоб отримати структурований DataFrame.

Роботі з Пандас, типами даних та іншими фішками Python ми навчаємо в Академії STEP. Не навантажуючи вас тонами літератури та посібників від розробників, зрозуміло розповідаємо про програмування. Закріплюємо отримані знання практичними завданнями.

Вже за рік наші учні працюють у компаніях рівня IBM чи eBay. Ви також можете стати частиною команди іноземних розробників. 
Перейдіть до найдетальнішого курсу Python, щоб не допускати помилок новачка і стати справжнім профі.
 



Автор:

Редакція Академії ITSTEP

Освіта для дорослих

Розробка програмного забезпечення

ТОП-10 найбільш перспективних ІТ-напрямів для початківців у 2026 році

ТОП-10 найбільш перспективних IT-напрямів 2025 року допоможе початківцям обрати шлях у сфері технологій. Програмування, дизайн, кібербезпека, Data Science та DevOps - які спеціальності користуються найбільшим попитом та як почати кар’єру з нуля

Сьогодні ІТ - це вже не просто модна професія, а ціла екосистема можливостей. Українські школярі, студенти та молоді фахівці все частіше обирають технологічні спеціальності не лише через високі зарплати, а й через відчуття стабільності та свободи, яку дає ця сфера. Поки інші галузі переживають кризу, IT продовжує працювати, адаптуватись до умов війни та навіть розвиватися. Цифрові сервіси, онлайн-освіта, кібербезпека, автоматизація бізнесу - усе це потребує людей, які розуміються на технологіях. Звідси - постійний попит на фахівців, здатних

ШАГ логотип

Дизайн

Розробка програмного забезпечення

Скільки заробляє моушн-дизайнер в Україні: огляд ринку у 2025 році

Скільки заробляє моушн-дизайнер в Україні у 2025 році. Ми розповімо про середні зарплати, розподіл за досвідом, перспективи фрилансу та віддаленої роботи, а також поради, як швидко прокачати навички й отримати високий дохід

Професія моушн-дизайнера стає дедалі популярнішою серед української молоді — школярів, студентів і тих, хто лише планує увійти в ІТ. Це не дивно: сьогодні відеоконтент є одним із найефективніших інструментів комунікації, а бізнесам потрібні фахівці, які можуть створювати якісну анімацію для реклами, соціальних мереж, презентацій і навіть кіберспорту. Моушн-дизайн поєднує креатив і технології: тут важливо відчувати стиль, мислити візуально, але й володіти сучасними цифровими інструментами. Український ринок відкриває чимало можливосте

ШАГ логотип

Освіта для дорослих

Програмування

Soft-skills

Хто такий Data Scientist в компанії: покрокова інструкція для успішної кар'єри

Як стати Data Scientist і працювати з даними в Україні та за кордоном? Дізнайся, які навички потрібні, як будувати портфоліо, проходити стажування та знайти першу роботу. Покрокова інструкція та поради від ITSTEP Academy допоможуть стартувати кар’єру.

Data Science – це одна з найдинамічніших і найприбутковіших галузей сучасного IT-світу. Кожна компанія, від стартапу до міжнародного холдингу, сьогодні прагне приймати рішення, спираючись на дані. Саме тому попит на фахівців, які вміють збирати, аналізувати й інтерпретувати інформацію, постійно зростає. В Україні ринок Data Science активно розвивається: великі банки, e-commerce компанії, медіа, агробізнес і навіть державні структури шукають аналітиків даних і Data Scientists. За даними українських HR-платформ, зарплати у сфері Data Science одні з найвищих в IT, а попит на

ШАГ логотип

Освіта для дорослих

Дизайн

Пробний урок

Скільки заробляє графічний дизайнер в Україні у 2025 році

Скільки заробляє графічний дизайнер в Україні у 2025 році. Середні зарплати, розподіл за рівнем досвіду, вплив міста на доходи, перспективи кар’єрного росту та особливості роботи на фрілансі для дизайнерів різних рівнів

Графічний дизайнер — це фахівець, який поєднує креативність і технології для створення візуальних рішень: від логотипів і рекламних банерів до інтерфейсів сайтів та мобільних застосунків. Його робота спрямована не лише на естетику, а й на ефективну комунікацію між брендом та аудиторією. У сучасному світі саме візуальний контент стає вирішальним фактором у просуванні продуктів і послуг. Кожна компанія — від малого бізнесу до міжнародних корпорацій — потребує якісного дизайну, який допомагає формувати імідж, залучати клієнтів та утрим

ШАГ логотип

Цей сайт використовує Cookies

Політика конфіденційності