Анализ данных в таблицах
Используйте программы по назначению
Иногда открываешь файл, а там вот такая таблица: жирные заголовки, объединенные ячейки, раскрашенные границы, подчеркивания и выделение цветом. Красиво… но бесполезно. Это тот случай когда программа используется не по назначению.

В каких случаях можно было и не использовать Microsoft Excel и Google Таблицы?
  1. В ячейках не используются формулы со ссылками на другие ячейки.
  2. Листы не используются, как базы данных для заполнения основной таблицы с проверками ячеек.

Главная функция подобных программ — работа с данными. В первую очередь они предназначены для расчетов и структурирования, а уже во вторую для оформления. Электронные таблицы нужны, чтобы выявлять зависимости между данными и анализировать закономерности, а не чтобы распечатать красивый документ.

Если в файле нет формул, то, возможно эту таблицу стоило сделать в текстовом редакторе или вообще вести на бумаге
Формулы и функции
Формула в Microsoft Excel начинается со знака равенства =, написанного в ячейке.

Помимо базовых операторов вычисления: сложение +, вычитание, умножение * и деление /, можно использовать набор встроенных функций.

Математические функции для базовых вычислений: сумма, округление, извлечение корня, логарифм, синус и косинус.

Логические функции позволяют проверять условия и строить простейшие алгоритмы внутри таблицы: если, и, или, не.

Текстовые функции для работы со строками: удалить лишние пробелы, преобразовать текст в верхний или нижний регистр, соединить слова или извлечь отдельные фрагменты текста.

Функции даты и времени помогут определить текущую дату и время, рассчитать количество дней между датами, вычислить количество рабочих или выходных дней в диапазоне дат.

Есть и более продвинутые для работы с финансовыми расчетами, статистикой, поиском данных в таблицах и обработки массивов.

Они помогают автоматизировать вычисления и сократить количество ручной работы. Даже если знаешь малую часть, уже становится проще работать с таблицами, но лучше изучить полный cписок функций Microsoft Excel и постоянно возвращаться к нему при написании формул.
Функции Exel
Ссылка на справку по Microsoft Office
Растягивание формул
Microsoft Excel устроен таким образом, чтобы написать формулу один раз и растянуть на необходимые ячейки для расчета. Для этого требуется понимать, как использовать относительные и абсолютные ссылки.

По умолчанию ссылка на ячейку является относительной. Например, если в ячейке C1 записано =A1+B1, то при растягивании вниз программа сама изменит формулу на =A2+B2, =A3+B3 и так далее…

Абсолютная ссылка на ячейку наоборот сохраняет исходный вид при копировании. Для фиксации поставьте перед названиями столбца и строки знак доллара $. Формула будет ссылаться на одну и ту же ячейку при растягивании, если написать =$A$ 1.

Рассмотрим применение абсолютных ссылок на простом практическом примере. Сделаем таблицу умножения. Таблица умножения перемножает значения первой строки и первого столбца. Поэтому в ячейке B2 нужна формула =B$ 1*$A2. Теперь растягивая формулу вниз и вправо в каждой ячейке сохраняется логика таблицы умножения.
Использование относительных и абсолютных ссылок
Ссылка на справку по Microsoft Office
Границы применимости программ
О бесконечных возможностях Microsoft Excel ходят легенды. Говорят при желании в нем можно даже и Doom запустить... но что, если подойти к этому вопросу здравомысленно?
Microsoft Excel — это программа для работы с табличными данными с помощью графического интерфейса. Для подобных программ даже существует специальная аббревиатура WYSIWYG.
What You See Is What You Get — что видишь, то и получишь.
Для визуального анализа Microsoft Excel предлагает следующие инструменты:
 Условное форматирование ячеек;
Фильтрация данных;
Сводные таблицы;
Графики и диаграммы.

Соответственно, границы применимости при анализе сырых данных с помощью условного форматирования заканчиваются, когда человек уже не может просмотреть все данные… Визуально комфортно анализировать до 10 000 строк. Конечно, использование фильтрации и сводных таблиц расширяет границы применимости до 100 000 строк.

Но после 300 000 строк подобные программы начинают тормозить. Они не успевают пересчитывать формулы и обновлять ячейки в реальном времени. Приходится тратить время на оптимизацию формул и структуру файла… и это как раз тот, момент когда нужно применять что-нибудь без интерфейса, например Python.

Отдельная проблема с ограниченным выбором графиков и диаграмм. Например, Microsoft Excel отобразит данные с тепловизора в виде картинки с закраской пикселей по температура. Такого функционала нет — и тут уже нужны другие инструменты.
Условное форматирование
Чтобы быстрее понять структуру данных, используйте условное форматирование для выделения сведений. Этот функционал подсвечивает значения в ячейках по заданным правилам.

Применять его стоит не для красоты, а там где визуальная подсветка улучшает понимание данных:
  • выделить цветом значения выше или ниже допустимого уровня,
  • отметить повторы,
  • подсветить пропущенные значения,
  • сравнить между собой или показать прогресс от минимального к максимальному через градиент.

При таком подходе уже не читаешь каждую строку, а смотришь на таблицу как на тепловую карту. Когда таблица состоит из тысячи строк, взгляд автоматически притягивается к цветным областям. Так быстрее заметить ошибки, выбросы, аномальные значения и смещения в данных.
Использование условного форматирования для выделения сведений в Excel
Ссылка на справку по Microsoft Office
Фильтрация данных
Когда в таблице столько строк, что сложно обработать вручную, приходится анализировать данные по частям. Для этого в электронных таблицах существует фильтрация данных.

Для разового анализа подойдет фильтр данных в таблице с помощью интерфейса. В заголовках столбцов включается фильтр, который настраивается и отбирает строки по значению, диапазону чисел, дате, тексту или цвету ячейки.
Это временное представление таблицы для человека, такой инструмент нельзя использовать дальше в расчетах.

Если требуется работать с отфильтрованными данными в дальнейших расчетах, применяется фильтр с помощью формул. Функция ФИЛЬТР () создает новый лист на основе заданных условий. Настроенный с помощью формул фильтр обновляется автоматически при изменении исходных данных. Таким образом, можно быстро получать ответы на конкретные вопросы, не копируя данные вручную.
Фильтрация данных в диапазоне или таблице в Exel
Ссылка на справку по Microsoft Office
Функция ФИЛЬТР
Ссылка на справку по Microsoft Office
Сводные таблицы
Если уже и фильтры не спасают, то придется взяться за тяжелую артиллерию и создать сводную таблицу.

Сводная таблица агрегирует большие массивы данных, создавая новое представление: группирует строки, считает суммы, средние значения, количество записей и другие показатели. Сводные таблицы полезны для сравнения показателей по категориям или поиска закономерностей и выбросов.

Конечно, при крепких навыках написания формул можно сводную таблицу и вручную создать, но как же прекрасно, что в Microsoft Excel эта задача упрощена. Достаточно указать, какие поля будут строками, какие столбцами, а какие значениями. Перетаскивая поля мышкой, можно за секунды перестроить отчет и посмотреть на данные под другим углом.

По сути сводная таблица — это верх уплотнения данных и граница применимости табличных редакторов... но до этой границы нужно еще добраться в своей практике анализа данных.

Создание сводной таблицы для анализа данных листа
Ссылка на справку по Microsoft Office
Графики и диаграммы
Microsoft Excel позволяет создать диаграмму или график. При этом вы можете выбрать тип диаграммы из обширного списка: гистограммы, графики, круговые, кольцевые, линейчатые, пузырьковые, лепестковые… их очень много.

Обычно люди используют этот функционал примитивно и не правильно. Показательный пример приведен на рисунке. Нельзя на кольцевой диаграмме показывать проценты. Угол сектора в круге и так показывает проценты. Лучше отобразить абсолютное значение — 30 диаграмм похожи на пакмена, а 170 не похожи на пакмена.

Нет смысла вставлять столбчатую диаграмму, если она не несет в себе больше информации, чем исходная таблица со значениями раскрашенными условным форматированием. Нужно помнить что диаграмма должна давать взгляд на данные в новом ракурсе.

Кроме того встроенные в Microsoft Excel диаграммы ограничены в настройках и лучше использовать для визуализации другие сервисы.
Создание диаграммы от начала до конца
Ссылка на справку по Microsoft Office
Типы диаграмм в Office
Ссылка на справку по Microsoft Office
Структура файла
При работе с таблицами в Microsoft Excel важно сохранять правильную структуру файла. Не стоит смешивать в одном листе исходные данные, расчеты и результаты. Если структура выбрана неправильно с файлом будет сложно работать.

Каждый лист должен выполнять одну логическую роль. Условно можно выделить на три типа листов.
  • Исходные данные
    Это таблицы, которые заполняются вручную или загружаются из внешних источников. Принципы организации таких листов схожи с ведением баз данных. Здесь не применяют формулы и оформление, а только проверку данных в ячейках.
  • Промежуточные расчеты
    На этих листах живут столбцы с вычислениями дополнительных параметров и применяются фильтры. Это область файла, которая тоже не требует оформления. Здесь главное, чтобы логика расчетов оставалась прозрачной и не требовала ручного ввода.
  • Итоговые отчеты
    Это сводные таблицы, графики и диаграммы. Именно эти листы показывают коллегам и руководству, поэтому все оформление происходит здесь.
Такое разделение упрощает жизнь сразу по нескольким причинам. Снижается риск случайно сломать формулу при редактировании данных. Проще масштабировать решение: добавлять новые данные, расчеты или отчеты. Кроме того, файл становится понятнее как автору, так и новому пользователю.
Принципы составления баз данных
Одна сущность в одной строке
Каждая строка описывает ровно один объект: человека, документ, операцию, замер, выработку. Как только в одной строке появляется несколько объектов, данные перестают быть однозначными и их невозможно корректно анализировать.
Один тип данных в одном столбце
В столбце хранятся либо числа, либо даты, либо текст, либо категориальные значения. Если в одном столбце встречаются и числа, и комментарии вроде «нет данных», база уже сломана. Для пояснений нужен отдельный столбец.
Никакой визуальной логики внутри данных
Объединенные ячейки, пустые строки, подзаголовки посередине таблицы нужны для чтения, но губительны для обработки. База данных должна быть монотонной. Шапка сверху, дальше — ровный массив строк без визуальных изысков.
Минимизация избыточности данных
Повторяющиеся значения, выносите в справочник. Речь идет о работе с категориями, статусами и классификаторами. Один раз исправить ошибку в справочнике проще, чем исправлять десятки одинаковых строк.
Разделение данных и расчетов
Таблица с исходными данными не содержит формул. Вычисления, агрегаты и отчеты лучше выносить на отдельные листы. Это снижает количество ошибок и упрощает сопровождение файла.
Если соблюдать эти принципы, Google Таблицы начинают работать как простая база данных. Фильтры, сводные таблицы и формулы поиска начинают давать предсказуемый результат.
Проверка ячеек
Когда исходные данные в таблице заполняют разные люди, каждый вводит данные по-своему. Если ввести лишний пробел, точку вместо запятой, текст вместо числа или другой формат даты, то формулы начинают работать неправильно.

Применение проверки данных к ячейкам позволит избегать случайные ошибки. В ячейку можно разрешить вводить только числа из фиксированного диапазона, только даты, только значения из списка или только строки определенной длины. Проверка данных помогает ограничить ввод так, чтобы в таблице появлялись только корректные значения.

Чем больше людей работает с таблицей и чем критичнее данные, тем важнее подключать проверку ячеек. Если однажды настроить диапазоны значений, списки выбора и формат вводимых данных, то дальше работа с таблицей становится предсказуемой и надежной. Формулы перестают ломаться, а сам файл проще поддерживать.
Применение проверки данных к ячейкам
Ссылка на справку по Microsoft Office
Google Таблицы
Сам я уже давно не использую Microsoft Excel и перешел на Google Таблицы.
Синтаксис Google Таблиц мне кажется лаконичным. Импортировать данные из других файлов проще. Совместная работа с таблицами происходит надежнее.

Я замечаю множество удобных мелочей в Google Таблицах. Одна только возможность написать в браузере sheet.new, чтобы создать новую таблицу, уже вызывает у меня щенячий восторг. 🐶
Google Таблицы как база данных
Никогда не понимал чем Google Таблицы хуже базы данных. Если сохранять структуру файла и соблюдать принципы составления баз данных при ведении таблиц, то очевидных различий нет. При этом не нужно никакой настройки серверной части и не требуется ни строчки кода… Формулы — это ведь не код?

С помощью функции IMPORTRANGE () можно разнести базу данных, расчеты и итоговые отчеты в отдельные файлы.

В Google Таблицах есть инструменты для совместной работы и авторизация пользователей. Несколько человек одновременно могут безопасно добавлять новые записи, не мешая расчетам и отчетам.

Конечно при разрастании проекта Google Таблицы начнут тормозить из-за визуализации данных и тогда стоит переходить к полноценной системе управления базами данных. Хотя для большинства прикладных задач Google Таблицы отлично справляются с ролью простой и наглядной базы данных.
А можно ли сделать для этого
нормальный интерфейс?
Если вы задавали себе такой вопрос, то присмотритесь к сервису Glide. Он поможет сделать прекрасный интерфейс для вашего шедевра запиленного на Google Таблицах.
Google Таблица остается базой данных и вычислительным ядром, а Glide становится пользовательским интерфейсом. Важно, что ничего переписывать не нужно. Формулы продолжают жить в таблице, а новый интерфейс ограничивает помогает пользователю вводить данные и аккуратно показывает результаты.
Тяжелый арсенал
Если не хочется постоянно растягивать формулы вниз, то нужно освоить подход по работе с массивами Google Таблиц. Вот первая и самая важная функция, которая развязывает руки.

ARRAYFORMULA ()
Позволяет написать одну формулу, которая сразу работает с диапазоном данных и возвращает массив значении. По сути, вы описываете правило, а не отдельное вычисление. Таблица сама применяет его ко всем столбцам или строкам. Это резко сокращает количество формул в файле и делает логику прозрачной.

Таким образом, можно писать одну формулу для столбца. Ну, а если хочется, чтобы одна формула заполняла весь лист то пользуйтесь функциями для объединения массивов.

HSTACK ()
Объединяет массивы по горизонтали. Она соединяет столбцы.

VSTACK ()
Делает то же самое, но по вертикали.

Конечно подобный формат работы с данными требует мышления категориями массивов и правил, но после освоения этого подхода возвращаться к формуле в каждой строке становится физически больно.
Итеративные вычисления
Встречали такое?
Если вы слышали про решение математических задач в численном виде, то знаете не все рассчитывается формулами. В некоторых случаях задача решается только приблизительно путем циклических вычислений.

При попытке сделать ссылку на ячейку, в которой пишите формулу, вы увидите сообщение о циклической ссылке. Иногда такой цикл — это и есть правильная модель.

В настройках можно включить итеративные вычисления. Тогда таблица пересчитывает формулы, пока значения не перестанут меняться или не будет достигнут лимит итераций. По сути, это численный метод решения задачи, завернутый в привычный интерфейс.

Работайте с итеративными вычислениями аккуратно. Можно незаметно изменить формулу, получить расходимость, странные значения или зависимость результата от количества итераций. Кроме того, итеративные модели требуют обязательного пояснения в файле, чтобы следующий человек понимал, что происходит.

Итерации нужны там, где без них модель теряет смысл. Если задачу можно выразить формулой без обратных ссылок, так будет надежнее и быстрее. Сам я не использую итеративные вычисления и считаю, что это показатель того, что пора переходить решению задачи с помощью программирования.
Итеративные вычисления
Ссылка на справку по Microsoft Office
Новые горизонты Google Таблиц
В Google Таблицах для этого появилась экспериментальная функция.

AI ()
Создает краткие пересказы, группирует контент по категориям или генерирует текст с помощью Gemini, учитывая значение в указанном диапазоне.

С одной стороны эта функция медленно работает и по сути такой же костыль, как и другие функции, работающие через сервер.

GOOGLEFINANCE ()
Помогает получить текущие или архивные сведения о ценных бумагах из сервиса Google Финансов.

GOOGLETRANSLATE ()
Переводит текст с одного языка на другой с помощью сервиса Google Переводчик.

А с другой стороны, она открывает совершенно новый пласт возможностей. Google Таблицы превращаются мощный аналитический инструмент для работы с текстом. Теперь можно работать и с некачественными текстовыми данными:
  • категорировать комментарии,
  • нормализовать формулировки,
  • описать свойства предметов,
  • генерировать поясняющий текст.

Важно помнить, что функция экспериментальная. Это не серебряная пуля и не замена мышлению. Зато как инструмент для первичной обработки текстовых данных, наведения порядка в комментариях и ускорения рутинных операций — она отлично вписывается в логику электронных таблиц.
Не нужно уметь писать формулы
Используйте языковые модели для поиска решений по анализу данных в Microsoft Excel.

Если раньше аналитика требовала знания функций Microsoft Excel и ручного написания формул, то сегодня главное правильно задать вопрос языковой модели и формула готова. Теперь даже не обязательно помнить, как рассчитать путь из известных координат. Просто спросите это у языковой модели.

Я уже писал про такой подход к программированию для инженеров, он сработает и с Microsoft Excel. Правда навык написания формул в Microsoft Excel не имеет особого отношения к аналитике.
Программирование для инженеров
Ссылка на пост в моем Телеграм-канале
Нужно уметь задавать вопросы
Аналитика заключается в поиске способов обработки и интерпретации данных. А для этого задавать себе вопросы.

  • Какую косвенную информацию я могу получить из исходных данных?
  • Какую гипотезу я могу проверить из этих данных?
  • Можно ли получить дополнительные данные, если этих не хватает для проверки гипотезы?
  • Что будет являться метриками?
  • Что считать нормой, а что отклонением?
  • На какие категории нужно разделить данные для правильной картины?

Если не задавать себе вопросы, то какой инструмент не используй, все равно нормальной аналитики не получится.