Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Социально-экономическое районирование в эпоху больших данных

Покупка
Основная коллекция
Артикул: 666290.03.01
Доступ онлайн
от 236 ₽
В корзину
Изложены результаты первого в мире исследования возможностей использования методов районирования для обработки больших объемов постоянно обновляемых эмпирических геоданных. Приведены основные виды таких данных, требования к методическому аппарату, векторы развития методологии, постсоветские тренды районирования, новые виды районов, комбинации смыслов районирования и сферы применения схем районирования. Представлены алгоритмы построения концептуальной модели, отбора информативных признаков, создания системы методов, выявления однородных, узловых и эволюционных районов, оценки качества дифференциации территории, верификации и интерпретации полученных результатов.
Блануца, В. И. Социально-экономическое районирование в эпоху больших данных: Монография / Блануца В.И. - Москва :НИЦ ИНФРА-М, 2019. - 194 с. (Научная мысль) ISBN 978-5-16-013259-4. - Текст : электронный. - URL: https://znanium.com/catalog/product/1014727 (дата обращения: 03.06.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.

            НАУЧНАЯ МЫСЛЬ


СЕРИЯ ОСНОВАНА В 2008 ГОДУ



B.U. БЁЙДОЦЙ





                СОЦИАЛЬНО-ЭКОНОМИЧЕСКОЕ РАЙОНИРОВАНИЕ
                В ЭПОХУ БОЛЬШИХ ДАННЫХ




МОНОГРАФИЯ








znanium.com

Москва ИНФРА-М 2019
УДК 911.6(075.4)
ББК 26.82

     Б68



          Монография обсуждена и рекомендована к изданию Ученым советом
          Института географии имени В.Б. Сочавы Сибирского отделения РАН

      Рецензенты:
         Л.А. Безруков, доктор географических наук;
         А.Ф. Никольский, доктор географических наук;
         А.Я. Якобсон, доктор географических наук, профессор




      Блануца В.И.
Б68 Социально-экономическое районирование в эпоху больших данных : монография / В.И. Блануца. — М. : ИНФРА-М, 2019. — 194 с. — (Научная мысль). — www.dx.doi.org/10.12737/monography_ 59f81ac5ede918.09423566.


         ISBN 978-5-16-013259-4 (print)
         ISBN 978-5-16-105983-8 (online)


         В монографии изложены результаты первого в мире исследования возможностей использования методов районирования для обработки больших объемов постоянно обновляемых эмпирических геоданных. Приведены основные виды таких данных, требования к методическому аппарату, векторы развития методологии, постсоветские тренды районирования, новые виды районов, комбинации смыслов районирования и сферы применения схем районирования. Представлены алгоритмы построения концептуальной модели, отбора информативных признаков, создания системы методов, выявления однородных, узловых и эволюционных районов, оценки качества дифференциации территории, верификации и интерпретации полученных результатов.
         Издание предназначено для специалистов, студентов и аспирантов.


УДК 911.6(075.4)
ББК 26.82











ISBN 978-5-16-013259-4 (print)
ISBN 978-5-16-105983-8 (online)

© Блануца В.И., 2017
    Введение

   Для ориентации среди разнообразных исследований по районированию территории целесообразно различать учение о районах (районоло-гию), процесс формирования районов (районообразование), метод их выявления (районирование) и конечный результат (схему районирования или систему районов). В монографии будет рассмотрено только множество методов выявления районов, включая вспомогательные и дополнительные методы. Схемы районирования будут учитываться только в плане их использования для идентификации метода выявления районов и оценки эффективности его использования. Учению о районах [Блануца, 1992; Каганский, 2003; Родоман, 1999; Смирнягин, 2005] не планируется посвящать отдельный раздел монографии, но оно будет подразумеваться при анализе методов районирования. Что касается районообразования, то этот процесс зависит от специфики районирования (например, самоорганизации элементарных информационнокоммуникационных сетей в магистральные сети, понимаемые как районы [Блануца, 2016а]) и также будет анализироваться только в связи с методом выявления районов.
   Все разнообразие работ по выявлению районов можно свести к трем классам - природному (физико-географическому), природнообщественному (природно-хозяйственному, эколого-экономическому) и общественному (социально-экономическому) районированию. В монографии будет рассмотрен только последний класс, который может делиться на подклассы (группы видов) и виды районирования в зависимости от особенностей процесса районообразования. Поэтому под социально-экономическим районированием будем понимать выявление всех видов районов, которое осуществляется в рамках социальноэкономической географии. В свою очередь, методы выявления социально-экономических районов с некоторой условностью можно разделить на количественные, использующие цифровые данные и соответствующие способы их обработки, и качественные, основанные на интуитивных, экспертно-индивидуальных способах принятия решений. Уделяя основное внимание количественным методам, надо иметь в виду, что уже опубликованы монографические работы по применению таких методов в физико-географическом [Куприянова, 1977] и экологоэкономическом [Блануца, 1993] районировании. Поэтому весьма актуально появление соответствующей работы по социальноэкономическому районированию, которое в методологическом смысле является наиболее сложным классом выявления районов и, соответственно, в большинстве случаев опирается на качественные методы.
   Разделение территории на районы возможно в рамках двух методологических подходов: путем объединения исходных операционных тер

3
риториальных единиц (ОТЕ) в районы с учетом заранее заданного, эталонного описания искомых территориальных образований («распознавание образов с учителем») и через обнаружение априори не заданного количества, структуры и сущности районов («распознавание образов без учителя»). При этом районы могут как выделяться (за счет статистического разбиения множества ОТЕ на подмножества), так и выявляться (в плане отыскания объективно сложившихся территориальных образований). В монографии предпочтение отдается способам выявления заранее неизвестных и объективно формирующихся районов, что соответствует традициям отечественной районной школы экономической географии [Баранский, 1980; Колосовский, 1969].
   Общее представление о социально-экономическом районировании было бы неполным без перечисления основных проблем. Согласно В.Г. Шувалову, в первую очередь необходимо решить проблемы изменения роли районообразующих факторов, соотношения экономических и социальных факторов, понимания объективности и субъективности районов, сочетания критериев специализации и комплексности, соответствия основных принципов госплановского районирования современным условиям, возможности и целесообразности проведения интегрального районирования, соотношения районирования с административно-территориальным делением, практической значимости районирования [Шувалов, 2005]. По Л.В. Смирнягину перед социально-экономическим районированием стоят десять «проклятых вопросов»: об объективности, комплексности, однородности, границах, фор-мационности, динамике, соразмерности, модусе, иерархии и наборе признаков [Смирнягин, 2004]. Здесь также можно отметить ранее выявленные [Блануца, 1992] четыре ограничения и шесть направлений расширения районологического знания, актуальные до сих пор. К ограничениям были отнесены: ориентация только на модель объекта районирования, завершение работ по районированию характеристикой выделенных районов, понимание районирования как заключительной стадии комплексного географического изучения территории и отнесение районирования к уникальным способам познания. Для решения этих и других проблем были намечены следующие направления: усложнение представления о процессе районообразования, пересмотр основных принципов районирования, расширение требований к исходной информации, комплексирование отдельных методов районирования, расширение существующих и появление новых функций районирования, вторжение в новые области познания.
   Для понимания сущности районирования важны еще два уточнения. Первое из них связано с разделением всех способов выявления районов на индивидуальное и типологическое районирование. В первом случае каждый район является не только целостным, но еще и специфичным

4
(уникальным) территориальным образованием, а во втором - типичным образованием, допускающим существование однотипных районов в разных частях исследуемой территории. Типологическое районирование, по сути, представляет собой обычную классификацию ОТЕ и рассматривается далее только как вспомогательная процедура собственно районирования (см., например, типологию элементарных сетей для последующего выявления сетевых районов [Блануца, 2014а, 2016а]), которое является индивидуальным. Второе уточнение связано с выделением однородного, узлового (коннекционного, функционального) и эволюционного районирования. Первые два метода (группы методов) являются традиционными [Родоман, 1999; Смирнягин, 2005] и призваны обнаруживать районы по сходству (однородности) заданного набора показателей или по интенсивности взаимодействия неоднородных ОТЕ. Третья группа методов социально-экономического районирования была предложена относительно недавно и нацелена на выявление районов по подобию траекторий развития (темпоральной идентичности) смежных ОТЕ [Блануца, 2016б].
   Первые публикации по социально-экономическому районированию появились в XVIII веке. Д.Н. Замятин провел наукометрический анализ отечественных работ в данной области, опубликованных в 17611941 гг., и выделил четыре периода [Замятин, 1993, с. 123-124]: «создание “зародышевых” работ» (до 1910 г.), «начального развития идей» (1910-1922 гг.), «экспансии идей» (1923-1929 гг.) и «падения числа публикаций» (1930-1941 гг.). При этом в 1870-1941 гг. им были выявлены три научные парадигмы экономического районирования - «отраслевая эмпирическая», «образно-интуитивная описательная» и «системно-энергетическая» [Замятин, 2000, с. 7]. В послевоенный период развитие районирования было связано с двумя научными революциями в географии - количественной и радикальной [Barnes, 2004; Berry, 1993; Burton, 1963; Harvey, 1972; Peet, 1977; Radical Geography.... 1978], приведшим к появлению новых количественных и качественных методов идентификации районов. С некоторой условностью можно выделить следующие активные периоды обоих революций: 1949-1970 гг. (ориентируясь на работу Т. Барнса [Barnes, 2014], будем считать от выхода в свет монографии Г. Ципфа [Zipf, 1949] до формулировки У. Тоблером первого закона географии [Tobler, 1970]) и 1969-1982 гг. (от выхода первого номера журнала радикальной географии «Антипод» до публикации монографии Д. Харви «Пределы капитала» [Harvey, 1982]). Что касается постсоветского времени, то о состоянии дел в России можно судить по материалам Всероссийской конференции по социальноэкономическому районированию, которая была проведена в Ростове-на-Дону в 2004 г. [Районирование., 2004], и анализу 12 ведущих россий-

5
ских журналов географического профиля за 2005-2014 гг. [Шувалов, 2015].
   Не вдаваясь в сущность прошлых научных революций и доминировавших тогда парадигм, отметим основной вектор современности (второго десятилетия XXI в.) - стремительное увеличение объема и общественной значимости «больших данных» («Big Data»), которое может привести к новой революции. Судя по ряду публикаций, такая революция уже началась [Kitchin, 2014; Mayer-Schonberger, Cukier, 2013] и затронула социально-экономическую географию [Graham, Shelton, 2013; Kitchin, 2013; Miller, Goodchild, 2015; Wyly, 2014]. Даже если трактовать этот процесс как эволюционное вхождение в эпоху больших объемов эмпирической информации или продолжение распространения количественных методов в географии [Barnes, 2013; 2014; Cresswell, 2014], все равно возникает проблема определения основных векторов развития методологии районирования, задаваемых новыми условиями.
   «Большие данные» как бы противопоставляются «малым данным» и граница между ними является условной и подвижной - то, что сегодня относится к «большим данным», завтра может рассматриваться уже как незначительный объем. Если обратиться к открытому ресурсу Google Ngram Viewer, отслеживающему встречаемость слов и словосочетаний в оцифрованных книгах 1800-2000 гг., то термин «big data» встречался в публикациях 1930 и 1936 гг., а с 1956 г. частота его встречаемости постоянно росла. Однако только в XXI в. «большие данные» стали социально значимым феноменом. Возможно, одним из первых исследователей, обратившим внимание именно на феномен, был Д. Лейни [Laney, 2001], но бурное обсуждение этой проблематики внекомпьютерных сферах началось в 2008 г. с подачи редактора журнала «Nature» К. Линча [Lynch, 2008].
   Наиболее простая трактовка «больших данных» заключается в невозможности поместить эти данные в одну таблицу Excel [Strom, 2012]. Отсюда вся количественная информация, объем которой может быть размещен в такой таблице, будет считаться «малыми данными». Размер таблицы Excel 2003 составлял 65 536 строк на 256 столбцов (16 777 216 ячеек с определенной длиной записи). В последующих версиях (Excel 2007, 2010, 2013) размер таблицы составил 1 048 577 х 16 385 = 17 180 934 145 ячеек, т.е. вырос примерно в тысячу раз. Согласно другому пониманию, «большие данные» должны соответствовать трем «V» - «Volume, Velocity, Variety» [Laney, 2001]. Третью -обобщающую - трактовку предложил ирландский географ Роб Китчин, которого можно считать одним из главных идеологов новой научной революции (как автора монографии «The Data Revolution» [Kitchin, 2014]). В его понимании [Kitchin, 2013, p. 262] большие данные харак-6
теризуются огромным объемом (в терабайтах или петабайтах), высокой скоростью (соответствует или приближается к реальному времени), разнообразием (наличием структурированных и неструктурированных данных), исчерпывающим свойством (стремлением охватить все население мира и все технические системы), «мелкой зернистостью» (максимальной детальностью описания объектов), реляционностью (возможностью управления различными таблицами) и гибкостью (быстрым изменением размера, масштабируемостью).
   «Большие данные» используются в основном в коммерческих и государственных организациях [Доклад..., 2015; Карпова, Суринов, Ульянов, 2016; Миловидов, 2016; Ференец, 2016; Batty, 2013; Kitchin, 2014; Mayer-Schonberger, Cukier, 2013]. На данный момент времени это применение в целом носит эпизодический характер, что не позволяет говорить о всеобъемлющем вступлении человечества в эпоху «больших данных». Однако бурный рост технологий в данной области (геолокация, интернет вещей, беспроводные сенсоры, компактные спутники дистанционного зондирования Земли, «умные дома», «умные города», обработка всей информации из социальных сетей в режиме реального времени, облачные вычислительные ресурсы и др.) позволяет предвидеть значительное расширение использования «больших данных» в ближайшие годы. Согласно корпорации «Cisco», в конце 2016 г. человечество вступило в «эру зеттабайт» («The Zettabyte Era»), т.е. 12месячный мировой IP-трафик преодолел рубеж в 1 ZB или 10²¹ байт [White paper., 2016]. В преддверии широкого распространения «больших данных» во многих научных дисциплинах (в том числе в общественных науках; см. [Берроуз, Севидж, 2016; Бородкин, 2015; Волков, Скугаревский, Титаев, 2016; Смирнов, 2015; Bearman, 2015; Bohloudi et al., 2015; Dalton, Thatcher, 2015; Hesse, Moser, Riley, 2015; Metcalf, Crawford, 2016] и др.) начались дискуссии и подготовка к новым исследовательским возможностям.
   Для приблизительной оценки доли географических работ в отечественных исследованиях по рассматриваемой проблематике на основе веб-сайта eLIBRARY.RU было подсчитано число журнальных статей с ключевым словом «большие данные» для разных групп научных дисциплин (табл. 1). Получилось, что из 481 статьи 129 относились к экономическим, социологическим и политическим наукам и только 6 - к географическим дисциплинам (все они были по картографии). Из этого следует, что в отечественной социально-экономической географии не было ни одной статьи (до 2017 г.) по использованию больших объемов постоянно обновляемой эмпирической информации, в то время как за рубежом географы-обществоведы активно обсуждали новые возможности ([Barnes, 2013; 2014; Cresswell, 2014; Graham, Shelton, 2013; Kitchin, 2013; Miller, Goodchild, 2015; Wyly, 2014] и др.).

7
Таблица 1
Распределение количества отечественных журнальных статей, в которых «большие данные» были одним из ключевых слов, по группам научных дисциплин и году публикации (рассчитано по материалам веб-сайта eLIBRARY.RU на 1 марта 2017 г.)

    Группы                Годы                Всего
    научных     2011 2012 2013 2014 2015 2016      
   дисциплин                                       
Информатика      6    14   29  57   54    49   209 
Экономические    0   0     4   15   28    41   88  
науки                                              
Социологические                                    
и политические   0   0     4    7   16    14   41  
науки                                              
Географические   0   0     0    2    3    1     6  
науки                                              
Остальные науки  0   0     9   21   46    61   137 
Итого            6    14   46  102  147  166   481 

   Генеральный список всех видов «больших данных» еще не составлен и даже не разработаны соответствующие принципы классификации. Поэтому имеет смысл кратко перечислить только отдельные нечеткие (неклассифицированные) виды, которые потенциально могут использоваться в социально-экономическом районировании территории (обозначены аббревиатурой BDfR - «Big Data for Regionalization»). К таковым в первом приближении могут быть отнесены следующие виды данных:
   •    BDfR(a) - траектории перемещения в пространстве в реальном времени каждого отдельно взятого человека, получаемые от устройств мобильной связи через глобальные системы позиционирования;
   •    BDfR(b) - аналогичные сведения о перемещении всех транспортных средств (через метки радиочастотной идентификации);
   •    BDfR(c) - территориально распределенные постоянно обновляемые данные об экономической активности всех промышленных производств, генерируемые космическими системами дистанционного зондирования (проекты, подобные «China Satellite Manufacturing Index» [Chine..., 2017]);
   •    BDfR(d) - поток данных из социальных сетей о политических, культурных, рекреационных и иных предпочтениях каждого человека с указанием его местоположения по геолокации;

8
   •     BDfR(e) - аналогичные данные, получаемые от автоматических систем фиксации всех действий каждого человека во Всемирной паутине (интернет-серфинг, email-контакты и др.);
   •     BDfR(f) - интернет-трафик и другие виды трафика в сетях электросвязи, привязанные к каждому человеку и/или каждой точке пространства;
   •     BDfR(g) - геоданные от сенсоров и веб-камер, работающих по технологии M2M («machine-to-machine»).
   В настоящий момент времени эти данные собираются в относительно ограниченном (не всеобщем) объеме и в большинстве случаев являются закрытыми (еще не реализована идея «Open Data» [Kitchin, 2014]). Помимо этого, не решены некоторые проблемы этики [Metcalf, Crawford, 2016], конфиденциальности личных сведений [Mayer-Schonberger, Cukier, 2013] и контроля над использованием данных [Kitchin, 2014; Mayer-Schonberger, Cukier, 2013], а также ряд онтологических и методологических проблем [Boyd, Crawford, 2012; Kwan, 2016; Wagner-Pacifici, Mohr, Breiger. 2015]. Однако со временем они будут решены, и в 2020-х гг. ожидается повсеместное использование «больших данных», в том числе и в общественно-географических исследованиях. Затем примерно с 2030 г. вполне может начаться, по мнению автора, вторая радикальная научная революция в географии (по аналогии с радикальной революцией прошлого века), к чему уже складываются определенные предпосылки [Cresswell, 2014; Kitchin, 2013].
   Для оценки возможности перехода существующих методов районирования с «малых» на «большие данные» был проведен специальный анализ мирового опыта. Особенности анализа научных публикаций по социально-экономическому районированию будут подробно рассмотрены в первой главе, а здесь лишь констатируем, что в 1992-2016 гг. было выявлено 467 работ (журнальных статей и монографий). Далее из них были удалены публикации, посвященные исключительно вопросам истории, теории и практической значимости социально-экономического районирования, чтобы в анализируемом массиве остались только результаты конкретного опыта выявления районов и/или разработки методики районирования. Таковых осталось 268. Среди них максимальный размер исходной таблицы данных составил 929 х 1620 = 1 504 980 ячеек [Блануца, 2016а], а производной таблицы, в которой отражалась интенсивность связи между ОТЕ, - 6258 х 6258 = 39 162 564 ячеек [Klapka et al., 2014]. Эти размеры не превышали пределы таблицы Excel 2013, что позволяет отнести все анализируемые практики районирования к категории «малых данных». Помимо объема, в отобранных работах отсутствовали (по [Kitchin, 2013]) потоки данных, неструктурированные, детализированные (до уровня каждого конкретного человека)

9
и всеохватывающие данные, что лишь подчеркивало невозможность их отнесения к «большим данным».
   Существующие методы районирования, оперирующие «малыми данными», тем не менее, при определенных условиях могут использоваться и для обработки «больших данных» (далее эти методы будут обозначаться соответственно REGSD и REGBD). Для проверки потенциальных возможностей постсоветских методик выявления районов были сформулированы семь требований (обозначены литерой «Т» с порядковым номером), основанных на обобщении свойств больших объемов количественной информации - от BDfR(a) до BDfR(g) -и особенностей алгоритмов районирования [Блануца, 1993; Duque, Ramos, Surinach, 2007; Karlsson, Olsson, 2006]. Затем по каждому требованию было подсчитано количество публикаций, методика районирования в которых удовлетворяла заявленному требованию. Получились следующие результаты.
   Т1. Квантифицируемость: возможность применения метода для обработки количественных данных, а также преобразования качественного способа выделения районов в количественный метод районирования. Анализ 268 постсоветских публикаций по социально-экономическому районированию показал, что в 48 работах использовались количественные методы, в 83 - допускающие формализацию качественные способы анализа количественных данных ив 66 - потенциально формализуемые качественные методы обобщения качественных данных, которые можно оцифровать. В остальных работах описание методики районирования и форма представления выявленной системы районов были таковыми, что не позволили сделать однозначное заключение о возможности их «цифрового поворота» [Ash, Kitchin, Leszczynski, 2017].
   Т2. Масштабируемость: способность алгоритма районирования обрабатывать разные объемы исходных данных. Установлено, что в 27 публикациях представлены методики районирования, допускающие возможность перехода с «малых» на «большие данные».
   Т3. Хронологизируемость: методическая возможность обработки потока «больших данных» в режиме реального времени. В 6 работах присутствовали способы районирования, допускающие данную возможность.
   Т4. Оптимизируемость: наличие количественных операций по поиску оптимального набора наиболее информативных признаков для районирования территории. Результат анализа массива публикаций: такие работы отсутствуют.
   Т5. Структурируемость: одновременная обработка структурированных (цифровых) и неструктурированных данных (видео и др.) без ухудшения качества районирования. По этому требованию работы не обнаружены.

10
Доступ онлайн
от 236 ₽
В корзину