Новости

Динамика курсовой стоимости акций компаний

Работа добавлена:






Динамика курсовой стоимости акций компаний на http://mirrorref.ru

Содержание

  • Содержание
  • Введение
  • Глава 1. Обзор существующей научной литературы
  • Глава 2. Используемые данные
  • Описание данных
  • Тестируемые гипотезы
  • Глава 3. Методология и результаты событийного анализа
  • Глава 4. Методология построения предсказательной модели
  • Описание используемых факторов
  • Выбор предсказательной модели
  • Глава 5. Результаты прогнозирования
  • Индивидуальные предсказательные модели для компаний
  • Предсказательные модели для групп компаний
  • Заключение
  • Список литературы

Введение

В традиционных, классических моделях экономического человека, который используется для экономического и финансового моделирования, не отводится значительного места нерациональному, эмоциональному поведению. Агент в таких моделях является рациональным, максимизирующим собственную полезность и эгоистичным. Если отталкиваться от такой модели инвестора, то динамика стоимости компании, а, следовательно, и доходность ценных бумаг должны формироваться сугубо под действием фундаментальных показателей финансового состояния компании. С данной теорией согласуется гипотеза эффективного рынка (ГЭР), в рамках которой инвестор не может стабильно получать доходность выше нормального для рынка уровня. Однако, в противовес модели экономического человека и ГЭР возникли поведенческие теории в экономике и финансах, в рамках которых поведение агента не всегда является рациональным. Наиболее признанными авторами в поведенческой теории экономики и финансов являются Канеман Д. и Тверски А., в работах которых были сформулированы различные типы отклонений от рационального поведения, которые могут приводить к аномалиям на рынках финансов. В последствии было проведено множество попыток обнаружения эмпирических подтверждений подверженности инвесторов эмоциям.

Вместе с тем, следует отметить, что существуют проблемы с измерением факторов, которые могут послужить прокси для отражения настроений и эмоций участников финансового рынка. В первую очередь, большинство факторов основаны на опросах, однако, создать высокочастотный опрос с репрезентативной выборкой затруднительно и дорого, к тому же несмещенность результатов таких опросов – отдельный вопрос, по которому необходимо проводить исследования. Предпочтительно, чтобы существовал фактор, который отражает эмоции и настроения участников рынка не через третьих лиц, а в добровольном и самостоятельном режиме – в таком случае результаты будут более надежными и менее вероятно будут смещенными.

Благодаря технологическому прогрессу, в особенности в мобильных и интернет технологиях, социальные сети различного типа получили обширное распространение и стали важной и, главное, нормальной частью рутинной жизни людей. Именно в связи с рутинностью использования социальных сетей пользователи этих сервисов активно используют социальные сети не только для общения с другими людьми, но также для потребления и создания новой, важной информации. В особенности данный тезис применим к блог-сервисам, а конкретно к микроблогинг-социальной сетиTwitter. Данная сеть отличается от других (например,Facebook) тем, что основной фокус направлен не на частную переписку между пользователями, а на публикацию частных мнений о событиях, товарах, услугах, контенте и т.д., а также на взаимный обмен такими мнениями путем ретвитов и цитаций других пользователей. Благодаря тому, что все публикации свободно доступны публике (если автор не скрыл свои публикации), а также то, что твиты (публикации в сети Твиттер) хранятся долгое время на серверах и доступны для скачивания, возможно построение алгоритмов анализа настроений в режиме реального времени. В контексте поведенческих финансов это уникальная и важная отличительная черта социальных сетей – возможность анализа в «прямом эфире». В связи с этим, Твиттер представляет особый интерес для исследователей общественных настроений, мнений и эмоций. В данном контексте, данные Твиттера активно используются в маркетинговых, рекламных и пропагандистских целях различными компаниями, политиками, знаменитостями, звездами и т.д. Эмоциональный анализ публикаций в Твиттере и других социальных сетях уже несколько лет успешно применяется, например, для прогнозирования результатов политических выборов (Wang, Kazemzadeh, 2012).

В сфере финансов анализ настроений и мнений Твиттера довольно активно применяется в моделях хэдж-фондов. Показателем растущего интереса к такому роду данных может служить подписание соглашений междуTwitter с одной стороны и Bloomberg и Thomson Reuters с другой. В рамках данного соглашения эти компании получают более полный доступ к базам данных Твиттера для составления собственных, проприетарных индексов настроений в сети. Следует отметить, что под «настроением» и «эмоцией» в данном исследовании будет пониматься эмоциональный окрас мнения, выраженного и опубликованного в социальной сети Твиттер. Например, публикация «iPhone 7istheworstiPhoneever,Appleisdoomed» будет восприниматься как твит, содержащий негативное настроение о компании Apple, а твит «Vitaly bot is awesome, Telegram rules!!!!» – позитивным о мессенджере Телеграм.

В рамках данной работы ставится следующаяисследовательская цель: проверить, улучшается ли точность предсказательной модели при включении в модель индекса настроений в социальной сети Твиттер в качестве прокси-переменной для настроений участников финансовых рынков.

Для достижения поставленной цели были сформулированы следующиезадачи:

  • Изучить имеющуюся научную литературу на схожую тематику
  • Составить выборку компаний, для которых будут строиться модели; собрать необходимые данные для каждой компании
  • Составить различные модификации индексов настроений в сети Твиттер
  • Провести событийный анализ на основе событий, составленных вокруг экстремальных значений количества публикаций твитов
  • Выбрать лучшую спецификацию для построения предсказательной модели
  • Провести анализ влияния полученного индекса на точность предсказания
  • Сформулировать выводы на основе полученных результатов

Объектом исследованияв настоящей работе является динамика курсовой стоимости акций компаний.

Предметом исследованияявляется влияние настроений в социальной сети Твиттер на динамику курсовой стоимости акций компаний.

Академическая новизна данной исследовательской работы выражена в трех основных аспектах:

  • Оценка влияния настроений в Твиттере на динамику акций как индивидуальных компаний, так и групп компаний, объединенных по индустриальной принадлежности
  • Использование методов машинного обучения для предсказания направления динамики акций, а также в использовании методов машинного обучения для выбора оптимальных спецификаций предсказательных моделей (что так же может указать на существование влияния настроений в Твиттере на динамику акций)
  • Использование больших массивов данных, чем в работах на схожие темы

С практической точки зрения данная исследовательская работа может служить своего рода ориентиром для того, следует ли использовать индекс настроений в Твиттере при принятии инвестиционных решений. Более того, если результаты построения моделей окажутся успешными и будут обеспечивать высокую точность предсказаний на других, независимых выборках, то обозначенные модели можно использовать для создания торговых и инвестиционных стратегий.

Глава 1. Обзор существующей научной литературы

Возможность построения моделей, предсказывающих цену акций, являлась и является одной из наиболее привлекательных финансовых тем как в научном сообществе, так и среди участников рынка. Несмотря на то, что первые серьезные научные публикации на данную тему начали появляться еще в первой половине ХХ века (Graham and Dodd, 1934), все еще не удалось дать исчерпывающий ответ на вопрос о возможности построения предсказательных финансовых моделей, в связи с чем среди ученых и финансистов сложилось два идейных лагеря: сторонников и противников идеи о возможности предсказаний курса акций.

В определенном смысле, отправной точкой для дискуссий о том, может ли цена акции быть предсказана и можно ли из этого предсказания извлечь абнормальную прибыли, послужило выдвижение гипотезы эффективного рынка. Несмотря на то, что само определение эффективного рынка в современном понимании было дано относительно поздно (сам термин «efficient markets hypothesis» впервые был использован в «Statistical versus clinical prediction of the stock market» (Roberts, 1967)), первые серьезные аргументы появились в начале ХХ века. Так, М. Кейнс (Keynes, J. M., 1923) утверждал, что инвесторы получают прибыль на финансовых рынках не по причине того, что они обладают уникальной способностью «переигрывать» рынок, но из-за того, что они готовы нести риски, связанные с конкретными инвестициями. Эта идея позднее была во многом отражена в работах Ю. Фама, который и сформулировал понимание ГЭР в современной трактовке (Fama E. F. 1965a, 1965b). В том же году была опубликована работа П. Самуэльсона (Samuelson, 1965), в которой он так же, как и Фама, доказывал, что рынки эффективны. Однако, Фама доказывал свою гипотезу через доказательство того, что движения цен акций описывается моделью случайного блуждания, а Самуэльсон, в свою очередь, случайным процессом мартингала. В другой работе (Fama, 1969) Фама применил событийный анализ, который так же поддерживал идею эффективности рынка. Важно так же отметить, что гипотеза эффективного рынка не отвергает возможности извлечения сверхприбыли как таковой, но исключает возможность систематического извлечения сверхприбыли. Так, если модель ГЭР построена на модели случайного блуждания, инвестор можетслучайнымобразом «переигрывать» рынок, и в 50 % случаев прибыль может быть выше рыночной случайным образом.

Таким образом, основываясь на работах Фама и других экономистов, можно сформулировать определение гипотезы эффективного рынка следующим образом: цена ценной бумаги в любое время полностью включает в себя всю доступную информацию. Выделяется три формы гипотезы эффективного рынка: слабая, средняя и сильная.

  • Слабая эффективность рынка подразумевает, что цена актива включает в себя всю доступную прошлую рыночную информацию (в частности, исторические данные об активе и т.д.) и что исторические данные не влияют на то, как будет вести себя цена актива в будущем. Таким образом, технический анализ невозможен.
  • Средняя эффективность рынка подразумевает, что цена актива включает в себя не только прошлую публичную информацию, но и в принципе любую публично доступную информацию (выпущенную как в прошлом, так и в настоящем). Иными словами, рынок достаточно быстро корректирует цену актива таким образом, чтобы свежедоступная публичная информация была заложена в цену и не могла бы использоваться в целях извлечения абнормальных доходностей. В связи с этим, исключается возможность и фундаментального анализа для извлечения сверхприбыли.
  • Сильная эффективность рынка подразумевает, что цена актива включает в себя всю вышеперечисленную информацию, а также инсайдерскую информацию. Под действием такой формы эффективности систематическое и «запланированное» получение избыточной доходности невозможно.

Тем не менее критика гипотезы эффективного рынка появилась сразу же, более того, еще до того, как сама гипотеза была окончательно сформулирована Фама. Так, Коулз и Джоунс (Cowles, Jones, 1937) одними из первых указали на наличие автокорреляции во временных рядах усредненных цен акций, что прямо указывало на неэффективность рынка и возможность построение предсказательных моделей на основе исторических данных. Большинство критических научных статей ХХ века опирались на статистическое доказательство неэффективности рынка (часто через выявление автокорреляции). Так, (Poterba, Summers, 1988) показали, что на длинном временном периоде акции имеют отрицательную негативную автокорреляцию, а на коротком – положительную.

Однако, в рамках данной работы больший интерес представляют другие волны критики ГЭР, основанные на поведенческих финансах и на попытках объяснить рыночные аномалии (эффект размера, эффект низкого мультипликатора P/BV, эффект января, эффект разворота, эффект дней недели, эффект «собак Доу» и др.). Отдельный интерес представляет феноменмоментумаи его трактовка через призму поведенческих финансов, однако данная тема не входит в рамки данной работы.

Суть рассмотрения аномалий как потенциальных причин нарушения гипотезы эффективности рынка заключается в том, что данные аномалии проявляются в существовании паттернов в динамике курсовой стоимости акций. Так, эффект размера подразумевает, что исторически компании с меньшей капитализацией приносили большую доходность, в связи с чем возможно существование стратегий, использующих такие компании, и которые позволяют получить доходность выше нормальной. Другой тип аномалий так же заключается в существовании паттернов в динамике цен акций, однако паттернов другого рода, например, известный эффект января, когда цены акций компаний растут сильнее, чем в другие месяцы. Наличие такого устойчивого паттерна поведения цен акций противоречит гипотезе эффективного рынка, так как позволяет учитывать этот рост и получать доходность выше нормальной. Более того, в каком-то смысле эти эффекты могут накладываться друг на друга, так, эффект января выражен сильнее для компаний с меньшей капитализацией (Keim, 1983).

Несмотря на то, что наличие влияния аномалий на динамику курса акций было показано во множестве эмпирических работ, сторонники гипотезы эффективного рынка не отказались от гипотезы. Основная проблема использования аномалий в качестве потенциального доказательства неэффективности рынка заключается в том, что, во-первых, данные эффекты наблюдаются, как правило, только в краткосрочном периоде, а также в том, что сами эффекты слабы и зачастую исчезают, если переопределить понятие «нормальной доходности», относительно которой и тестировались аномалии. Часто в качестве теоретического бенчмарка использовалась модель CAPM, на что сторонники ГЭР возражали, что данная модель не корректно отражает реальный рынок и не учитывает дополнительные факторы риска. В связи с этим, предлагались другие модели, призванные более корректно учитывать риск. Так, Фама и Френч предложили модель, которая включала риск-фактор, отражающий размер компании, а также фактор, отражающий разницу в рисках у компаний с разными показателями отношения балансовой стоимости к капитализации (Fama, French, 1993). В работе 1996 года «Multifactor explanations of asset pricing anomalies» Фама и Френч непосредственно продемонстрировали, что использование трехфакторной модели успешно устраняет проблему аномалий в силу «поглощения» большего количества рисков, нежели CAPM. В связи с этим, при проведении event study для выявления возможности получении абнормальной доходности при использовании мнений и настроений в Твиттере как дополнительного фактора в эмпирической модели будет применяться модель Фама и Френча, а не CAPM.

Если говорить о поведенческих финансах как о разделе финансов, объясняющем нарушение стандартных предпосылок и гипотезы эффективного рынка, то авторы одной из первых основополагающих работ (DeBondt, Thaler, 1995) показали, что существует тенденция рынка на избыточное или недостаточное реагирование на определенные события. Авторы связывали отклонения цен акций от фундаментальных тем, что инвесторы были подвержены эмоциям и нерациональному поведению, становясь либо чересчур уверенными в собственных решениях, либо, наоборот, становились пессимистичны относительно инвестиционных решений. Авторы опирались на работу Канемана и Тверски для объяснения процессов нерационального принятия инвестиционных решений. Основываясь на поведенческих финансах, можно выделить несколько причин нерационального поведения инвесторов, которое, в свою очередь, может нарушать гипотезу эффективности рынка:

  • Overconfidence – нарушение рациональности агентов, проявляющееся в субъективном завышении вероятностей успеха или занижении вероятностей провала на основании собственного опыта. Данное отклонение на финансовых рынках ведет к учащению сделок и к проблемам в диверсификации инвестиций (Wang, 2001)
  • Representativeness – склонность присваивать вероятности к неизвестным событиям на основе известных событий (Kahneman, Tversky, 1972)
  • Herding –склонность принимать решения на индивидуальном уровне, опираясь на выбор и решения социальных групп. В финансах это может привести к серьезным последствиям, но несмотря на это инвесторы в значительной степени подвержены данному отклонению (Hirshleifer, Subrahmanyam, Titman, 1994)
  • Anchoring – склонность придавать больший вес информации, полученной раньше, даже если новая информация опровергает старую (Kahneman, Tversky, 1974)
  • Conservatism – склонность изменять уже сложившиеся взгляды и шаблоны мышления медленно, даже если новые реалия и информация требуют изменений (Edwards, 1968)

В контексте данной работы наибольший интерес представляет эффект стадности (herding), так как в каком-то смысле именно эффект стадности потенциально должен быть отражен в связи настроений в Твиттере и доходности ценных бумаг. Теоретически, индекс настроений может отражать настроение общества в момент составления индекса, что, соответственно, может служить своего рода прокси для выявления стадности инвесторов. Например, можно ожидать, что в ответ на некое финансовое событие в отношении какой-либо фирмы, инвесторы могут начать реагировать определенным образом на это событие. Если иметь инструмент, который достаточно точно и быстро, а желательно в режиме реального времени, может отслеживать общественные настроения и/или настроения среди инвесторов, возможно будет создание стратегий, которые будут учитывать эффект стадности и делать поправку на него, что, соответственно, может привести к получению доходностей выше нормальной.

Более того, индексы настроений могут быть использованы и в целях определения ожиданий общества относительно некоторого события, компании или общества и государства в целом. Широко используются индексы уверенности потребителей, бизнеса и финансовых рынков (Сonsumer confidence index, Business confidence index), построенные на прямых опросах агентов. Эти индексы пользуются популярностью как среди инвесторов, так и среди компаний при принятии производственных и инвестиционных решений. Существует также индекс уверенности участников фондовых рынков —Stock Market Confidence Indices, The Investor Behavior Project at Yale Universityhttp://som.yale.edu/faculty-research/our-centers-initiatives/international-center-finance/data/stock-market-confidence, который в большей степени соотносится с темой данной работы. Другой примечательный индекс настроений основан на опросе Investor Intelligence, который проводится с 1964 года. Данный индекс показывает настрой участников рынка и определяет направлен рынок на «медвежье» или на «бычье» состояние. Отличительной чертой индекса Investor Intelligence является его ежедневная основа, так как другие индексы обычно проводятся с частотой в неделю или месяц, в связи с чем не способный отражать настроения рынка в оперативном режиме для осуществления краткосрочных стратегий.

Другой подход в определении общественных и рыночных настроений основан на анализе тональности новостей и публикаций в СМИ. Во многом данный метод схож с методом анализа настроений в Твиттере, более того, скорее всего, «сигналы» в данных Твиттера и в новостях сильно коррелированы так как имеет место зависимость: значительная часть финансовых твитов (публикация в сети Твиттер) есть реакция на финансовые события, освещенные в новостях, и зачастую на сами новостные заметки. Методы, используемые в выявлении сигналов также схожи, однако существует определенная и уникальная специфика у новостей и у Твиттера. Для анализа новостей необходимо создать классификатор тональности на «позитивный», «негативный» и (опционально) «нейтральный», тренирую классификатор на больших и сложно структурированных текстах, хотя некоторые авторы ограничиваются заголовками статей (Agarwal, et al., 2016). Несмотря на то, что это усложняет в определенной степени создание классификатора тональности, официальность и структурированность текста, а также почти полное отсутствие в нем опечаток, означает, что предобработка текста минимальна. Более того, в таких текстах отсутствуют характерные для Твиттера проблемы текста: ошибки, опечатки, сарказм, жаргон, мат и сокращения, разбиение текста на несколько публикаций (в которых целевая компания зачастую вовсе не указана, но при этом публикация несет смысловую нагрузку). Тем не менее почти все эти проблемы в значительной степени относятся к вопросу возможности создания более сложных и точных классификаторов на основе машинного и глубинного обучения. В целом, методика формирования самих индексов повторяет методику более традиционных: после того, как были получены тональности и настроения текстов в СМИ, им присваиваются значения «позитивный», «негативный», «нейтральный», после чего, например, сумма «позитивных» новостей делится на сумму всех новостей (аналогичным образом, но на основе опроса строится Consumer Confidence Index). В целом, основные различия работ данной категории заключаются в том, какие данные были использованы при формировании индекса, какие алгоритмы и классификаторы использовались для определения тональности индекса и в какую финансовую или предиктивную модель был включен индекс. В зависимости от того, как удачно были комбинированы эти характеристики, авторы разных статей получали разные уровни точности предсказаний. Например, в работе «A quantitative stock prediction system based on financial news» авторы, используя готовый алгоритм AZFinText для анализа текста, получили предсказательную точность направления цены акций 71.18 % и доходность в 8.5 % при доходности индекса S&P500 5.62 % (Schumaker, Chen, 2009).

Ключевым преимуществом использования социальных сетей (Twitter, Facebook, блоги) для определения настроений является то, что агенты сами непосредственно выражают свои мысли и идеи. Более того, использование социальных сетей позволяет расширить выборку респондентов без значительного увеличения издержек на обслуживание респондентов, составления опросника и т.д., а также в определенной степени анкетирование так или иначе дает смещенные оценки. В случае социальных сетей данная проблема отсутствует. Далее, если сравнивать настроения в социальных сетях с настроениями в новостях, то часто социальные сети оказываются более оперативными источниками информации, а также более «гибким» источником: социальные сети в некотором смысле отражают настроения в режиме реального времени, а не только на определенные события, как это устроено в случае новостных источников. Однако, «гибкость» создает и определенные методологические проблемы: существует множество различных способов как обработки информации, так и сбора самой информации из Твиттера. Например, часть исследователей использует для анализа только количество твитов в день, часть – твиты от конкретного, ограниченного круга пользователей (официальные аккаунты компаний, инвестиционных фирм или известных финансистов и инвесторов), но чаще всего используется весь массив твитов о компании, от всех пользователей. Более того, так как крайне редко можно наблюдать публикацию о компании, которая прямо отражает эмоцию автора твита о компании (например, «Ford находится в плачевном состоянии»), то можно по-разному подходить к вопросу классификации эмоций. Очевидно так же, что от успешности выбора методологии формирования классификатора эмоциональности/тональности твитов зависит точность предиктивной модели, использующей настроения в Твиттере как фактор. Ниже будут представлены несколько признанных и успешных работ, в которых используются разные подходы использования Твиттера в финансовых моделях.

Одними из первых и наиболее значимых работ в данной области являются статьи Боллена и Мао "Twitter mood predicts the stock market" и «Predicting financial markets: Comparing survey, news, twitter and search engine data» (Bollen, Mao, 2011a и 2011b). В первой работе авторы предприняли попытку выявить связь между динамикой индекса DJIA и настроениями в Твиттере. Отличительной чертой работы является использование двух методов определения настроений: с помощью сервиса OpinionFinder, который делит твиты на негативные и позитивные, а также с помощью Google-Profile of Mood States (GPOMS), который выявляет более сложный спектр эмоций («спокойный», «тревожный», «уверенный», «добрый», «счастливый», «жизнерадостный». Авторы провели корреляционный анализ и тест Грейнджера на причинность и обнаружили, что наиболее значимой предсказательной силой обладает эмоция «спокойный» из GPOMS. В целом, и корреляция, и казуальность оказались статистически значимыми, хотя и значимость причинной связи оказалась достаточно низкой. Далее авторы использовали данные из Твиттера для построения предиктивной модели. Была использована нейронная сеть Self-Organizing Fuzzy Neural Network для предсказания направления рынка на основе настроения твитов; в качестве параметров модели использовались значения индекса за три предшествующих дня и различные «эмоции» из GPOMS за соответствующие значениям индекса в течении трех дней. Тренировочная выборка – период с 28 февраля 2008 по 28 ноября 2008. В качестве тестовой выборки был выбран период с первого по 19 декабря 2008 года. В итоге, авторами был достигнут уровень точности предсказания направления (Up or Down) индекса 87.6 %. Несмотря на то, что в целом использование подходящих нейронных сетей действительно могло поспособствовать улучшению прогноза, а так же то, что скорее всего GPOMS работает в достаточной степени надежно и точно, необходимо отметить, что тестовая выборка крайне мала и относиться к результатам следует с долей скептицизма.

В работе «Predicting financial markets: Comparing survey, news, twitter and search engine data» авторы применяют другой подход: сравнивается предсказательная сила и значимость различных методов получения информации о настроении участников фондового рынка. В качестве таких прокси авторы используют данные Твиттера, объемы поисковых запросов финансовых терминов в Google, тональность новостей, а также индексы, построенные на двух опросах: на Investor Intelligence, который обсуждался выше, а также ежедневный индекс DSI (Daily Sentiment Index) – краткосрочный индекс настроений участников рынка фьючерсов. Если индекс находится выше отметки 90 % или ниже 10 %, то это сигнал к тому, что вершина или дно либо скоро будут достигнуты, либо уже были достигнуты. В качестве индексов, построенных на данных Твиттера, авторы используют два индекса: 1) индекс Twitter Investor Sentiment (TIS), который попросту представляет из себя количество «бычьих» по настрою твитов деленное на сумму «бычьих» и «медвежьих» твитов; 2) Tweet Volumes of Financial Search Terms (TV-FST) – количество твитов, в которых используются финансовые термины (список терминов совпадает с теми, которые использовались при формировании параметра поисковых запросов). Для каждого полученного в итоге параметра был проведен корреляционный тест и тест причинности Грейнджера, а также была построена мультифакторная регрессия из наиболее значимых параметров. Важными для данной работы результатами является то, что авторы обнаружили, что при использовании нескольких индексов настроений, индексы, основанные на данных Твиттера оказались наиболее значимыми, а в свою очередь DSI при наличии других индикаторов (новостных и на основе Твиттера) оказывался незначимым фактором. Более того, и индексы, основанные на твиттере, и индексы новостные и поисковых запросов оказались значимы и коррелированы как с доходностью индекса DJIA, так и с показателем рыночной волатильности VIX. Важно также, что наиболее значимыми оказались именно индексы, основанные на Твиттере, но, что примечательно, TIS и TV-FST были более значимы, если рассматривались значения за 1-2 предыдущих дня.

В следущей работе, «The Effects of Twitter Sentiment on Stock Price Returns» под авторством Г. Ранко и Д. Алексовского (Ranco, Aleksovski, et al., 2015) анализируется связь настроений в Твиттере и динамики акций компаний из индекса DJIA30. Как и в работах, рассмотренных ранее, авторы применяют корреляционный анализ и тест причинности Грейнджера. Согласно результатам, приведенным в статье, связь между настроениями в Твиттере и ценовой динамикой акций имеется, хотя и слабее, чем в предыдущих работах. Отдельно следует отметить то, что авторы использовали достаточно большую выборку твитов для обучения и тестирования классификатора: общая выборка составила 1.555.770, из которых более 100.000 были отсортированы вручную людьми как «негативный», «нейтральный» или «позитивный», а 6.000 из них были отсортированы двумя независимыми экспертами. Это позволило получить классификатор тональности достаточной точности. В отличии от предыдущих работ, в данной статье авторами не ставится цель разработки предсказательной модели, но проводится событийный анализ для выявления абнормальных доходностей на основе пиков в настроениях в Твиттере, а также на основе общего количество публикаций о компании в Твиттере. Авторы так же учли проблему, что многие «всплески» в Твиттере могут быть сопряжены с традиционными событиями и новостями в жизненном цикле компании (например, публикация отчетности и превышение ожидаемого уровня прибыли компанией), в связи с чем могут быть нерелевантными для анализа непосредственно настроений в социальной сети. Исходя из этого, авторы разбили выборку на две подвыборки: общую (260 событий) и за исключением пиков в Твиттере, связанных с более традиционными событиями (таким образом, нетрадиционных событий осталось 182). В итоге было получено, что на основе уникальных событий, выявленных с помощью Твиттера действительно наличие доходности выше нормальной (CAR), однако величина ее невелика – всего 1-2 %.

Несмотря на то, что есть еще ряд примечательных работ, кажется нецелесообразным приводить их в данном обзоре, так как различия в основном заключаются в методах построения классификатора и в спецификации регрессии. Тем не менее следует отметить, что в большинстве работ применяется метод Support Vector Machines для сортировки твитов по эмоциям. Данный метод хорошо зарекомендовал себя в различных сферах, где применяется машинное обучение, а также конкретно в задачах классификации текстов и выявления их тональности. Более подробно данный вопрос будет разобран в следующей главе при разработке методологии.

Глава 2. Используемые данные

Описание данных

Данные, используемые в данной работе можно разделить на две группы: финансовые данные и данные, отражающие настроения рынка на основе социальных сетей и поисковых запросов.  Финансовые данные включают в себя ежедневные котировки акций, индекса S&P 500, данные по волатильности цен акций и значений выбранного индекса, а также общие объемы торгов. Вторая группа данных включает в себя количество положительных, отрицательных и нейтральных по тональности и настроению публикаций о компании в Твиттере, общее количество публикаций о компании в Твиттере, а также объем поисковых запросов о компании в Google.

Финансовые данные были получены из баз данных Bloomberg Professional, Yahoo Finance, Google Finance. Были использованы цены закрытия и открытия на ежедневной основе во временном окне от 2 января 2015 года до 10 апреля 2017 года. Выборка компаний состоит из 22 компаний рынка США, разделенных по следующим категориям:

  • IT: Apple, Amazon, Alphabet, Microsoft, Facebook
  • Финансовыекомпании: Bank of America, JP Morgan Chase & Co, Citigroup Inc., Wells Fargo
  • Телекоммуникационныекомпании: Verizon Communications, T-Mobile US, AT&T, Sprint
  • Автомобильныекомпании: Ford Motor Company, General Motors
  • Другие: General Electric, 3M, ExxonMobil, Chevron Corporation, McDonald's, The Coca-Cola Company, Wal-Mart Stores

Данные о трендах в поисковых запросах будет получены с помощьюGoogle Insights for Searchи Google Trends.

Выборка публикаций в Твиттере (далее – твитов) была собрана двумя способами. Первый способ: непосредственный сбор «сырых», первичных твитов с Твиттера путем использования публичных API (Application programming interface). На момент написания данной работы Твиттер предлагает два вида API для сбора твитов, которые доступны бесплатно и публично: The Search API и Streaming API. Первый позволяет выгрузить твиты по ключевым словам (в случае данной работы ключевым словом является название компании, её биржевой тикер, название ключевых продуктов компании). Однако, данные подход имеет ограничения: он позволяет выгрузить твиты только опубликованные в течении последних 7 дней, а также ограничивает количество запросов в рамках 15 минутного окна, позволяя выгружать лишь случайную подвыборку из общих доступных твитов. Другое API, Streaming API, позволяет выгружать выборку в «прямом эфире», то есть, по мере публикации твитов. Однако, данный метод так же имеет ограничения по объему доступных для выгрузки твитов: возможно скачать лишь 1 % от общего количества публикаций по ключевому слову. Очевидно, что ни тот, ни другой способ не подходят для сбора данных в рамках данной работы: для того, чтобы выгрузить достаточную выборку твитов на протяжении года необходимо ежедневно выгружать твиты непосредственно в течении этого года, что является слишком затратным способом как в плане вычислительных мощностей, так и в плане прямых денежных издержек. Другой метод – использование Enterprise API через официальны сервис Твиттера – Gnip, но, как следует из названия, данный API предназначен для компаний (в частности, Bloomberg и различные хэдж фонды используют именно этот API) и является слишком дорогим. На момент написания данной работы не был получен ответ на вопрос о том, возможно ли получить данные бесплатно (или за разумную цену) для проведения научного исследования. Таким образом, имеет место проблема доступа к первичным данным по твитам для построения индекса настроений. Таким образом, получение исторических, архивных твитов для проведения событийного анализа и построения предиктивной модели невозможно.

Однако, несмотря на то, что доступ к самим твитам невозможен (точнее, возможен, но доступ слишком дорогостоящий), оказалось возможным получить вторичные данные. Как уже отмечалось выше, Bloomberg имеет доступ к историческим данным, а также к расширенной версии Streaming API.

Несмотря на то, что через Bloomberg невозможно получить непосредственно сами твиты, тем не менее можно получить необходимые обработанные Bloomberg данные для составления индекса: доступны ежедневные данные по общему количеству твитов о компании и по количеству положительных, негативных, нейтральных твитов. Несмотря на то, что метод классификации твитов по тональности в данном случае является проприетарным, можно предположить, что точность классификации высокая, так как этими данными активно пользуются инвесторы и фонды с 2015 года (в 2015 году данные стали доступны пользователям Bloomberg Professional после заключения соглашения между Twitter и Bloomberg), да и в целом в возможности Bloomberg составления точного классификатора сомневаться не приходится. Таким образом, индекс был построен на основе исторических данных Bloomberg Professional (как и в случае с финансовыми данными, временное окно – от 2 января 2015 года до 10 апреля 2017 года).

Тем не менее видится необходимым построение собственного классификатора, который в дальнейшем может быть использован в предиктивной модели, которая будет предложена в данной работе. Использование собственного классификатора представляется полезным в силу возможности использования его в практических целях, а также для проведения будущих исследований в данном направлении. Вместе с тем, для построения классификатора необходимо иметь достаточно большую выборку твитов для тренировочной и тестовой выборок.

Проблема недостатка данных для тренировки классификатора была частично решена следующим образом: данные за последние 30 дней были собраны с помощью публичных API, а твиты для тренировочной выборки для классификатора твитов по тональности были получены на сервисе CrowdFlower (суммарно около 20 тысяч наблюдений), на сайте Sanders Analitics (5513 твитов), а также 1.600.000 твитов, которые использовались для отладки классификатора твитов Sentiment140. Несмотря на то, что масштабность последнего источника и того, что на основе его можно добиться 75 % точности классфикации твитов, наибольшую ценность представляют первые два источника в силу того, что они были предварительно вручную помечены людьми как положительные, негативные или нейтральные. Кажется логичным предположить, что верхней границей точности классификации твитов алгоритмом можно считать точность ручной классификации людьми.

Тестируемые гипотезы

Как следует из названия работы и из того, что было описано выше, целью данной работы является выявления связи между настроениями в социальной сети Twitter и поведением цены акций. В целом, необходимо установить, возможно ли получить абнормальную доходность на рынке ценных бумаг, если использовать настроения в Твиттере как фактор при принятии инвестиционных решений. Для ответа на этот вопрос следует протестировать две гипотезы:

Гипотеза 1: настроения в сети Твиттер являются прокси для поведения участников рынка, следовательно, на пиках настроений можно получать доходность/убыток, превышающий нормальный.

Гипотеза 2: использование индекса настроений в сети Твиттер позволяет увеличить точность предсказания направления цены акции по сравнению с базовой моделью.

Глава 3. Методология и результаты событийного анализа

Для обнаружения возможности получения доходности выше нормальной будет использоваться метод событийного анализа. Данный метод начал использоваться еще в начале ХХ века, однако сформировался в том виде, в котором используется и сейчас, в 1969 в работе «The adjustment of stock prices to new information» (Fama, Fisher, et al., 1969). Сфера применений событийного анализа в финансах достаточно широка: данный метод применяется для оценки эффективности сделок слияний и поглощений, для анализа эффекта сплитов на цену акций, для оценки избыточной и недостаточной реакции на новости и т.д. В общем случае, событийным анализом тестируется гипотеза о наличии реакции рынка на определенное событие, что ведет к получению абнормальной доходности или убытка. Как уже отмечалось в обзоре литературы, данный метод служит способом подтверждения или опровержения гипотезы эффективного рынка (по крайней мере, ГЭР в сильной форме). В рамках данной работы твиты и их эмоциональное содержание будут использоваться как прокси для настроений участников рынка. В таком случае, экстремальные значения тональности твитов будут отражать какое-либо событие, касающееся компании, которое, в свою очередь, ведет к «ненормальному», «эмоциональному» поведению участников рынка и, как следствие, к появлению абнормальных доходностей или убытков.

К анализу экстремальных значений количества и тональности твитов можно подходить с нескольких сторон:

  1. Анализировать только пикиобщегоколичества твитов. В данном случае не производится разделения по тональности в твитах, однако экстремальное количество твитов может быть отражением какого-либо «стандартного» корпоративного события (например, публикация финансовых результатов, скандалов, презентации новых продуктов и т.д.). С одной стороны, в таком случае можно изучать непосредственно влияние самих событий традиционным событийным анализом или событийным анализом новостей. Однако, использование Твиттера имеет ряд преимуществ: в первую очередь, новости в Твиттере появляются значительно раньше, чем в традиционных медиа, что можно использовать для построения стратегий на основе ранних новостей; во-вторых, в то время как для традиционного событийного анализа необходимо выбирать события, в случае пиков Твиттера этот процесс можно автоматизировать; в-третьих, сейчас и в будущем могут появляться значимые события, влияющие на компанию, но не связанные с компанией или отраслью, и такие события так же возможно будет наблюдать как пики в твитах
  2. Анализировать экстремальные объемы опубликованных твитов,разделенныхпо тональности на негативные и позитивные (возможно добавление нейтральных, а также более сложных эмоций). Кажется, что такой подход должен давать более значимые и существенные результаты.
  3. Использовать один из двух представленных выше подходов, нофильтруя пики. Например, выбирать события, которые отражают только скандалы, только финансовые события и т.д.

В данной работе будет использоваться второй подход: события не будут фильтроваться по категориям (для больших выборок это затруднительно и в каком-то смысле имеет мало смысла: для фильтрации событий необходимо выявить, какой пик в твитах отвечает за какой тип событий, а, значит, необходимо выявить само событие в дату, на которую пришелся твит), но будут разделены по тональности на позитивные и негативные. Следует отметить, что скорее всего, значимых результатов получено не будет в связи с тем, что на данный момент в твитах содержится слишком много «шума». В машинном обучении существуют методы для классификации текстов по тональности не только по словам и словосочетаниям, но и с применением контекстуального анализа, который позволяет «очистить» данные от нерелевантных тем. Применив такой анализ для классификации твитов, скорее всего, удастся получить более качественные сигналы из твитов, а значит, возможно, и значимые результаты для событийного анализа. Однако, на момент написания данной работы доступ к достаточной выборке твитов для тренировки такого классификатора отсутствует, и построить его не представляется возможным. Более того, даже событийный анализ классических событий (сделок слияний и поглощений, сплитов) часто бывает незначим, что может указывать на эффективность рынка. Тем не менее вероятность получения значимых абнормальных доходностей существует, что создает необходимость проведения событийного анализа для выявления абнормальных доходностей.

В качестве методологической основы используются работы (Fama, Fisher, et al., 1969) и (MacKinlay, 1997). Будет использоваться следующий подход к анализу:

  1. Выбор пиков, событийного окна и периода оценки вокруг пика
  2. Построение модели для получения уравнения для нормальных доходностей на оценочном периоде
  3. Экстраполяция модели с оценочного периода на событийного окно для получения нормальных доходностей
  4. Получение абнормальной доходности (AR) на событийном окне для каждой компании
  5. Подсчет кумулятивной абнормальной доходности (CAR) по всем компаниям
  6. Проверка статистической значимости AR и CAR

Выбор пиков, событийного окна и периода оценки вокруг пика

Как уже отмечалось выше, в данной работе не будет производиться разделение по типу событий, в связи с чем в качестве события для анализа будет использоваться максимум опубликованных твитов за весь период. Далее, по аналогии с другими работами, использующими событийный анализ, были выбраны периоды для построения модели оценки нормальных доходностей и событийное окно. В качестве событийного окна было решено использовать интервал (-20, 20]. Выбор такого окна обусловлен тем, что оно применяется во множестве работ, в том числе в (MacKinlay, 1997). Модель оценки нормальных доходностей строилась на всех доступных данных на оценочном периоде , т.е. с момента, когда стали доступны первые наблюдения по включительно момент времени -20 на границе с событийным окном. Для наглядности, можно представить периоды в виде диаграммы:

Рисунок  Диаграмма используемых временных периодов

Рисунок  Динамика количества публикаций о компанииApple

Источник: Bloomberg Professional и данные, полученные с использованием Twitter API

На Рисунке 2 представлено распределение позитивных твитов о компании Apple на всем доступном временном периоде. Отчетливо видно, что имеются экстремальные значения, которые в разы превосходят средний уровень объема позитивных твитов. Именно такие экстремальные пики будут рассматриваться в данной работе как события, вокруг которых будет проводиться событийный анализ.

Построение модели для получения уравнения для нормальных доходностей на оценочном периоде

Под абнормальной доходностью понимается разница между реальной, наблюдаемой доходностью и доходностью нормальной. Исходя из самого определения абнормальной доходности в рамках анализа, необходимо для начала обнаружить уровень нормальной доходности. Для этого существуют различные способы, которые сводятся к тому, что модель строится на оценочном периоде, получаются необходимые коэффициенты для построения тренда – нормального уровня доходности, который затем и экстраполируется на событийное окно, в котором осуществляется поиск наличия доходностей, отличающихся от нормальных. Самыми популярными методами моделирования нормальной доходности являются модель средней скорректированной доходности (MAR), рыночная модель (MM), CAPM, и различные многофакторные модели (APT, модификации моделей Фама и Френча, и т.д.). Выбор наиболее точной и адекватной реальности модели играет важную роль в значимости анализа: упрощенные модели могут показывать заниженные оценки ожидаемой доходности, что может вести к тому, что расхождения с реальной доходностью будут велики, т.е. будет наблюдаться абнормальная доходность даже в случаях, когда её на самом деле нет. Как уже отмечалось выше, критика работ, опровергавших гипотезу эффективного рынка с использованием событийного анализа, чаще всего как раз и заключалось в том, что в этих работах использовалась модель CAPM. Утверждалось, что данная модель неадекватно моделирует ожидаемую доходность в силу того, что упускает из виду многие значимые риск-факторы.

В связи с этим, в данной работе для моделирования ожидаемой доходности будет применяться пятифакторная модель Фама и Френча (Fama, French, 2014). Помимо факторов, использовавшихся в трехфакторной модели (Fama, French, 1993), были добавлены два дополнительных риск-фактора:

  1. RMW (Robust Minus Weak) – фактор, отражающий разницу в доходностях диверсифицированных портфелей, состоящих из компаний с исторически стабильной, надежной (robust) прибыльностью и из компаний со слабой (weak) прибыльностью.
  2. CMA (Conservative Minus Aggressive) – фактор, отражающий разницу между средней доходностью «консервативных» инвестиционных портфелей и средней доходностью «агрессивных» инвестиционных портфелей.

Таким образом, модель (для каждой компании) имеет вид:

=0

Коэффициенты и константа оцениваются при помощи линейной регрессии (МНК). Ожидается, что данная модель будет в значительной степени «покрывать» факторы риска и что если абнормальная доходность и будет иметь место, то размер этой доходности (или убытка) будет невелик.

Нулевой гипотезой  будет отсутствие влияния событий, отражаемых пиками в объеме твитов, на доходности акций компаний.

Экстраполяция модели с оценочного периода на событийного окно для получения нормальных доходностей; получение абнормальной доходности (AR) и кумулятивной абнормальной доходности (CAR) для компаний

После того, как на оценочном были построены модели и получены коэффициенты при каждом факторе, были получены ожидаемые, нормальные доходности на событийном окне для каждой компании. Далее, были высчитаны аномальные доходности для каждой компании как разница между фактически наблюдаемой в момент времени t доходностью (R) и нормальной для момента t доходностью из модели (E[R]):

В свою очередь, формула подсчета кумулятивной абнормальной доходности (CAR) имеет вид:

Проверка статистической значимости AR и CAR

Для проверки статистической значимости будет использоваться факт, что под нулевой гипотезой  абнормальные доходности имеют нормальное распределение (Campbell, MacKinlay, 1997).

,

где ,

соответственно, для ,

,

В других работах (MacKinlay, 1997) в формулу дисперсии абнормальных доходностей так же прибавляют поправку на ошибки, связанные с качеством выборки, однако, в той же работе (MacKinlay, 1997) отмечается, что для разумно больших выборок поправка стремится к нулю. В случае данной работы наблюдений в оценочном периоде больше 300, что в целом лишает смысл использования поправки.

Таким образом, для проверки возможности отвергнуть нулевую гипотезой  можно использоваться традиционные тесты. Вместе с тем, истинные значения   неизвестны, в связи с чем необходимо использовать оценку для дисперсии . Так как дисперсия абнормальной доходности сводится к дисперсии случайной ошибки модели, то будет использоваться традиционная оценка стандартной ошибки случайной величины:

, где

После того, как были получены все указанные величины (а именно значения AR и CAR с соответствующими дисперсиями), можно оценить статистическую значимость, посчитав тестовую статистику :

Как можно заметить на представленной ниже таблице (Таблица 1), на событийном окне большинство наблюдений незначимы, кумулятивные абнормальные доходности каждой компании также незначимы. В целом, аналогичная картина наблюдается и для оставшихся 19 компаний в выборке.

Таблица  Посчитанные значения событийного анализа для трех компаний

В указанных ранее работах, посвященных событийному анализу, авторы анализируют и агрегированные показатели по компаниям: для каждого периода в событийном окне считается среднее значение абнормальной (AAR) доходности и соответствующее значение кумулятивной абнормальной доходности (CAAR).

Дисперсии для построения тестовой статистики были получены путем преобразований формулы:

Получив значения этих показателей и предполагая, что  является оценкой для , возможно посчитать значение тестовой статистики для средней по компаниям кумулятивной абнормальной доходности (CAAR), :

По результатам вычислений для позитивных твитов  оказался незначимым показателем, что может говорить о том, что, при условии эффективности построения событийного анализа на пятифакторной модели Фама и Френча, использование пиков в объеме позитивных твитов в качестве событий ведет к незначимым и в то же время к небольшим абнормальным доходностям. Примечательно, что использование негативных твитов также не дает статистически значимых результатов, однако, например, средняя кумулятивная доходность значительно выше, чем в случае позитивных твитов:  , что выше чем стандартное отклонение для CAAR (s.e. составило 0.016). На основании этого, можно сделать предположение, что негативные твиты несут в себе более «сильные» сигналы, чем общее количество твитов или только позитивные твиты. Это предположение в дальнейшем можно использовать при построении предсказательной модели.

Тем не менее следует заключить, что «слепое» использование пиков в Твиттере как потенциальных событий, вокруг которых возможно было бы наблюдать доходности выше нормальных, не ведет к значимым результатам. Нулевая гипотеза об отсутствии влияния событий на доходность не отвергается. Вместе с тем, кажется возможным, как уже отмечалось выше, что при разработке метода фильтраций пиков как событий с более продвинутыми методами классификации твитов по тональности, возможно будет добиться возможности отвержения нулевой гипотезы.

Глава 4. Методология построения предсказательной модели

Описание используемых факторов

В данной главе будет предложена методология построения предсказательной модели направления динамики акций на основе традиционных финансовых факторов, а также с включением определенного индекса настроений в Твиттерекак фактора в предсказательную модель. Как уже отмечалось в предыдущих разделах, в данной работе выдвигается гипотеза,о том,что использование индекса настроений поможет улучшить предсказательную точность модели.

Тем не менее прежде чем перейти к описанию методологии самой модели, необходимо составить индекс настроений. Чаще всего, как отмечалось в обзоре литературы, используется простой индекс, который представляет из себя отношение позитивных или негативных твитов к сумме позитивных и негативных твитов. В связи с широким применением такого подхода не толькок составлению индекса настроений в социальных сетях, но и индексов настроений и уверенности в принципе, в данной работе также будет применяться аналогичный индекс (далее в моделях –Seninx).

Другим индексом, отражающим настроение в социальной сети, будет служить индекс полярности настроений,Pol:

Однако, возможно, что настроения в сети будут оказывать влияние на динамику акций не сразу, но с определенной задержкой. В связи с этим, модели будут тестироваться с включением индексов с различными лагами в 1-3 дня.

Помимо индексов настроений в сети, в моделях в качестве факторов будут использоваться следующие факторы:

  • Доходность –доходности акций по цене закрытия (доходность высчитывается без учета дивидендов)
  • Momentum –показатель величины изменения сегодняшней цены относительно цен i-дневной давности. Как и в случае с индексами, будут использоваться различные модификации моментума с различнымиn
  • lag(m) – доходность акции с лагом вm дней
  • S&P 500 Close– значение закрытия индекса S&P 500. Данные индекс был выбран в силу того, что в выборке участвуют компании различных отраслей, например, не все компании в выборке входят индекс Dow Jones. В связи с этим, было решено, что более «широкий» индекс лучше будет влиять на качество и точность предсказаний
  • S&P 500 Volume –объем торгов индекса. Выбран по тем же причинам, что и цены закрытия
  • Волатильность –волатильность доходности акций и индекса S&P 500
  • GoogVol –объем поисковых запросов о компании в Google
  • Direction –направление цены/доходности относительно предыдущего периода (Up/Down)

На данном этапе, еще не приступая к моделированию, можно сделать несколько предположений о том, как факторы будут влиять на доходность и как будут взаимодействовать друг с другом: во-первых, кажется, что на имеющихся данных можно будет получить точность выше, чем точность случайного прогноза (50 %), так как выборка достаточно мала (несмотря на то, что больше, чем в аналогичных работах); во-вторых, скорее всего, максимальный значимый лаг доходности будет примерно 3-4 дня (на основе прошлого опыта автора данной работы); в-третьих,вероятно, сигналы, которые несут в себе индексы настроений Твиттера во многом будут пересекаться с сигналами из поисковых запросов, так, добавлениеGoogVolповерх индексов настроений вряд ли будет улучшать предсказательную точность; последнее предположение заключается в том, что с большой долей вероятности, лаг доходности в 1 и/или 2 дня и моментум будут главными объясняющими переменными, которые будут обеспечивать наибольшую долю в точности прогноза. Тем не менее, если какой-либо из индексов настроений будет улучшать точность в пределах <1 %, это будет считаться успехом в рамках данной работы. Вместе с тем, хотя и будут применяться методы обеспечения стабильности результатов, которыебудут описаны ниже, но следует отметить, что наблюдения по Твиттеру были доступны начиная с 2015 года, таким образом, будут использованы данные только за период в 25 месяцев, т.е. примерно 570 наблюдений для каждой компании (поделенныев пропорции 70%/30% на тренировочную и тестовую выборки соответственно), если исключить нерабочие биржевые дни. Для более состоятельных и стабильных результатовнеобходимоиметь как минимум более 1000 наблюдений по каждой компании, однако это невозможно в силу недоступности данных. В связи с этим, необходимо относиться к результатам моделей с определенной долей осторожности, как и в случае других работ, изучающих влияние публикаций в Твиттере на финансовые показатели.

Выбор предсказательной модели

Как уже не раз отмечалось выше, в данной работе будет предпринята попытка построить предсказательную модель динамики курса стоимости акций, однако, целью является не предсказание самой цены в следующем периоде, но предсказание направления – Up-or-Down предсказание:

  • Up – в периодеt+1 цена/доходность акции повысится в сравнении с периодомt
  • Down – в периодеt+1 цена/доходность акции понизится в сравнении с периодомt.

Для целей такого рода предсказаний можно использовать класс регрессионных моделей, решающих проблемы классификации.Например, логистическую регрессию (Logit), метод опорных векторов (Support Vector Machine, SVM), а также различные формы дискриминантного анализа. Несмотря на большую сложность, во многих задачах классификации, более сложные модели, в том числе SVM и методы дискриминантного анализа, не дают значительных преимуществ в сравнении с логит-моделью, зачастую уступая ей. Использование этих методов имеет смысл при больших выборках, при большем количестве факторов, при нелинейной связи с зависимой переменной с факторами (однако, также существуют нелинейные формы логит-модели), при наличии близкого к идеальному распределению данных между классифицируемыми данными (в таком случае логит-модель неприменима и стоит применять дискриминантный анализ). Наиболее предпочтительными моделями для финансового прогнозирования являются метод опорных векторов и логистическая регрессия, однако, в случае данной работы использование метода опорных векторов нецелесообразно в силу относительно малого размера имеющейся выборки.  Таким образом, в целях построения предсказательной модели в данной работе будет применяться логистическая регрессия. Здесь и далее в качестве теоретической основы используются учебники по машинному и статистическому обучению (Hastie, Tibshiran, 2001; Hastie, Tibshiran, 2013).

С помощью логистической регрессии будет моделироваться вероятность того, что в следующем периоде цена/доходность повысятся, или:

В логистической регрессии для моделирования этой вероятности используется логистическая функция, которая, в отличии от линейной регрессии позволяет избежать проблем с вероятностями выше единицы и/или отрицательными вероятностями:

После определенных преобразований и взятия логарифма, функция принимает вид:

Коэффициенты логистической регрессии оцениваются на данных с помощью метода максимального правдоподобия, а не метода наименьших квадратов. Для логистической функции от одной переменной, функция максимального правдоподобия имеет вид:

Оценки коэффициентов при объясняющих переменных получаются максимизацией функции максимального правдоподобия.

Логистическая регрессия будет строиться на части имеющихся данных: для каждой компании выборка будет делиться на две части – на тренировочную и на тестовую выборки. Сама регрессия будет строиться на тренировочной выборке, таким образом, коэффициенты будут получены на основе только тренировочной выборки, но экстраполяция и предсказание будут делаться на тестовую выборку. Деление выборки необходимо для того, чтобы избежать проблемы переобучения машины/классификатора: если натренировать классификатор на полной выборке и пытаться оценить ее точность на части полной выборки, то качество прогноза будет завышено, так как по данным этой подвыборки регрессия уже строилась. Грубо говоря, классификатор «видел» эти данные, в связи с чем может быть подобрана модель, которая максимально хорошо описывает имеющуюся выборку данных. Это может быть достигнуто усложнением модели и спецификации, включением различных факторов и функциональных форм факторов. Вместе с тем, такая «заточенная» под конкретную выборку модель плохо описывает общую совокупность данных и/или новые данные. Для этого и производится деление на две выборки: точность регрессии на тестовой выборке (по которой регрессия не строилась и не «видела» данные с нее) может служить относительно надежным прокси для оценки точности регрессии на генеральной совокупности или на новых данных. В приложении к теме данного диплома, это значит, что при появлении данных за будущие периоды, регрессия, в идеале, все еще будет давать относительно разумные оценки коэффициентов и относительно разумную точность прогноза. Однако, как уже отмечалось выше, следует иметь ввиду, что имеющийся в распоряжении массив данных мал, необходимо с осторожностью относиться к результатам.

Следующим после выбора модели для построения прогноза шагом является подбор оптимально спецификации выбранной модели. В качестве критериев выбора спецификациипризнаны: сумма ошибок классификации на тестовой выборке,MSE (meansquarederror) регрессии на тестовой выборке, среднюю ошибку кросс-валидации, статистика Мэллоу (MallowsCp).

Для выбора наилучшей спецификации существует множество различных подходов, наиболее популярные среди них: кросс-валидация,Bestsubsetselection,backwardstepwiseselection (назадсмотрящий (или обратный) пошаговый выбор лучшей спецификации) иforwardstepwiseselection (впередсмотрящий (или прямой) пошаговый выбор лучшей спецификации).

Кросс-валидация –в рамках данного метода, тренировочная выборка делится наk случайных, равных «кусков». На каждом шаге кросс-валидации выбирается один из этих «кусков», который играет роль тестовой выборки в рамках кросс валидации. На оставшихся(k-1) «кусках» данных строится регрессия, которая затем экстраполируется на псевдотестовую в рамках кросс-валидации. Полученное при этом значение ошибки классификации/предсказания (т.е. среднее значения количества раз, когда предсказанное значение и реальное значение предсказываемой переменной не совпали) может служить прокси для истинной тестовой ошибки в рамках полной имеющейся выборки. Ошибкой кросс-валидации, таким образом, является средняя поk«кускам» ошибка классификации/предсказания. Иными словами, если имеется тренировочная выборка сn наблюдениями, которая делится наk «кусков», каждый размером вm, то ошибка кросс-валидации имеет вид:

После того, как были получены значения ошибки кросс-валидации для всех анализируемых спецификаций, выбирается та, у которой ошибка минимальна.

Bestsubsetselection данный метод заключается в выборе наиболее эффективной спецификации модели среди всех доступных при заданном количестве факторов спецификациях. Иными словами, в рамках данного метода сравниваются все доступные комбинации всех факторов. Лучшая спецификация выбирается в два этапа:

  1. Начиная с нулевой модели (модель без переменных, только константа), для каждого количества факторовk в модели считается модель с минимальнымRSS (residualsumofsquares) или, соответственно, с максимальным . Таким образом, если имеетсяk объясняющих переменных, то получаются модели, содержащие1, 2…(k-1),kпеременных.
  2. Затем, среди полученных спецификаций выбирается лучшая на основе либо минимальной ошибки кросс-валидации, либо минимальногоMallowsCp (есть и другие критерии, однако, в рамках данной работы были выбраны эти два, определениеMallowsCp будет представлено ниже).

Очевидно, что данный метод неэффективен в плане временных затрат и в плане требуемой вычислительной мощности, если количество факторов велико. В рамках данной работы применение метода оправдано.

Backwardstepwiseselection– данный метод частично упрощает вычисление лучшей спецификации, если сравнивать сBestsubsetselection.Обратный пошаговый выбор так же можно разбить на два шага:

  1. На первом шаге строится полная спецификация модели, включающая все доступные факторы k. Затем, поочередно из модели удаляется один из факторов, приводя таким образом к модели с (k-1) факторам. Среди всех спецификаций, содержащих (k-1) фактор, выбирается лучшая на основе RSS или . И так шаг за шагом, пока не будет достигнута нулевая модель без объясняющих переменных.
  2. Среди всех полученных спецификаций выбирается лучшая на основе либо минимальной ошибки кросс-валидации, либо минимальногоMallowsCp.

Forwardstepwiseselection(Прямой пошаговый выбор)как следует из названия, данный метод обратен предыдущему. Выбор оптимальной спецификации осуществляется по следующему алгоритму:

  1. Начиная на первом шагеснулевой модели, на каждой последующей итерации в модель добавляется по одной объясняющей переменной. Также, как и в предыдущих методах, на каждом шаге для заданного количества переменных в спецификации выбирается лучшая на основе RSS или . Итерации продолжаются, пока не будут исчерпаны переменные.
  2. Среди всех полученных спецификаций выбирается лучшая на основе либо минимальной ошибки кросс-валидации, либо минимальногоMallowsCp.

В данной работе для выбора оптимальной спецификации и для определениявхожденияв оптимальную спецификациюиндексанастроений вТвиттере, будут применяться метод кросс-валидации, backward selection и метод best subsetselection. Для методов backward selection и best subsetselection выбор лучшей финальной спецификации будет производиться на основе статистикиMallowsCp, который вычисляется по формуле:

После того, как была выбрана оптимальная спецификация и были произведены последующие вычисления, необходимо оценить точность предсказания. Для оценки точности предсказания в данной работе будет приводиться таблица распределения предсказаний, котораяпокажетистинные (для которых предсказания и фактическое значение совпали) предсказанияUp, истинные предсказанияDown, ложные предсказания Up, ложные предсказанияDown.

Непосредственно под термином «точность» или «accuracy» будет пониматься следующее значение:

Помимо данных показателей точности будут применяться кривая ROC и показатель AUC (areaunderthecurve).ROC кривая показывает соотношение правильно классифицированных по признаку объектов против неверно классифицированных объектов; чем ближе кривая ROC к левому верхнему углу графика, тем более точным признается классификатора/предсказательная модель.AUC – площадь графика, находящегося под кривой, по сути представляет численное представление точности с помощьюROC кривой.

Таким образом, применяя представленные и разобранные выше методы, можно представить следующийметодологический план построения предиктивной модели:

  1. На первом этапе будет произведен простой графический анализ в попытке визуального выявления наиболее важных для обеспечения точности переменных
  2. Будут применены методы выбора спецификации оптимальной предсказательной модели на основе методов машинного обучения (Bestsubsetselection,Backwardstepwiseselection, кросс-валидация)
  3. После выбора оптимальных спецификаций, модели будут использованы на имеющихся данных с включением одного или нескольких (в зависимости от результатов шага 2) индексом настроений в Твиттере и без индекса
  4. Для каждого вида моделей (с индексом и без индекса) будут измерены точности прогнозов с помощью представленных выше метрик, а также с помощью кривойROC
  5. Если точность предсказания увеличивается при использовании индекса настроений, то делается вывод о существовании влияния настроений на динамику курса акций

Глава 5. Результаты прогнозирования

Индивидуальные предсказательные модели для компаний

В данном разделе будет применен методологический план, описанный в предыдущем разделе. Глава будет разделена на две части:

  • Построение индивидуальных моделей для компаний из выборки
  • Объединение компаний в группы по индустриям, по которым и будут построены предсказательные регрессионные модели.

Необходимоопределить, какую спецификацию следует исследовать. Для этого, в соответствии с планом, будет проведен графический анализ переменных. В силу того, что количество потенциальных переменных велико, на рисунке снизу будут отображены не все, а предварительно определенные как наиболее вероятные кандидаты в финальную спецификацию.

Рисунок  Попарное распределение переменных

На рисунке 3 представлены попарные распределения переменных, однако цвет наблюдений закодирован в соответствии с соответствующим значением предсказываемой переменнойDirection: синий цвет –Down, коралловый цвет – Up. Исходя из представленного графика можно сделать вывод: наиболее важными объясняющими переменными для модели будут моментум и доходность с лагом (т.к. наиболее явное разделение по цветам). Среди различных модификаций использованных моментумов, моментум с лагом 3 оказался наиболее значимым и именно он отражен на графике. По остальным переменным сделать однозначных выводов невозможно, необходим дальнейший анализ.

В первую очередь, будет использован тестBestsubsetselection, описанный ранее. Ниже будут представлены графики проведенных тестов для различных компаний. Черный цвет на графике обозначает включение в спецификацию переменной, белый – отсутствие в модели переменной. Модель с минимальнымCp будет считаться лучшей моделью.

Рисунок  Выбор спецификации для компанииGoogle

Как можно заметить, в случае компанииGoogle ни один из факторов, так или иначе отражающий настроения в социальной сети Твиттер не попал в лучшую спецификацию по методу Best subset selection.

Однако, следует заметить, что для большинства

компаний переменная полярности настроений с лагом в 1 день входит в лучшую модель. На рисунках 5 и 6 будут представлены результаты выбора спецификации для телекоммуникационной компанииT-MobileUS и крупнейшего ритейлера в США – Walmart. Видно, что для обеих компаний полярность значима, а дляWalmart следует использовать и общее количество твитов о компании.

В большинстве случаев, когда полярность включалась в модель, помимо неё ожидаемо включались моментум с лагом 3 и доходности с однодневным

лагом. Модель, состоящая из этих трех факторов, встречалась как лучшая среди компаний чаще всего.

Похожие результаты были достигнуты и с помощью метода Backward stepwise selection. Именно эти три фактора встречались чаще всего. Более того, часто эти два метода согласовывались в том, какая спецификация для данной компании является лучшей. Для примера, на рисунках представлены графики обоих методов для компанииFacebook.Как можно заметить, для обоих методов графики идентичны.

Последним шагом при выборе оптимальной модели стало использование кросс-валидации для определения спецификации модели с наименьшей ошибкой кросс-валидации, и, следовательно, наиболее оптимальной спецификации. Применение данного метода показало, что наиболее часто среди компаний наилучшей спецификацией оказывались две спецификации: модель сMomentum,lag1,lagPol и модель, состоящая только из Momentum, lag1.То, что все три метода предлагают для многих компаний спецификации с индексом полярности настроений в Твиттере в качестве оптимальной, указывает на то, что данный фактор действительно влияет на динамику курса акции.

После использования всех методов выбора оптимальной классификации, можно построить предиктивную модель. Для каждой компании была использована модель, которая предлагалась как оптимальная одним или несколькими из предыдущих методов выбора спецификации. Далее, после построения модели заданной спецификации, был высчитан показатель точности предсказания. Последним этапом стал подсчет точности предсказания аналогичной модели, но без того или иного индекса (почти во всех случаяхlagPol – индекс полярности настроений с лагом в один день), для того, чтобы определить, насколько улучшается прогноз при добавлении индекса настроений. Для примера, ниже будет представлена таблица посчитанных значений для 4 компаний. Примечательно, что для некоторых компаний, например, как в представленном ниже случае для Chevron, точность прогноза по обеим моделям совпала. Тем не менее этоможет быть связано с относительно маленьким размером выборки.

Таблица  Точность прогноза для различных компаний

Точность прогноза

Amazon

Bank of America

Sprint

Chevron

С индексом полярности

0.82443

0.84733

0.84733

0.87023

Без индекса полярности

0.81679

0.83969

0.83206

0.87023

Источник: Расчеты автора вR

В среднем по общей выборке компаний, среднее значение точности прогноза для моделей с индексом полярности – 0.8351839, а для моделей без полярности – 0.8310201.Таким образом, в среднем по выборке, включение индекса улучшает прогноз на 0.4%.

Ниже представлены две метрики ROC и AUC для компанииFacebook, соответствующийAUC составил 0.9. Несмотря на то, что на основе этих метрик можно сделать вывод о высоком качестве прогноза, следует относиться с осторожностью к результатам, как уже отмечалось не раз,по причине размера выборки.

Рисунок 9ROC кривая дляFacebook

Предсказательные модели для групп компаний

Далее, аналогичные расчеты и действия были применены для различных групп компаний. Компании были собраны в группы по индустрии, всего получилось три группы:

  1. IT компании: Apple, Amazon, Facebook, Microsoft.Тренировочной выборкой послужили первые три компании, а тестовой –Microsoft.
  2. Финансовыекомпании:BankofAmerica, Wells Fargo, JPMorgan Chase, Citibank.Тренировочной выборкой послужили первые три компании, а тестовой –Citibank.
  3. Телекоммуникационные компании:Sprint,AT&T, Verizon, T-Mobile US. Тренировочной выборкой послужили первые три компании, а тестовой – T-Mobile US.

По результатам всех трех используемых методов выбора спецификации оказалось, что для обозначенных групп полярность настроений в сети Твиттер входит в лучшую спецификацию у компанийIT и Телекоммуникационной индустрии. Справа представлен графикBackwardStepwiseSelection для финансовой индустрии. Для компанийIT и Телекоммуникационной индустрии были построены соответствующие модели, а также посчитаны метрики, отражающие точность прогноза.

Таблица  Точность прогноза для индустрий

Точность прогноза

IT

Телекоммуникации

С индексом полярности

0.83099

0.83451

Без индекса полярности

0.82923

0.84331

Источник: Расчеты автора вR

Примечательно, чтоAUC для индустрииIT так же составил близкое к 0.9 значение, AUC = 0.907. СоответствующаяROC кривая представлена ниже.

Рисунок 11ROC кривая дляIT индустрии

В итоге, основываясь на имеющихся данных, можно заключить, что в большинстве случаев включение в предсказательную модель индекса полярности настроений в сети Твиттер действительно увеличивает предсказательную силу модели, но не для всех компаний и не для всех индустрий. Можно заметить, что для компаний, о которых часто идут обсуждения в сети, в частности о качестве продуктов компании или услуг, либо в целом о компании, увеличение предсказательной силы наблюдается чаще, чем для компаний, о которых пишут редко и/или только новости. Это наталкивает на вывод, что с дальнейшим развитием социальных сетей, а также с более обширным применением инвесторами различных индексов, основанных на социальных сетях типаTwitter, эта связь будет усиливаться. На данный же момент, можно сделать вывод, что индексы настроений надежнее применять для компаний, которые так или иначе связаны с интернетом:IT компании, телекоммуникационные компании, компании, активные в социальных сетях (чаще всего, оказывающие разного рода услуги).

Заключение

В данной работе было проанализировано влияние индекса настроений в социальной сети Твиттер на динамику курса акций. На первом этапе исследования был проведен событийный анализ в попытке выяснить, возможно ли использовать пики объемов публикаций позитивных и негативных твитов в качестве событий, вокруг которых можно выявить доходность выше нормальной. Ожидаемо, на этом этапе не было получено статистически значимых результатов. На втором этапе была проведена основная запланированная работа: были построены различные предиктивные модели, как включающие различные факторы, отражающие настроения в Твиттере, так и не включающие их.

В рамках работы было выявлено, что для большинства использованных для анализа компаний на имеющихся данных включение индекса полярности настроений в Твиттере с лагом в один день увеличивает точность прогноза на 0.5-2 % – в среднем, с учетом всех компаний (и тех, для которых эффект от добавления индекса отрицательный) точность прогноза модели с индексом составила 83.5 %, а у модели без индекса 83.1 %. Также, был сделан вывод, что наибольшая точность при использовании индекса наблюдается для компаний изIT отрасли и телекоммуникационной отрасли, в то время как для компаний энергетической отрасли использование индекса даже ухудшает прогноз, скорее всего по причине отсутствия вносимых индексом в модель дополнительных «сигналов» и/или, наоборот, по причине добавления в модель «шумов» от индекса. Тем не менее, кажется разумным, что при росте популярности Твиттера как социальной сети среди людей и самих компаний (при активном использовании корпоративных аккаунтов), а также при более обширном использовании индекса на финансовых рынках, индекс начнет нести в себе больше «сигналов» и меньше «шумов», что сделает его более важным фактором для предсказательных моделей.

Таким образом, можно заключить, что в работе были выполнены как объявленная исследовательская цель, так и сопряженные с ней задачи, а именно:

  • Был проведен событийный анализ
  • Были построены различные предиктивные модели
  • Было выявлено, что включение в предиктивную модель индекса настроений в Твиттере действительно улучшает точность прогноза, хотя и не для всех компаний. В среднем по всей выборке компаний прогноз улучшается на 0.4%. Для отдельных компаний (телекоммуникации,IT) прогноз улучшается на ~2%.

Следует также отметить, что в работе для получения более точных прогнозов были использованы современные методы и подходы машинного обучения. Вместе с тем, несмотря на то, что были предприняты попытки обеспечить состоятельность полученных предсказаний, результаты могут быть до определенной степени искажены качеством имеющихся данных, однако, на момент написания работы не имелось практической возможности решения данной проблемы.

В связи с обозначенной выше проблемой существует простор для дальнейших исследований и улучшения методологии, разработанной в работе:

  • В первую очередь, при возникновении возможности получить доступ к большему массиву данных, желательно с количеством наблюдений как минимум более 1000 на каждую компанию, появится возможность: а) улучшить не только точность предсказания, но, главное, качество и состоятельность прогноза б) применить более продвинутые методы и модели машинного обучения, а затем выбрать из всех доступных методов предсказания лучший метод.
  • Во-вторых, если получить доступ к полному историческому архиву твитов, можно решить две проблемы: получить более обширную выборку и получить возможность построить собственный классификатор твитов. Наличие собственного классификатора позволит построить предсказательную модель, которая будет в состоянии делать прогнозы в режиме реального времени. Как уже отмечалось в работе, часть данных для тренировки классификатора имеется, классификатор был построен. Однако, так как методология построения классификатора не имеет отношения к теме данной работы, то сама методология не была описана. Более того, имеющиеся данные являются общими твитами на случайные темы, а не о компаниях. В связи с этим точность построенного классификатора оказалась ниже 80 %. Таким образом, остается возможность построить более совершенный классификатор твитов.

Результаты работы можно рекомендовать к использованию при составлении инвестиционных и торговых стратегий, в особенности для акций крупных компаний телекоммуникационной иIT отраслей. Имплементация довольно проста, так как по предложенной методологии получаются предсказания по типуUp-or-Down, таким образом,Up может служить сигналом к покупке, аDown, соответственно, к продаже.

Список литературы

  1. Agarwal, A., Sharma, V., Sikka, G., & Dhir, R. (2016, March). Opinion mining of news headlines using SentiWordNet. In Colossal Data Analysis and Networking (CDAN), Symposium on (pp. 1-5). IEEE.
  2. Bollen, Johan, Huina Mao, and Xiaojun Zeng. "Twitter mood predicts the stock market." Journal of computational science 2.1 (2011): 1-8.
  3. Campbell, J. Y., Lo, A. W. C., & MacKinlay, A. C. (1997). The econometrics of financial markets. princeton University press.
  4. Cowles, 3rd, A. and Jones, H. E. (1937), Some a posteriori probabilities in stock market action, Econometrica 5(3), 280–294.
  5. De Bondt, W. F. M. and Thaler, R. (1985), Does the stock market overreact?, The Journal of Finance 40(3), 793–805
  6. Dhankar, Raj S. and Maheshwari, Supriya, Behavioural Finance: A New Paradigm to Explain Momentum Effect (May 27, 2016). Available at SSRN:https://ssrn.com/abstract=2785520
  7. Edwards, W. (1968). Conservatism in human information processing. Formal representation of human judgment, 17, 51.
  8. Fama, E. F. (1965a), Random walks in stock market prices, Financial Analysts Journal 21(5), 55–59.
  9. Fama, E. F. (1965b), The behavior of stock-market prices, Journal of Business 38(1), 34–105.
  10. Fama, E. F. (1995). Random walks in stock market prices. Financial analysts journal, 51(1), 75-80.
  11. Fama, E. F., & French, K. R. (1993). Common risk factors in the returns on stocks and bonds. Journal of financial economics, 33(1), 3-56.
  12. Fama, E. F., & French, K. R. (1996). Multifactor explanations of asset pricing anomalies. The journal of finance, 51(1), 55-84.
  13. Fama, E. F., & Kenneth, R. French, 2014a,“A Five-factor Asset Pricing Model”. Journal of Financial Economics forthcoming.
  14. Fama, E. F., Fisher, L., Jensen, M. C. and Roll, R. (1969), The adjustment of stock prices to new information, International Economic Review 10(1), 1–21.
  15. Fama, E. F., Fisher, L., Jensen, M. C., & Roll, R. (1969). The adjustment of stock prices to new information. International economic review, 10(1), 1-21.
  16. Friedman, J., Hastie, T., & Tibshirani, R. (2001). The elements of statistical learning (Vol. 1). Springer, Berlin: Springer series in statistics.
  17. Hirshleifer, D., Subrahmanyam, A., & Titman, S. (1994). Security analysis and trading patterns when some investors receive information before others. The Journal of Finance, 49(5), 1665-1698.
  18. James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning (Vol. 6). New York: springer.
  19. Kahneman, D., & Tversky, A. (1972). Subjective probability: A judgment of representativeness. Cognitive psychology, 3(3), 430-454.
  20. Kahneman, D., & Tversky, A. (1977). Intuitive prediction: Biases and corrective procedures. DECISIONS AND DESIGNS INC MCLEAN VA.
  21. Kahneman, Daniel and A. Tversky (1973), “On the Psychology of Prediction,” Psychological Review, vol. 80, 237-251
  22. Kahneman, Daniel and Mark W. Riepe, “Aspects of Investor Psychology,” Journal of Portfolio Management, vol. 24, 4, Summer 1998, 52-65.
  23. Keim, D. B. (1983). Size-related anomalies and stock return seasonality: Further empirical evidence. Journal of financial economics, 12(1), 13-32., Chicago
  24. Keynes, J. M. (1923), Some aspects of commodity markets, Manchester Guardian Commercial: European Recon- struction Series pp.784–786. Section 13. 29 March 1923. Reprinted in The Collected Writings of John Maynard Keynes, Volume XII, London: Macmillan, 1983.
  25. MacKinlay, A. Craig. "Event studies in economics and finance." Journal of economic literature 35.1 (1997): 13-39.
  26. Mao, H., Counts, S., & Bollen, J. (2011). Predicting financial markets: Comparing survey, news, twitter and search engine data. arXiv preprint arXiv:1112.1051.
  27. P. C. Tetlock. Giving content to investor sentiment: The role of media in the stock market. Journal of Finance, 62(3):1139–1168, 2007
  28. Poterba, J. M. and Summers, L. H. (1988), Mean reversion in stock prices: Evidence and implications, Journal of Financial Economics 22(1), 27–59.
  29. Ranco G, Aleksovski D, Caldarelli G, Grčar M, Mozetič I (2015) The Effects of Twitter Sentiment on Stock Price Returns. PLoS ONE 10(9): e0138441. doi:10.1371/journal.pone.0138441
  30. Roberts (1967), Statistical versus clinical prediction of the stock market
  31. Samuelson, P. A. (1965), Proof that properly anticipated prices fluctuate randomly, Industrial Management Review 6(2), 41–49.
  32. Schumaker, R. P., & Chen, H. (2009). A quantitative stock prediction system based on financial news. Information Processing & Management, 45(5), 571-583.
  33. Sewell, Martin. "History of the efficient market hypothesis." RN 11.04 (2011): 04.
  34. Tversky, Amos, and Daniel Kahneman. "Judgment under uncertainty: Heuristics and biases." Utility, probability, and human decision making. Springer Netherlands, 1975. 141-162.
  35. Chan, Wesley S. "Stock price reaction to news and no-news: drift and reversal after headlines." Journal of Financial Economics 70.2 (2003): 223-260.
  36. Wang, F. A. (2001). Overconfidence, investor sentiment, and evolution. Journal of Financial Intermediation, 10(2), 138-170.
  37. Wang, H., Can, D., Kazemzadeh, A., Bar, F., & Narayanan, S. (2012, July). A system for real-time twitter sentiment analysis of 2012 us presidential election cycle. In Proceedings of the ACL 2012 System Demonstrations (pp. 115-120). Association for Computational Linguistics.

Динамика курсовой стоимости акций компаний на http://mirrorref.ru


Похожие рефераты, которые будут Вам интерестны.

1. Реферат Методы оценки стоимости акций

2. Реферат Модели оценки стоимости акций

3. Реферат Оценка рыночной стоимости акций ЗАО АЛИКОМ

4. Реферат Факторы влияющие на динамику цен акций российских компаний нефтяной отрасли

5. Реферат Сравнение фундаментальной и рыночной оценки стоимости технологичных компаний

6. Реферат Применение модели Ольсона для оценки стоимости компаний на развивающихся рынках

7. Реферат Определение надежных мультипликаторов для оценки стоимости компаний на развивающихся рынках стран BRIC

8. Реферат Определение наиболее надежных мультипликаторов для оценки стоимости компаний на развивающихся рынках стран BRIC

9. Реферат Оценка стоимости капитала компаний на развивающихся рынках России на основе корректируемых рыночных мультипликаторов

10. Реферат Правовой режим акций. Порядок выпуска и продажи акций. Контрольный пакет