Спосіб виявлення мережевого шахрайства, спрямованого проти рекламної інтернет-кампанії
Формула / Реферат
Спосіб виявлення мережевого шахрайства, спрямованого проти рекламної Інтернет-кампанії, який відрізняється тим, що вибирають часові періоди дослідження Інтернет-трафіку: досліджуваний період, аналогічний за протяжністю період в попередньому році та досліджуваний період з передісторією, вибирають з сервера статистичні дані про зміни параметрів трафіку за вибрані періоди, перетворюють масив зміни параметрів трафіку у функції їх почасового розподілу, виділяють трендові складові погодинних розподілів за вибрані періоди, виділяють складові, що відповідають коливанням погодинних розподілів за вибрані періоди, виділяють шумові складові погодинних розподілів за вибрані періоди, визначають наявність аномалій змін параметрів трафіку та генерують звіт про роботу для його подальшого аналізу.
Текст
Реферат: Спосіб виявлення мережевого шахрайства, спрямованого проти рекламної Інтернет-кампанії, у якому вибирають часові періоди дослідження Інтернет-трафіку, статистичні дані про зміни параметрів трафіку, перетворюють масив зміни параметрів трафіку у функції їх почасового розподілу, визначають наявність аномалій змін параметрів трафіку та генерують звіт про роботу для його подальшого аналізу. UA 75444 U (54) СПОСІБ ВИЯВЛЕННЯ МЕРЕЖЕВОГО ШАХРАЙСТВА, СПРЯМОВАНОГО ПРОТИ РЕКЛАМНОЇ ІНТЕРНЕТ-КАМПАНІЇ UA 75444 U UA 75444 U 5 10 15 20 25 30 35 40 45 50 55 Спосіб виявлення мережевого шахрайства, спрямованого проти рекламної Інтернеткампанії, належить до Інтернет-технологій відслідковування та аналізу даних трафіку. Спосіб може використовуватись для побудови моделей шахрайських дій користувачів щодо певного типу рекламних оголошень. Серед рівня техніки відомі два напрямки боротьби із мережевим шахрайством в системі Інтернет-реклами. В рамках першого напряму розробляються модифікації схеми проведення рекламної кампанії, які призводять до зменшення рівня шахрайства. Наприклад, удосконалення аукціону [1], введення альтернативних схем оплати з використанням розширень для браузера [2]. Другий напрямок, до якого також належить заявлений спосіб, стосується розробки методів визначення шахрайських дій в рамках існуючої схеми. Приміром, в методі, який було запропоновано в [3], передбачається використання наступної послідовності дій для зменшення рівня шахрайства: - дослідити поведінку користувача при звичайному показі результатів пошуку за певними ключовими словами, збудувати шаблон поведінки користувача; - певним чином змінити результати пошуку за тими ж пошуковими запитами та продемонструвати їх користувачеві; - проаналізувати поведінку користувача при модифікованому показі, порівняти її із побудованим шаблоном поведінки; - якщо виникнуть підозри про наявність шахрайських дій з боку користувача припинити показ оголошень, інакше повернутися до демонстрації немодифікованих результатів пошуку. В системі [4] для визначення нелегітимних дій будуються шаблони поведінки користувачів на різних рівнях деталізації (для певної IP-адреси, міста, країни, континенту тощо). Для побудови шаблонів використовуються різноманітні статистичні методи, техніки інтелектуального аналізу даних та розпізнавання образів. Порівняння поточної поведінки користувача із шаблонами (яке проводиться за допомогою статистичних тестів) дозволяє класифікувати її як "нормальну" або "підозрілу". Головною відмінністю системи визначення шахрайства, що описана в роботі [5], є одночасне використання даних лог-файлів з серверної та клієнтської сторін. Серверний лог-файл містить інформацію про IP-адресу клієнта, відвідувані сторінки, тривалість відвідування тощо. Лог-файл клієнта містить інформацію про дії користувача в браузері: рухи мишки, натискання клавіш, використання полоси прокрутки. Авторами також була визначена функція обчислення рівня шахрайства, вхідними параметрами якої є дані лог-файлів. Таким чином, фактично була збудована модель шахрайської поведінки користувачів. В розглянутих вище роботах [3-5] для визначення шахрайських дій, так само як і в заявленому способі, використовують порівняння поточної поведінки користувачів із деякими еталонами, які, зазвичай, будуються на поведінці в минулому. Однак, на відміну від інших, запропонований спосіб розглядає задачу пошуку шахрайства з точки зору рекламодавця, а не пошукової мережі або постачальників Інтернет-послуг. Відповідно, для проведення аналізу використовуються якісно інші дані, які агрегують поведінку користувачів відносно однієї рекламної кампанії, а не характеризують активність певного користувача. Задачею корисної моделі є виділення тих параметрів рекламного трафіку, які є доступними рекламодавцю і можуть використовуватися для формування поведінкових шаблонів "склікування", та дослідження характеру їх застосування в процесі побудови цільової функції визначення нападу. Під "склікуванням" розуміється деякий різновид мережевого шахрайства, а саме, генерація кліків по оголошеннях із шахрайськими намірами, наприклад завдання шкоди конкурентові або отримання деякого грошового прибутку [6]. Технічним результатом заявленого способу є підвищення надійності, достовірності та точності відомостей щодо наявності шахрайських заходів (зокрема "склікування") стосовно висвітленої в мережі Інтернет інформації за посиланням, в тому числі й рекламних оголошень. Поставлена задача вирішується тим, що спосіб виявлення мережевого шахрайства, спрямованого проти рекламної Інтернет-компанії, включає етапи, на яких: - вибирають часові періоди дослідження Інтернет-трафіку: досліджуваний період, аналогічний за протяжністю період в попередньому році та досліджуваний період з передісторією, - вибирають з сервера статистичні дані про зміни параметрів трафіку за вибрані періоди, - перетворюють масив зміни параметрів трафіку у функції їх почасового розподілу, - виділяють трендові складові погодинних розподілів за вибрані періоди. 1 UA 75444 U 5 10 15 20 25 30 35 40 45 50 55 - виділяють складові, що відповідають коливанням погодинних розподілів за вибрані періоди, - виділяють шумові складові погодинних розподілів за вибрані періоди, - визначають наявність аномалій змін параметрів трафіку та - генерують звіт про роботу для його подальшого аналізу. Під час проведення рекламної кампанії рекламодавець має доступ лише до агрегованої інформації про деякі параметри відвідування сайту. Якщо рекламна кампанія проводиться за допомогою сервісу AdWords компанії Google, в аккаунті рекламодавця міститься інформація про параметри, наведені в Таблиці 1. Статистичні дані можуть бути переглянуті на рівні кампанії, групи рекламних оголошень (рекламна кампанія AdWords передбачає організацію оголошені, в групи), окремого рекламного оголошення або ключового слова (пошукових запитів, за якими демонструється рекламне повідомлення; визначаються рекламодавцем). Звіти являють собою таблицю, в якій зазначено середні значення параметрів за період, що відповідає рівню деталізації. Рекламодавець може додатково підключити на свій сайт різноманітні аналітичні системи, наприклад Google Analytics, який є безкоштовним сервісом. Подібні лічильники збирають інформацію про характеристики усіх можливих варіантів відвідування сайту: кліки по рекламним оголошенням, перехід за посиланнями на інших сайтах, прямий перехід (введення прямої адреси сайту безпосередньо в адресний рядок браузера) тощо. В звітах подібних аналітичних систем також міститься агрегована інформація про показники з таблиці 2. Такі параметри, як відвідування, перегляди сторінок, кількість переглянутих за відвідування сторінок, нові відвідування, показник відмов, середня тривалість відвідування, унікальні відвідувачі є загальними характеристиками відвідування сайту, їх середні значення без додаткової сегментації надаються на максимальному рівні деталізації - година. Інші параметри дозволяють проводити додаткову сегментацію деяких з основних показників (відвідування, кількість переглянутих за відвідування сторінок, нові відвідування, показник відмов, середня тривалість відвідування) з максимальним рівнем деталізації в один день. Якщо як перший параметр сегментації використовують один з наступних: - мова або місцезнаходження користувача (розділ "Відвідувачі"), - постачальник послуг (розділ "Технології"), - ім'я хосту (розділ "Зміст"), то можна згенерувати звіти, які містять до трьох рівнів сегментації. Наприклад, розподіл кількості відвідувань між різними браузерами для користувачів, які працюють з операційною системою Linux та проживають на території міста Києва. Згідно з заявленим способом, аналізуючи дані звітів продуктів Google AdWords та Google Analytics, пропонується знайти певні аномалії в трафіку, визначити деякі з цих аномалій, а також їх комбінації, що можуть свідчити про наявність "склікування". Оскільки параметри трафіку мають різну інтерпретацію, аномалії на їх рівні проявляються по-різному. Для деяких параметрів важливим є зміна тренду, для інших розкид шумових компонент, в деяких випадках особливе значення може мати наявність чи відсутність певних періодичних складових. Далі розкрито детальний опис креслень, де: на Фіг. 1 показано погодинний розподіл кількості кліків в періоди 01.07 - 31.08.10. 01.07 31.08.11 та 01.05 - 31.08.11, на Фіг. 2 показано трендові складові погодинного розподілу кількості кліків в періоди 01.07 31.08.10, 01.07 - 31.08.11 та 01.05 - 31.08.11, на Фіг. 3 показано складові, що відповідають 8-годинним коливанням погодинного розподілу кількості кліків в періоди 01.07 - 31.08.10, 01.07 - 31.08.11 та 01.05 - 31.08.11, на Фіг. 4 показано складові, що відповідають 4-х годинним коливанням погодинного розподілу кількості кліків в періоди 01.07 - 31.08.10, 01.07 - 31.08.11 та 01.05 - 31.08.11, на Фіг. 5 показано шумові складові погодинного розподілу кількості кліків в періоди 01.07 31.08.10, 01.07 - 31.08.11 та 01.05 - 31.08.11, на Фіг. 6 показано додаткові складові погодинного розподілу кількості кліків в періоди 01.07 31.08.10, 01.07 - 31.08.11 та 01.05 - 31.08.11, на Фіг. 7 показано погодинний розподіл показника "Відсоток нових відвідувань" (для повної доби) та його тренд виділений методом SSA [7] за період 01.05-31.08.11. Як приклад використання запропонованого способу розглянуто розподіл щогодинної кількості кліків для деякої реальної рекламної кампанії, оголошення якої демонструються з понеділка по четвер з 9-00 до 16-00 (сервіси подібні до Google AdWords дозволяють 2 UA 75444 U 5 10 15 20 25 30 35 40 45 50 встановлювати часові рамки демонстрації рекламних повідомлень). На Фіг. 1 представлено розподіл кількості кліків впродовж 3-х періодів: - аналогічного досліджуваному в попередньому році (01.07 - 31.08.10), - досліджуваного (01.07 - 31.08.1 1), - та досліджуваного періоду з передісторією (01.05 - 31.08.11). Аналізуючи часові ряди кількості кліків за допомогою методу SSA, було виділено трендові компоненти (Фіг. 2), 8-ми (Фіг. 3) та 4-х (Фіг. 4) годинні коливання, шумові складові (Фіг. 5), а також компоненти, що відповідають складовим на Фіг. 6. Зміна характеру поведінки тренду (з приблизно сталої величини в 2010 р. на зростання в 2011 р.) може свідчити про збільшення інтересу до рекламованого продукту. Це також підтверджується аналогічним аналізом параметру відвідування сайту, який теж має сталий тренд в 2010 р. і зростаючий в 2011 р. 8- та 4-годинні коливання чітко виділяються в усіх трьох періодах, але циклічна компонента часового ряду кількості кліків досліджуваного періоду (01.07 - 31.08.11), що представлена на Фіг. 6, немає аналогів в попередньому році. Під час проведення аналізу досліджуваного періоду з врахуванням передісторії теж не вдалось виявити цієї складової, отже, вона є характерною саме для проміжку липень-серпень 2011 р. Аналіз функції автокореляції показав, що виділена компонента містить в собі коливання із періодом 8,5 та 4,5 годин, які не є природними для поведінки людини при 8-годинній демонстрації оголошення. Періодичний та тривалий характер дії компоненти може свідчити про "склікування" оголошення не людиною, а спеціальними програмами-ботами. На відміну від кількості кліків, параметр "Відсоток нових відвідувань" має, зазвичай, приблизно стале значення, тому в цьому випадку вагомим аргументом про наявність аномалій є зміна тренду (Фіг. 7). Таким чином, виділено параметри трафіку сервісів Google Adwords та Google Analytics, які можуть використовуватися для формування поведінкових шаблонів "склікування". Дані представлені в агрегованому вигляді з різним рівнем деталізації, однак виділення аномалій певного вигляду в часових рядах одразу декількох параметрів може свідчити про наявність шахрайства. Заявлений спосіб може бути реалізовано на існуючому в даний час обладнанні, виконаному з можливістю процесорної обробки інформації. Також спосіб може бути втілено у вигляді програмного коду або команд, записаних на носій цифрових даних. Джерела інформації: [1] United States Patent Appl. No.: 11/178,528, U.S. Cl. 705/37. Click-fraud reducing auction via dual pricing / Jain K., Talwar K.; Assignee: Microsoft Corporation, Redmond, WA. Pub. No.: US 2007/0011078 A1; Filed 11.07.05; Pub. Date 11.01.07. [2] United States Patent Appl. No.: 11/307.734, Int. Cl. G06F15/173, U.S. Cl. 709/224. System and method for using a browser plug-in to combat click-fraud / Shannon M., Boudville W.; Assignee: Shannon M., Boudville W. Pub. No.: US 2006/0200555 A1; Filed 19.02.06, Pub. Date 7.09.06. [3] United States Patent Appl. No.: 11/648,576, Int. Cl. G06F17/30, U.S. Cl. 707/6, 707/E17.014. Cliek-fraud deteetion method / Meggs A.F., Gillespie J. - Pub. No.: US 2008/0162475 A1; Filed 03.01.07, Pub. Date 03.07.08. [4] United States Patent Appl. No.: 12/694,706. Int. Cl. G06F17/30, G06Q30/00, U.S. Cl. 705/14.26, 707/690, 707/688, 709/224, 705/52. Click-fraud detection / Zwicky R.K.; Assignee: Gere Dev. Applications, LLC, Wilmington, DE (US) Patent No.: US 8,103,543 B1; Filed 27.01.10, Patent Date 24.01.12. [5] United States Patent Appl. No.: 11/413,983, Int. Cl. G06F15/173, U.S. Cl. 709/224. Real time click-fraud detecting and blocking system / Ge. L, Kantardzie M.; - Pub. No.: US 2007/0255821 A1; Filed 01.05.06, Pub. Date 01.11.07. [6] Asdemir K. An Economic Model of Click Fraud in Publisher Networks / K. Asdemire, O. Yurtscven, M. A. Yahya // International Journal of Electronic Commerce. - 2009. Vol. 13. No. 2. P. 61 89. [7] Голяндина Н.Э. ''Гусеница''-SSA: анализ временных рядов: учеб. пособие / Н.Э. Голяндина. СПб.: СПбГУ, 2004. 76 с. 55 3 UA 75444 U Таблиця 1 Параметри рекламного трафіку, що містяться в звітах Google Adwords Максимальний рівень Опис деталізації година (для звітів на Кількість переходів по рекламному оголошенню. рівні кампанії і групи Кількість розміщення оголошення серед оголошень). результатів пошуку. Параметр Кількість кліків Кількість показів CTR (click through rate) день (для інших) Середня ціна за один клік Середня позиція оголошення Відношення кількості кліків до кількості показів. При налаштуванні рекламної кампанії за схемою СРС, тобто плати за клік, рекламодавець встановлює максимальну ставку за клік. Фактично, оплата за перехід визначається під час проведення кожного аукціону між рекламними оголошеннями і реально може бути нижчою за встановлену ставку. Позиція оголошення визначається під час година (на рівні проведення аукціону ізалежить від ставки за кампанії), день (для клік, релевантності оголошення пошуковому інших) запитові, якості сайту тощо. Таблиця 2 Параметри графіку, що містяться в звітах Google Analytics Параметр Максимальний рівень деталізації Опис Кількість сеансів, ініційованих всіма користувачами сайту. Сеанс вважається завершеним, якщо користувач не проявляє активності на сайті впродовж 30 хвилин. Для відстеження відвідувань і інших параметрів використовуються файли cookies. Кількість завантажувань сторінок сайту браузерами користувачів. Глибина перегляду, середня кількість сторінок на сайті, які було переглянуто впродовж одного сеансу (відвідування). Відсоток відвідувань сайту користувачами, які досі не відвідували його. Для обчислення значення цього параметру використовуються файли cookies. Відсоток переглядів, під час яких було переглянуто лише одну сторінку (тобто користувач покинув сайт зі сторінки входу). Середній час, проведений користувачем на сайті впродовж одного відвідування в секундах. Відвідувачі, враховані лише один раз впродовж деякого проміжку часу. Показник визначається за допомогою файлів cookies. Відвідування Перегляди сторінок Кількість переглянутих за відвідування сторінок Година Нові відвідування Показник відмов Середня тривалість відвідування Унікальні відвідувачі 4 UA 75444 U Продовження таблиці 2 Мовні налаштування в браузерах користувачів. Географічне розташування користувача (континент, країна, регіон, місто). Визначається на основі ІР-адреси користувача. Мова Розділ "Відвідувачі” Розділ “Технології” Місце розташування Браузер ОС Домен Версія Mash Підтримка Java Постачальник послуг Параметри браузера та операційної системи користувача Постачальник Інтернет-послуг користувача Параметр вказує звідки був виконаний перехід на сайт: пошукова система (Google, Yandex), назва сайту, на якому розміщено посилання, "direct" (прямий перехід на сайт). Засіб, за допомогою якого користувач отримав посилання на сайт, наприклад organic (звичайні результати пошуку), ерс (платні результати пошуку), referral (посилання па інших веб-сайтах). Нові користувачі або такі, що вернулись. Сторінка, через яку користувачі заходили на сайт Імена хостів, що використовувались користувачами для входу на сайт, як правило, це URL досліджуваного сайту. День Джерело Розділ “Джерело трафіку” Канал Тип відвідувачів Цільова сторінка Розділ “Зміст” Ім'я хосту ФОРМУЛА КОРИСНОЇ МОДЕЛІ 5 10 Спосіб виявлення мережевого шахрайства, спрямованого проти рекламної Інтернет-кампанії, який відрізняється тим, що вибирають часові періоди дослідження Інтернет-трафіку: досліджуваний період, аналогічний за протяжністю період в попередньому році та досліджуваний період з передісторією, вибирають з сервера статистичні дані про зміни параметрів трафіку за вибрані періоди, перетворюють масив зміни параметрів трафіку у функції їх почасового розподілу, виділяють трендові складові погодинних розподілів за вибрані періоди, виділяють складові, що відповідають коливанням погодинних розподілів за вибрані періоди, виділяють шумові складові погодинних розподілів за вибрані періоди, визначають наявність аномалій змін параметрів трафіку та генерують звіт про роботу для його подальшого аналізу. 5 UA 75444 U 6 UA 75444 U 7 UA 75444 U Комп’ютерна верстка В. Мацело Державна служба інтелектуальної власності України, вул. Урицького, 45, м. Київ, МСП, 03680, Україна ДП “Український інститут промислової власності”, вул. Глазунова, 1, м. Київ – 42, 01601 8
ДивитисяДодаткова інформація
Назва патенту англійськоюMethod for the detection of network fraudulent activity against advertising internet-campaign
Автори англійськоюPavlov Dmytro Gennadiiovych
Назва патенту російськоюСпособ обнаружения сетевого мошенничества, направленного против рекламной интернет-кампании
Автори російськоюПавлов Дмитрий Геннадиевич
МПК / Мітки
МПК: G06F 17/00
Мітки: мережевого, шахрайства, рекламної, спрямованого, спосіб, інтернет-кампанії, виявлення
Код посилання
<a href="https://ua.patents.su/10-75444-sposib-viyavlennya-merezhevogo-shakhrajjstva-spryamovanogo-proti-reklamno-internet-kampani.html" target="_blank" rel="follow" title="База патентів України">Спосіб виявлення мережевого шахрайства, спрямованого проти рекламної інтернет-кампанії</a>
Попередній патент: Суміш для виготовлення термоакумулюючих виробів
Наступний патент: Спосіб надання інформації у громадському транспорті за допомогою медіа-комплексу “маршрутне телебачення”
Випадковий патент: Спосіб активізації синтезу резвератролу в листках винограду (vitis vinifera l.) в культурі in vitro