Vertex AI для лінкбілдингу
Класифікація донорів з Image Classification Model
Єгор Гончаров
● В SEO з 2016. Досвід в агентствах і
продуктах;
● Більшу частина кар'єри займаюсь
продуктами з мільйонами сторінок;
● Працював з ринками US, UK, GE, AR,
ES, України та інші;
● Мені імпонує Big Data SEO,
пропагую data-driven рішення;
● Автоматизація - one love. Розробляю
інструменти для масштабних задач.
Li TG
Про шо презентація?
1. Поговоримо про аналіз донорів у великих
маштабах, коли їх кількість уходить за 1к.
2. Як можна прискорити оцінку без AI,
тільки базовими інструментами.
3. Познайомимось з Vertex AI. З його
особливостями і відмінностями з Open AI.
4. Ідеї і детальна інструкція як зафайнтюнити
нашу модель на Vertex AI
Проблема купи доменів
1. Як оцінити тищі доменів?
2. Як зрозуміти, що за типи
сайту?
Оцінка якості сайтів в Google Sheets
Знаходимо логарифм натуральний кожної
пузомірки і по їх сумі можемо порахувати
загальний коефіцієнт якості домену.
TG пост
Оцінка пузомірок
Тематика ≠ Тип
Для визначення
тематики:
1. Majestic
2. Similarweb
3. url-classification.io
Для визначення типу:
1. Не знаю жодного
:_(
Оцінка типу сайту
Як ми частіше всього перевіряємо шо за тип
сайту перед нами?
Відкриваємо його і дивимось очима.
Ось би був інструмент який глядів би на домен
замість нас і робив це швидше…
TG пост
Оцінка сайтів за участі AI
Будемо вчити AI робити нашу роботу, а самі
давать хропака. Це і називається файн-тюнінг.
Fine-tuning – це донавчання AI моделей під
конкретні специфічні задачі, щоб агент виконував
їх максимально правильно.
Ми використовуємо навчання з учителем – даємо
приклад правильно зробленої задачі, щоб модель
вчилась на ній.
Vertex AI
Vertex AI — це хмарна платформа
від Google Cloud для створення,
навчання та розгортання моделей
машинного навчання.
Vertex AI це як Open AI , набір
моделей на всі випадки життя.
Vertex AI
Які ж Auto ML моделі представлені?
1. Для обробки тексту (класифікація, сутності, емоційність);
2. Відео (класифікація, пошук об’єктів);
3. Таблиці (класифікація, прогнози);
4. Зображення (класифікація, об’єкти, сегментація).
Vertex AI vs Open AI
Vertex AI Open AI
Файн-тюнінг є з 2019 року. Файн-тюнінг розгорнутий у 2023.
Файн-тюнінг Auto ML для
зображеннь та таблиць.
Немає файн-тюнінгу для Vision
моделей (на 11.2024).
Не потребує промтів, моделі вже
підібрані під конкретні задачі.
Без промт-інженірінгу не обійтись.
На великих об’ємах даних
дешевша, але є додаткові трати.
Стабільна ціна, яка залежить
тільки від об’єму роботи.
Важкий вхід для новачків. Також важко, але не настільки.
Для чого МИ будемо використовувати Vertex AI?
1. Навчимо модель класифікувати наші
домени за якістю на основі
пузомірок за допомогою AutoML
Tables
2. Навчимо модель розрізняти типи
сайту за допомогою Image
Classification Model
Короткий гайд по AutoML Tables
1. Зареєструватись в Google Cloud і додати до
проекту Vertex AI.
2. Підготувати файл (csv) для навчання.
3. Створити датасет для Regression or
classification моделі.
4. Коли Vertex AI проаналізує наш навчальний
файл запускаємо fine-tuning.
5. Після успішного навчання деплоїмо модель
(тобто вмикаємо).
6. Тепер можемо використовувати, як ручками
так і по API заливати csv файли.
Покроковий гайд
Навчальний файл для AutoML Tables
Таблиця зі всіма пузомірками і стовбцем визначенням сайту.
Файл має бути заснований на вашому досвіді, як ви оцінюєте домени.
Для чого МИ будемо використовувати Vertex AI?
1. Навчимо модель класифікувати наші
домени за якістю на основі
пузомірок за допомогою AutoML
Tables
2. Навчимо модель розрізняти типи
сайту за допомогою Image
Classification Model
Нарешті ми добрались до
Fine-tuning
Fine-tuning. Покроково:
0. Навчальні матеріали ● Python скрипт, що скріншотить головні сторінки.
1. Створити датасет IMG ● Заливаємо пачками зображення
2. Промаркувати зображення ● До кожної пачки сайтів додаємо лейбл, що це за тип.
3. Fine-tuning ● Відправляємо модель навчатись на 8+ годин.
4. Задеплоїти модель ● Це тіпа увімкнути модель, щоб вона була доступна для роботи.
5. Використання моделі ● Можна ручками, можна через API. Лінк на офіційний GitHub.
6. Ціни ● $ 27 – навчання, $ 1.38/год деплой моделі + $ 2.22/год роботи
0. Навчальні матеріали
1. Потрібно визначити всі типи сайтів для
класифікації. Або зфокусуватись на
окремій ніші.
2. Створити теку зі десктоп
скрінами доменів по типу,
від 50 штук для кожного типу.
2.1. Python скрипт буде на каналі.
Реєструємось в Google Cloud
1. Реєструємось з гугл акку тут.
2. Створюємо проект + підвязуємо
карту.
3. Знаходимо Vertex AI . Жмемо Enable
all available API
1. Створити датасет
1. Переходимо в датасети і створюємо
його для Single-label classification
2. Особлива увага до Регіону!
Найближчі сервери до нас в европі це
- europe-west4 (Netherlands).
1. Створити датасет. Заливка зображень.
1. Переходимо в датасети і створюємо
його для Single-label classification
2. Уважно до вимог:
● 10 images per label
● Image format: JPEG, PNG, GIF, BMP, TIF, WebP, or
ICO
● Max image size: 1.5 MB
2. Промаркувати зображення
1. Переходимо до наступного кроку у
вкладці Browse
2. Додаємо лейбли, тобто мітки, якими
будемо маркувати IMG.
3. Вибираємо потрібні зображення і
маркуємо їх леблами.
3. Fine-tuning
1. Жмаємо Train new model
2. Потрапляємо на першу сторінку
опцій.
Метод: AutoML
Розташування моделі: Cloud
3. Fine-tuning
На другому кроці просто називаємо модель і додаємо короткий опис
3. Fine-tuning
На кроці №3 вибираємо Higher accuracy (new), щоб модель орієнтувалась
на більш точне прогнозування.
На цьому ж кроці ми можемо дофан-тюнити вже існуючу модель з опцією
Incremental training
3. Fine-tuning
В останньому кроці ставимо бюджет 8 годин. І через +/- цей час будемо мати
натреновану модель.
4. Задеплоїти модель
1. На сторінці з моделями знаходимо
нашу модель.
2. Вибираємо її і переходимо у
вкладку Deploy & test .
3. Жмаємо Deploy to endpoint .
4. Називаємо її і виставляємо compute
nodes (1 або 2).
5. Використання моделі
1. Deploy & test
2. Batch predict
3. API
5. Використання моделі
Через API вы будете отримувати JSON відповіді з назвою зображення і його предіктами, який це тип сайту.
У Google Cloud є офіційний гітхаб з прикладами інструментів як працювати з їх API.
Лінк на офіційний GitHub
6. Ціни
Тренування: 3.465*8 = $27.72 за 8 годин
Година розгорнутої моделі: $ 1.375 за 1 годину
Аналіз пачкою: $2.22 за 1 годину (за одну годину модель може обробити до 1000 зображень)
Алгоритм
1. Збираєте домени, парсите їх пузомірки жабою або чекером.
2. Фільтруєте список доменів Vertex AI Tabular Classification або
формулами в за допомогою коефіцієнтів в Google Sheets.
3. Всі хороші по показникам домени “скріните” Python скриптом.
4. Відправляєте скріни до Image Classification Model і отримуєте по
кожному домену його якість і його тип.
Висновки
1. Точно не потрібно всім. Це рішення для команд, що системно парсять домени
для аутрічу у великих кількостях.
2. Для звичайного користувача достатньо буде зрозуміти як рахувати коефіцієнти
пузомірок і так оцінювати сайти.
3. Досить важкий вхід до Vertex AI.
4. Треба зібрати багато прикладів доменів
для навчання.
5. Не ідеальне рішення, помилки будуть.
6. Щоб економити варто деплоїти модель
тільки коли вона потрібна.
Дякую за увагу!
Li TG

Vertex AI для лінкбілдингу: класифікація донорів з Image Classification Mode | Єгор Гончаров

  • 1.
    Vertex AI длялінкбілдингу Класифікація донорів з Image Classification Model
  • 2.
    Єгор Гончаров ● ВSEO з 2016. Досвід в агентствах і продуктах; ● Більшу частина кар'єри займаюсь продуктами з мільйонами сторінок; ● Працював з ринками US, UK, GE, AR, ES, України та інші; ● Мені імпонує Big Data SEO, пропагую data-driven рішення; ● Автоматизація - one love. Розробляю інструменти для масштабних задач. Li TG
  • 3.
    Про шо презентація? 1.Поговоримо про аналіз донорів у великих маштабах, коли їх кількість уходить за 1к. 2. Як можна прискорити оцінку без AI, тільки базовими інструментами. 3. Познайомимось з Vertex AI. З його особливостями і відмінностями з Open AI. 4. Ідеї і детальна інструкція як зафайнтюнити нашу модель на Vertex AI
  • 4.
    Проблема купи доменів 1.Як оцінити тищі доменів? 2. Як зрозуміти, що за типи сайту?
  • 5.
    Оцінка якості сайтівв Google Sheets Знаходимо логарифм натуральний кожної пузомірки і по їх сумі можемо порахувати загальний коефіцієнт якості домену. TG пост Оцінка пузомірок
  • 6.
    Тематика ≠ Тип Длявизначення тематики: 1. Majestic 2. Similarweb 3. url-classification.io Для визначення типу: 1. Не знаю жодного :_(
  • 7.
    Оцінка типу сайту Якми частіше всього перевіряємо шо за тип сайту перед нами? Відкриваємо його і дивимось очима. Ось би був інструмент який глядів би на домен замість нас і робив це швидше… TG пост
  • 8.
    Оцінка сайтів заучасті AI Будемо вчити AI робити нашу роботу, а самі давать хропака. Це і називається файн-тюнінг. Fine-tuning – це донавчання AI моделей під конкретні специфічні задачі, щоб агент виконував їх максимально правильно. Ми використовуємо навчання з учителем – даємо приклад правильно зробленої задачі, щоб модель вчилась на ній.
  • 9.
    Vertex AI Vertex AI— це хмарна платформа від Google Cloud для створення, навчання та розгортання моделей машинного навчання. Vertex AI це як Open AI , набір моделей на всі випадки життя.
  • 10.
    Vertex AI Які жAuto ML моделі представлені? 1. Для обробки тексту (класифікація, сутності, емоційність); 2. Відео (класифікація, пошук об’єктів); 3. Таблиці (класифікація, прогнози); 4. Зображення (класифікація, об’єкти, сегментація).
  • 11.
    Vertex AI vsOpen AI Vertex AI Open AI Файн-тюнінг є з 2019 року. Файн-тюнінг розгорнутий у 2023. Файн-тюнінг Auto ML для зображеннь та таблиць. Немає файн-тюнінгу для Vision моделей (на 11.2024). Не потребує промтів, моделі вже підібрані під конкретні задачі. Без промт-інженірінгу не обійтись. На великих об’ємах даних дешевша, але є додаткові трати. Стабільна ціна, яка залежить тільки від об’єму роботи. Важкий вхід для новачків. Також важко, але не настільки.
  • 12.
    Для чого МИбудемо використовувати Vertex AI? 1. Навчимо модель класифікувати наші домени за якістю на основі пузомірок за допомогою AutoML Tables 2. Навчимо модель розрізняти типи сайту за допомогою Image Classification Model
  • 13.
    Короткий гайд поAutoML Tables 1. Зареєструватись в Google Cloud і додати до проекту Vertex AI. 2. Підготувати файл (csv) для навчання. 3. Створити датасет для Regression or classification моделі. 4. Коли Vertex AI проаналізує наш навчальний файл запускаємо fine-tuning. 5. Після успішного навчання деплоїмо модель (тобто вмикаємо). 6. Тепер можемо використовувати, як ручками так і по API заливати csv файли. Покроковий гайд
  • 14.
    Навчальний файл дляAutoML Tables Таблиця зі всіма пузомірками і стовбцем визначенням сайту. Файл має бути заснований на вашому досвіді, як ви оцінюєте домени.
  • 15.
    Для чого МИбудемо використовувати Vertex AI? 1. Навчимо модель класифікувати наші домени за якістю на основі пузомірок за допомогою AutoML Tables 2. Навчимо модель розрізняти типи сайту за допомогою Image Classification Model
  • 16.
  • 17.
    Fine-tuning. Покроково: 0. Навчальніматеріали ● Python скрипт, що скріншотить головні сторінки. 1. Створити датасет IMG ● Заливаємо пачками зображення 2. Промаркувати зображення ● До кожної пачки сайтів додаємо лейбл, що це за тип. 3. Fine-tuning ● Відправляємо модель навчатись на 8+ годин. 4. Задеплоїти модель ● Це тіпа увімкнути модель, щоб вона була доступна для роботи. 5. Використання моделі ● Можна ручками, можна через API. Лінк на офіційний GitHub. 6. Ціни ● $ 27 – навчання, $ 1.38/год деплой моделі + $ 2.22/год роботи
  • 18.
    0. Навчальні матеріали 1.Потрібно визначити всі типи сайтів для класифікації. Або зфокусуватись на окремій ніші. 2. Створити теку зі десктоп скрінами доменів по типу, від 50 штук для кожного типу. 2.1. Python скрипт буде на каналі.
  • 19.
    Реєструємось в GoogleCloud 1. Реєструємось з гугл акку тут. 2. Створюємо проект + підвязуємо карту. 3. Знаходимо Vertex AI . Жмемо Enable all available API
  • 20.
    1. Створити датасет 1.Переходимо в датасети і створюємо його для Single-label classification 2. Особлива увага до Регіону! Найближчі сервери до нас в европі це - europe-west4 (Netherlands).
  • 21.
    1. Створити датасет.Заливка зображень. 1. Переходимо в датасети і створюємо його для Single-label classification 2. Уважно до вимог: ● 10 images per label ● Image format: JPEG, PNG, GIF, BMP, TIF, WebP, or ICO ● Max image size: 1.5 MB
  • 22.
    2. Промаркувати зображення 1.Переходимо до наступного кроку у вкладці Browse 2. Додаємо лейбли, тобто мітки, якими будемо маркувати IMG. 3. Вибираємо потрібні зображення і маркуємо їх леблами.
  • 23.
    3. Fine-tuning 1. ЖмаємоTrain new model 2. Потрапляємо на першу сторінку опцій. Метод: AutoML Розташування моделі: Cloud
  • 24.
    3. Fine-tuning На другомукроці просто називаємо модель і додаємо короткий опис
  • 25.
    3. Fine-tuning На кроці№3 вибираємо Higher accuracy (new), щоб модель орієнтувалась на більш точне прогнозування. На цьому ж кроці ми можемо дофан-тюнити вже існуючу модель з опцією Incremental training
  • 26.
    3. Fine-tuning В останньомукроці ставимо бюджет 8 годин. І через +/- цей час будемо мати натреновану модель.
  • 27.
    4. Задеплоїти модель 1.На сторінці з моделями знаходимо нашу модель. 2. Вибираємо її і переходимо у вкладку Deploy & test . 3. Жмаємо Deploy to endpoint . 4. Називаємо її і виставляємо compute nodes (1 або 2).
  • 28.
    5. Використання моделі 1.Deploy & test 2. Batch predict 3. API
  • 29.
    5. Використання моделі ЧерезAPI вы будете отримувати JSON відповіді з назвою зображення і його предіктами, який це тип сайту. У Google Cloud є офіційний гітхаб з прикладами інструментів як працювати з їх API. Лінк на офіційний GitHub
  • 30.
    6. Ціни Тренування: 3.465*8= $27.72 за 8 годин Година розгорнутої моделі: $ 1.375 за 1 годину Аналіз пачкою: $2.22 за 1 годину (за одну годину модель може обробити до 1000 зображень)
  • 31.
    Алгоритм 1. Збираєте домени,парсите їх пузомірки жабою або чекером. 2. Фільтруєте список доменів Vertex AI Tabular Classification або формулами в за допомогою коефіцієнтів в Google Sheets. 3. Всі хороші по показникам домени “скріните” Python скриптом. 4. Відправляєте скріни до Image Classification Model і отримуєте по кожному домену його якість і його тип.
  • 32.
    Висновки 1. Точно непотрібно всім. Це рішення для команд, що системно парсять домени для аутрічу у великих кількостях. 2. Для звичайного користувача достатньо буде зрозуміти як рахувати коефіцієнти пузомірок і так оцінювати сайти. 3. Досить важкий вхід до Vertex AI. 4. Треба зібрати багато прикладів доменів для навчання. 5. Не ідеальне рішення, помилки будуть. 6. Щоб економити варто деплоїти модель тільки коли вона потрібна.
  • 33.