П.ВИН
Tool

Parser HubTool из портфолио Паши Вина

Платформа для парсинга данных из конференций, соцсетей и реестров компаний. AI извлекает структуру из произвольного HTML и складывает всё в единую базу с веб-UI и CLI.

01. КатегорияTool
02. РольFull-stack, Product
03. Датамар 2026

Что это?

Платформа для парсинга данных из конференций, соцсетей и реестров компаний. AI извлекает структуру из произвольного HTML и складывает всё в единую базу с веб-UI и CLI.

Какую задачу решает?

Дни ручного сбора по десяткам разрозненных сайтов → один автоматический pipeline на FastAPI

Как реализовано?

Реализовано на стеке: FastAPI, Python, Playwright, PostgreSQL. FastAPI-приложение с тремя модулями (events, outreach, companies), Playwright для JS-страниц и LLM для извлечения структуры из любого HTML.

FastAPIPythonPlaywrightPostgreSQLRedisSQLAlchemyFastAPIPythonPlaywrightPostgreSQLRedisSQLAlchemyFastAPIPythonPlaywrightPostgreSQLRedisSQLAlchemyFastAPIPythonPlaywrightPostgreSQLRedisSQLAlchemy
Сбор данных о спикерах, компаниях и контактах из десятков сайтов — рутина, которая съедает дни на каждый новый источник. Цель — собрать всё в единый hub: AI извлекает структуру из любого HTML, а Playwright справляется с JS-рендерингом без кастомных скриптов под каждый сайт.
Parser Hub
Parser Hub — Сбор данных о спикерах, компаниях и контактах из десятков сайтов — рутина, которая съедает дни на каждый новый источник.

Вызов

Разрозненные источники

Данные о спикерах, компаниях и контактах живут на десятках сайтов с разной структурой, JS-рендерингом и форматами.

  • Конференц-сайты грузятся через JS — обычные HTTP-парсеры видят пустой DOM
  • TenChat, реестры компаний и события требуют разной логики обхода
  • Сведение всего в одну базу руками занимает дни на каждый новый источник

Решение

Единый hub

FastAPI-приложение с тремя модулями (events, outreach, companies), Playwright для JS-страниц и LLM для извлечения структуры из любого HTML.

  • + Playwright Chromium рендерит JS-тяжёлые страницы конференций до парсинга
  • + AI-extraction вытаскивает спикеров, компании и контакты из произвольной разметки
  • + Click CLI и веб-UI работают на одной кодовой базе — запуск из cron или вручную

Архитектура & Стек

Mindmap

[ Mindmap Процессов / v2.0 ]
NODE.01

Веб-слой

Точка входа
FastAPI · Jinja2 · Click CLI

NODE.02

Парсинг

Извлечение HTML
Playwright · BeautifulSoup · httpx

NODE.03

AI-экстракция

Структурирование данных
LLM · промпт-шаблоны

NODE.04

Хранилище

База и кэш
PostgreSQL · Redis · SQLAlchemy

COREEngine

Смоделировано 100 предпринимателями

Бизнес Импакт

10x

быстрее ручного сбора

0

ручной обработки HTML

24/7

автономный парсинг

Следующий кейс

Content Farm