@sitnik_ru парсить HTML и трансформировать в свой шаблон. Телеграм делает это идеально, потому что пользуется аутсорсингом для написания селекторов для всех крупных сайтов, если у проекта уровень попроще, можно обойтись алгоритмами выявления контента.
@vitonsky что-то я не понимаю. Вот есть пост ЖЖ — там идут картинки, выделение жирным, ссылки, видео, списки, абзацы, MathML-формулы (как пример максимальной сложности).
Речь не про OG-карточку с текстом без форматирования, а про текст со сложным форматированием.
Как ты видишь «трансформировать в свой шаблон», чтобы логика отличалась от «очистить от опасных тегов и аттрибутов»?