Парсинг сайтов средствами 1С #644826


#0 by mzelensky
Доброго всем! Есть сайт. На определенной страничке выводится таблица с информацией. Информация тянется из базы средствами ПХП. Вот ссылки: и так далее. Я хочу открыть первую страницу, нажать волшебную кнопку и система должна обойти все эти странички. Как реализовать такой обход?!
#1 by mzelensky
ye fgye
#2 by бомболюк
открыть для себя HTML DOM Document
#3 by mzelensky
что за зверь?!
#4 by Asmody
а если там разметка не валидная?
#5 by Asmody
СП продать?
#6 by mzelensky
продавай! Ток по новогодним скидкам.
#7 by бомболюк
а это как так? типа в браузере отобразится, а дом-документом не проглотится?
#8 by mzelensky
->
#9 by mzelensky
примерчик можно?!
#10 by бомболюк
это он и есть: Использование: Только чтение. Описание: Тип: COMОбъект. Предоставляет доступ к HTML документу. Недоступно на сервере 1С:Предприятие. Не используется в модуле внешнего соединения.
#11 by kabanoff
Вот так с помощью HTML DOM можно парсить, например, сайт nix.ru:
#12 by бомболюк
+ а тебе нада Для к = 0 по Элемент.Документ.links.length - 1 цикл
#13 by mzelensky
Так мне не просто пропарсить нужно! Пропарсить не проблема. Я найду в тексте ссылку вот эту: а как мне ее выаолнить?! Т.е. я беру начальную страницу. Нажимаю кнопочку. 1С-ка парсит страницу, берет нужную инфу с нее. Затем находит ссылку на следующуб страницу (что выше) и переходит по ней. И далее алгоритм повторяется до конца (по всем страница или по ограниченному количеству).
#14 by бомболюк
ну получил интерфейс IHTMLElement, относящийся к ссылке, выдрал оттуда атрибут href - и пошел по нему, и так далее.
#15 by бомболюк
+ применительно к 1С это вот так будет выглядеть АтрибутHREF = HTMLСсылка.getattribute("href", 0);
#16 by kabanoff
Про рекурсию расказать?
#17 by mzelensky
да я знаю про рекурсию! Ты видишь ссылку, что я показал в примере? <a href="#" pageNum="2" class="pag_n" style="TEXT-DECORATION: none;">2</a> т.е href="#"  - как мне по ней идти??
#18 by бомболюк
у блин а я то думал это ты просто сайт решил не показывать. Ну я тогда не знаю, там наверна какие нить обработчики навешиваются с помощью Джавы, а ваще хз, не сталкивался.
#19 by mzelensky
в том и дело! ТАм как-то вот этот параметр должен обрабатываться "pageNum="2""
#20 by kabanoff
Посмотри в коде страницы ява-скрипт по классу pag_n. Скорее всего там какой-то обработчик вызывается.
#21 by mzelensky
уже смотрел. Явно такого нет. Но там два файла явовских (модуля) подключаются.
#22 by бомболюк
раскроешь домен дело пойдет быстрее
#23 by Igor 2007
Когда обмен делал с Лотусом. Парсингом занимался *.xml файлов. Объект "План обмена" даже создал. Вроде там есть код:
#24 by mzelensky
не могу - там доступ платный. А доступ к инфе, разумеется, возможен только после аутентификации и оплате.
#25 by бомболюк
тогда файлы эти ищи на сервере, а потом их гляди
#26 by Адинэснег
Синтаксис: Получить(<Источник>, <ИмяВыходногоФайла>, <Заголовки>) Параметры: Тип: Строка. Адрес ресурса на сервере. Тип: Строка. Имя файла, в который помещаются данные полученного ресурса. Тип: Строка. Указываются заголовки, добавляемые к запросу на сервер. Текстовые пары вида <Заголовок>:<Значение>, разделяемые комбинацией ВК + ПС. Описание: Получает ресурс из указанного адреса. Доступность: Тонкий клиент, сервер, толстый клиент, внешнее соединение.
#27 by mzelensky
не совсем понял, а причем тут парсинг xml файлов??? У меня в другом затык. Читай
#28 by Адинэснег
href="#" это она сама на себя ссылается
#29 by mzelensky
эт понятно. Там ключевой момент  pageNum="2" class="pag_n"
#30 by mzelensky
подскажи, как передать эти параметры?!
#31 by Адинэснег
сайт то засвети уже) а мы посмотрим)
#32 by Анатолий Никитин
сморти как сам сайт ссылку формирует, и формируй такую же свою программой, потом переходи по ссылке и заново выполняй свой алгоритм.
#33 by бомболюк
может попробовать FireBug поглядеть, закладка Net? Только в качестве предположения.
#34 by mzelensky
да ты не зайдешь на него. Там платное все. Ты до этой инфу (страницы) не доберешься.
#35 by mzelensky
Тут другая идея родилась. Взять прогу, которая запоминает действия пользователя и повторяет их потом. Типа эмулытора. Задать ей действия сохранять странички как внешний файл, а потом переходить на следующую страницу. и так далее... А уже потом имеющиеся файлики пропарсить.
#36 by Адинэснег
Чарли
#37 by Адинэснег
charles
#38 by Адинэснег
все респонсы в чалри можно экспортировать в файлы
#39 by mzelensky
а теперь по русски и более подробно плиз
#40 by Elisy
Похоже на фреймворк типа JQuery. При загрузке страницы срабатывает скрипт, который ставит обработчик событий на click каждого элемента.  Но не понятно какое действие - потому что возможен не переход на другую страницу, а обновление части текущей страницы.
Тэги: 1С 8
Ответить:
Комментарии доступны только авторизированным пользователям

В этой группе 1С