Программно вытащить таблицу из PDF #465684


#0 by 312Kbps
Уважаемые профессионалы ! Подскажите как это сделать и вообще возможно ли это !? програмно вытащить таблицу из PDF файла . Заранее благодарен !
#1 by luckyluke
PDF - это же картинка... думаю можно попробовать реализовать механизм распознавания графики или может воспользоваться каким-нибудь другим модулем для распознавания. Вообще, мне кажется, плохая это идея, хотя по всей вероятности реализуемая, но стоит ли оно того. Может лучше по другому поставить задачу?
#2 by sergeante
ыыы) вечно конторы не могут договориться между собой о формате присылаемых отчотов.
#3 by Mashinist
PDF не всегда картинка. Там и текст может быть.
#4 by luckyluke
"Формат PDF позволяет внедрять необходимые шрифты (построчный текст), векторные и растровые изображения, формы и мультимедиа-вставки. Поддерживает RGB, CMYK, Grayscale, Lab, Duotone, Bitmap, несколько типов сжатия растровой информации. Имеет собственные технические форматы для полиграфии: PDF/X-1, PDF/X-3. Включает механизм электронных подписей для защиты и проверки подлинности документов. В этом формате распространяется большое количество сопутствующей документации." Ну тогда надо уже читать документацию и смотреть в каком виде приходит этот файл. Так что можно в любом случае, вопрос только во времени реализации.
#5 by 312Kbps
в том то и дело нужно именно из PDF (которые автоматом приходят ввиде отчетности) доставить таблицы и работать с ними, хоть примерчик какой нить найти !? ) есть ещё вариант, pdf конвертить excel, но мне кажется это ещё замороченей может быть
#6 by Fragster
ищи на хабре цикл статей «текст любой ценой»
#7 by Fragster
проблема в том, что в pdf таблица - это набор надписей по координатам + нарисованная линиями рамка
#8 by shuhard
если есть xls, то о чём разговор - ADODB и в дамки
#9 by shuhard
+ кстати FineReader pdf давно "знает"
Тэги:
Ответить:
Комментарии доступны только авторизированным пользователям

В этой группе 1С