Как извлечь данные из pdf? #358903


#0 by trdm
собственно сабж. есть какая-нить технология?
#1 by trdm
Тут чел говорит, что знает, но никак не колется :(
#2 by ДенисЧ
FineReader или Acrobat (если пдф текстовый, а не набор картинок)
#3 by Ужас бухгалтера
Ну есть же полное описание формата PDF от Adobe. Наверняка, его достаточно, чтобы вытащить как минимум текст.
#4 by Скользящий
фоксит ридер извлекает, но архи фигово. Я ставил его чтобы тесты копировать из пдф в ворд, короче, отказался от этой мысли. Текст получается абсолютно нечитабельный.
#5 by asp
А какие проблемы, если можно из акробата в ворд скопипастить?
#6 by IceSer1
abby scan to office спецом для этого
#7 by trdm
Да я тоже как-то пытался распотрошить книгу по апачу. фигушки.. Я имел ввиду использование какой-нить технологии, которую можно заюзать например из обработки. Если необходимо писать какие-нить дополнительные библиотеки, это вообще будет карамба. Есть мнение что pdf не дружественный к такой обработке формат.
#8 by ДенисЧ
Правильное мнение, ибо назначение его в первую очередь - для представления документа в виде, подобном печатному. Это уже потом в него стали пихать всё, что угодно, вплоть до резюме на работу...
#9 by AcaGost
Он для этого и создан :-)
#10 by trdm
В смысле, что-бы создавать гемор программистам? :) Верю :)
#11 by AcaGost
Чтобы не смог взять цитаты.
#12 by Скользящий
Есть вариант тупо распечатать, отсканировать и распознать. ))
#13 by romix
FineReader умеет открывать и распознавать (если именно это нужно) через меню Файл-Открыть.
#14 by Rovan
Есть программка такая pdf2rtf я юзал
#15 by asp
Народ, зачем такой изврат, если из акробата можно в буфер копировать?
#16 by Сержант 1С
ПДФ бывает закрытым.
#17 by asp
на это кряк есть
#18 by DZENN
если тебе надо извлечь текст без форматирования, то в 8.1 есть прекрасная функция ИзвлечениеТекста - работает и с pdf. В типовой есть и примеры.
#19 by svent0vit
распознать файнридером
#20 by trdm
вообще то речь, как вы догадываетесь шла о поточном режиме работы с документами...
#21 by Злой Бобр
Acrobat разве неумеет? Не обрезок (ридер), а полный.
#22 by bahmet
Я понял как делал Яндекс засос данных из пдф. Метод известен только средь программеров высшего пилотажа. суть такова....выводится окно, где в одной части показывается пдф, а вдругой поле для набора текста...и предлагается пользователю быстро перебить :)
#23 by smaharbA
если док не защищен то пишется небольшой скриптик (для акроридера) в котором выполняется методами ридера селект и копи, а уж пасте сами делайте...
#24 by trdm
ага, а скока весит и стоит этот полный Acrobat?
#25 by trdm
+ тут посмотрите:
#26 by smaharbA
ненадо полный, ридера достаточно
#27 by trdm
угу, буду я 5 штук выкладывать из-за тупорылого формата....
Тэги:
Ответить:
Комментарии доступны только авторизированным пользователям

В этой группе 1С