PDF -> TXT (или Excel) средствами 1С #549227


#0 by Smile
Всем привет!! Подскажите пожалуйста, как можно прочитать данные из PDF файла или сначала преобразовать в txt, а потом уже прочитать? может есть ссылка, где почитать об том? помогите, очень срочно надо (
#1 by Гефест
PDF из сканера небось?
#2 by Smile
не нормальный, дело в том, что поставщик присылает счета в пдф формате, и бухгалтерии приходится руками вытаскивать из каждого письма (а их 50 штук) этот пдфник и отсылать его адресату и все ессесно руками, вот хотелось бы автоматизировать такой процесс. я хотела сделать как - вытащить из файла номер лицевого счета (эта информация всегда в одной и той же строчке), сравнить с неким соответствием (например из регистра сведений), а потом отослать по почте адресату.
#3 by Гефест
Не в ту сторону копаешь. Начинать надо с поставщика, чтобы присылал нормальные документы и не выйоживался
#4 by Aprobator
так что требуется то? Переслать письмо? 1С - тут при чем? В почтовике правила не настроить?
#5 by Armando
Свойства: Методы: Записать (Write) Конструкторы: По имени файла Описание: Предназначен для извлечения текста из файлов произвольного формата. Используется только для операционных систем MS Windows NT 4.0, 2000, XP. Доступность: Тонкий клиент, сервер, толстый клиент, внешнее соединение.
#6 by Aprobator
для пересылки то какая разница в каком формате?
#7 by Aprobator
из ПДФ???
#8 by Smile
надо вытащить данные из пдф файла программно средствами 1С 8
#9 by Smile
+ ессесно не меняя его при этом
#10 by Armando
думаю да. не проверял. из ворда точно вытаскивает.
#11 by palpetrovich
думаю - напрасно так думаешь :)
#12 by Armando
яндекс же индексирует некоторые пдфки. здесь скорее всего такой же принцип.
#13 by Armando
ты проверял?
#14 by aleks-id
...и вот они встретились...
#15 by Aprobator
зачем вытаскивать, чтобы потом тоже самое пересылать? Исходный текст письма не нужен что ли?
#16 by Armando
Извлекает текст из файла. Тип файла определяется по расширению файла (т.е. текст из файла с расширением .tmp извлечен не будет). Для извлечения текста из файлов используется интерфейс IFilter. Он является расширяемым. Можно установить дополнительные модули, чтобы появилась возможность извлекать текст из еще одного типа файлов. По умолчанию текст извлекается из файлов следующих типов (имеющих расширение): ASCX, ASP, ASPX, CSS, HHC, HTA, HTM, HTML, HHT, HTW, HTX, ODC, STM, DOC, DOT, POT, PPS, PPT, XLB, XLC, XLS, XLT, TXT, EML. Подразумевается, что файлы с расширением TXT - это текстовые файлы в кодировке ANSI или UNICODE (UTF-16).
#17 by Armando
У меня из пдфа только что извлекся текст
#18 by Lama12
Если текстовый слой есть то подойдет. Если не подойдет, то печать pdf  в текст с помощью универсального принтере (не помню как называется есть во всех поставках винды драйвер, что-то типа генерик текст онли), затем анализировать текстовый файл. Если принтер ничего не печатает, то текстового слоя в pdf нет.
#19 by Evgenchik
а в фирме поставщика небось программисты 1С до этого думали как сконвертить в пдф и отправить по почте...
#20 by Armando
Сейчас попробовал левую пдфку расковырять - не вышло. После установки Adobe PDF IFilter v6.0 ( ) текст извлекся, но в другой кодировке.
#21 by Rabbit
как пить дать))
#22 by Smile
ура получилось!!!!!!! всем огромное спасибо, особенно    Armando :) сделала, как Вы сказали: конечно получился сплошной текст как бы одной строкой, но это не важно, мне оттуда просто нужно вытащить одну цифру, а потом переслать этот файл адресату. насчет отправки поставщиков из 1С в пдф - да, согласна, наверняка они так и сделали, по крайней мере видно что документ не сканированный, но из 1С - ПДФ я знаю как сделать, а вот наоборот была проблема :)
#23 by palpetrovich
у меня не получается извлечь, pdf-ы - они разные...
Тэги:
Ответить:
Комментарии доступны только авторизированным пользователям

В этой группе 1С