v7: Распарсить PDF в TXT #566173


#0 by mishaPH
Коллеги, есть задачка. приходят к нам от 7г континента акты о приеме товара в формате pdf. нужно их распарсить и сравнить с накладными отгрузок им. В общем есть некие конверторы с текстовой строкой чтобы его в текстовый файл затащить а далее обработать. А делал ли кто подобное в 7ке. может есть какая компонента чтобы из 7ки рулить или вообще сразу прочитать пдфку. пдф текстовый не картинка.
#0 by mishaPH
Коллеги, есть задачка. приходят к нам от 7г континента акты о приеме товара в формате pdf. нужно их распарсить и сравнить с накладными отгрузок им. В общем есть некие конверторы с текстовой строкой чтобы его в текстовый файл затащить а далее обработать. А делал ли кто подобное в 7ке. может есть какая компонента чтобы из 7ки рулить или вообще сразу прочитать пдфку. пдф текстовый не картинка.
#0 by mishaPH
Коллеги, есть задачка. приходят к нам от 7г континента акты о приеме товара в формате pdf. нужно их распарсить и сравнить с накладными отгрузок им. В общем есть некие конверторы с текстовой строкой чтобы его в текстовый файл затащить а далее обработать. А делал ли кто подобное в 7ке. может есть какая компонента чтобы из 7ки рулить или вообще сразу прочитать пдфку. пдф текстовый не картинка.
#1 by andrewks
ого а в другом формате они не могут слать?
#2 by Холст
имхо бесполезняк пытаться полученный текст разбирать ПДФ трансформер (им помоему и в автоматическом режиме можно) разбирать док в эксель файл а потом разбирать эксельку
#3 by trdm
Шмахабра говорил что есть актив-ха который может пдф жевать. Тусуется где то в составе продуктов адоба, это у него спрашивать надо. ПС. за пдф в обмене данных надо топить еще при рождении.
#4 by mishaPH
да попробуй. да ладно обычный даже пдф ридер может сохранять текст в ТХТ да есть конвертеры говорю даже с командной строкой. не проблема завязаться на него. Но интересует ваш опыт.
#5 by ildary
Я делал подобное (добрый человек на мисте делился основой для чтения пдф), но было 2 нюанса - 1) данные в пдф должны быть не в виде картинки 2) хранение в пдф бывает с придурью в тот момент, когда данные не влазят на одну строку.
#6 by Господин ПЖ
чего его парсить... "save as" в xml или еще во что-то вменяемое и читать... полный акробат делать "save as" программно умеет.
#7 by trdm
Блин, легче из ворда получить данные чем с пдфа )
#8 by andrewks
нахрена полный пдф? даже бесплатный ридер может в тхт сохранить
#9 by andrewks
+ *полный акробат
#10 by aka AMIGO
я пользуюсь FineReader"ом.. правда, у меня не так много пдф-документов
#11 by mishaPH
есть такое тормозно. да им если там картинки проще. может. руками. а надо автоматом. если знаешь коммандную строку как сделать. напиши.
#12 by Господин ПЖ
не может...
#13 by andrewks
может. только что сохранил. такшта не надо
#14 by andrewks
+если что, 10-й юзаю
#15 by mishaPH
может. не проблема
#16 by mishaPH
но тут надо автоматом чтобы было. доков очень много и человек участвовать не должен в этом.
#17 by mishaPH
Вот нарыл. но может есть бесплатная фигня а может кто и библиотечку писал.
#18 by Господин ПЖ
savefile acroApp.CloseAllDocs acroApp.Exit
#19 by andrewks
ключей ком.строки на это дело, похоже, нет. а если сендкеями?
#20 by mishaPH
это как к 7ке прикрутить. простите за необразованность
#21 by andrewks
это с платным акробатом, как я вижу?
#22 by Господин ПЖ
ну банально можно оформить в виде vbs скрипта... из 7.7 через shell.run дергать его с передачей внутрь параметров... или попробовать переписать. Я не помню как 7.7 com объект получать надо для CreateObject("AcroExch.App").
#23 by andrewks
за сохранение в текст отвечает плагин saveasrtf.api
#24 by Господин ПЖ
ну я думаю общий смысл будет тот же. Объекты может быть будет иные... так в SDK и гугле все есть...
#25 by Господин ПЖ
ооо... там видать вообще все иначе...
#26 by andrewks
было бы просто замечательно, если бы бесплатный ридер поставлял ком-объекты. вопрос, так ли это? надо гуглить
#27 by andrewks
вот по ком.строке: ессесно, того, что надо, там нет
#28 by Злопчинский
в свое время была анлогичная ТС проблема. Все конверторы идут лесом. Если надо конвертнуть текст - то тут можно сказать ОК. Конвертация таблиц и таблицеподобного - практически нулевая, потом практически руками собирать из текста. . так что если пдф можно конвертнуть в иксемель, то это гуд, иксемель парсить ужо легче. другое дело что практически на каждый док или чуть изменилось что-то в доке - придется алгоритм подкручивать... (както так?)
#29 by andrewks
почитай здесь, вроде что-то светится нужное
#30 by mishaPH
таблички нафик не нужны. мне нежен текст который я отработаю далее сам. вполне устраивает как это делает пдф ридер когда сохраняешь в тхт
#31 by mishaPH
епть. все осложняется еще и тем, что X5 групп от которой приходит этот пдф, конвертер который с коммандной строкой работает за пдф не принимает. какой то слегка свой формат. Но ридер читает.
#32 by FN
давно уже решил такую проблему. только решение не со всеми файлами проходит. скинь пример файла на почту или файлообменник
#33 by Злопчинский
ну.. х5 с еди работает, вроде как там у них даже есть ответ по еди о приемке - тот самый акт...
#34 by mishaPH
кстати. пойду с манагерами пообщаюсь
#35 by mishaPH
заказы получаем
#36 by mishaPH
через ЕДИ мы с ними не работаем. работаем с каким-то порталом от них а там только заказы.
#37 by Torquader
В pdf хорошо кладутся отсканированные документы, в которых текста может и не быть - не ваш случай ?
#38 by mishaPH
нет. это чисто текстовый пдф. прекрасно текст сохраняется даже адоб ридером
#39 by FN
Функция pdf_ПрочитатьСимвол(Знач Значение="0") Экспорт Функция pdf_ПолучитьСмещение(знач стр) ... и тд
#40 by FN
+ пробуй сам, а я убежал
#41 by mishaPH
мерси
#42 by andrewks
мне кажется, тебе стоит заменить конвертер на более вменяемый
#43 by bw
Портал прекращает у х5 свою работу,идет запуск работы через операторов ЕДЕ.
#44 by Сияющий Асинхраль
Вот неплохая штука и бесплатная
#45 by Сияющий Асинхраль
+ Заодно и в консоли работает, чтобы программно можно было файлы входящие и выходящие задавать...
#46 by Mikeware
И причемм датой полного перехода с портала на EDI объявлена эпическая 11.11.11 Начали с заказов, сейчас ввели подтверждение заказов и подтверждение приемки.
#47 by FN
получилось?
#48 by mishaPH
Я в курсе. но у них ттарифы пипец. там за каждый док охрененных денег требуют. итак только за накладные 50 штук в месяц. попробую. не завтра буду заниматься. да я в курсе. Но на то есть руководство, дадут задачу сделаю. Пока задача освободить человека от проверок соответствия отгруженного с принятым.
#49 by mishaPH
мерси. посмотрю все
#50 by ice777
эти сволочи просто поставили <хеззнаеткакой>pdf принтером и гонят туда печать, вместо того, чтоб мозгом подумать. не уважаю.)
#51 by DJ Anthon
ABBYY  ;))))))))
#52 by mishaPH
есть и даже куплен. но нет коммандной строки. и тормозной скатина.
#53 by Smallrat
Делал на УФ: Если пригодится - я могу залить куда-нить zip с утилитками, который в  макете обработки.
#54 by Smallrat
Хотя кому-нить наверное да пригодится - так что вот архив:
#55 by Smallrat
тьфу ты блин - щас только прочитал что 7.7, ну да вообщем сам механизм конвертации тот же .
#56 by smaharbA
ридер может работать с джабаскриптом и сам тебе распарсить
#57 by mishaPH
адоб который стандартный? а как сделать чтобы он захватил подсунутый файл и сохранил его в тексте. из него знаю можно.
#58 by smaharbA
который ридер
#59 by andrewks
"утилитка" в , это проект Xpdf. и нахрена столько кода, непонятно. там всё в три строки можно сделать - вызов экзешника с параметрами
#60 by andrewks
я так понял, это в браузере. или нет?
#61 by Smallrat
нуууу... там треть кода это диалог открытия пдф треть - распаковка утилиты из макета и треть затрах с передачей между клиентом и сервером файлов и еще кусочек чтобы сделать так чтобы черных окошек не было и обработка не началась до того как файл сконвертится.
#62 by smaharbA
нет, в самом ридере, подсовывается обычный джабаскриптовый файлик куда надо и ридер сам открывает парсит и сохраняет
#63 by smaharbA
вариант джихостскрипта еще не предлагали ?
#64 by andrewks
плагином подсунуть, что-ли? распиши по буквам, а то мы непонятливые :)
#65 by andrewks
насколько я понял после прочтения доков от адобе, метод SaveAs доступен только из API для плагинов. ни сообщениями, ни в активиксе он недоступен
#66 by smaharbA
нет в папку загляни %appdata%adobeacrobatX.XJavaScript
#67 by mishaPH
там 2 скрипта мелких.
#68 by mishaPH
да. пример в студию. Считай1 что мы тупые юзеры.
#69 by mishaPH
апнем что-ли. сегодня попробую кучу конвертеров. если есть решение которое позволит стандартным способом и с применением адобридера из 1с проделать это - рассказывай ;)
#70 by mishaPH
В общем проверил все конвертеры присланные и ссылки указанные. эту пдф никто не конвертнул. либо очень коряво. адоб ридер стандартный все корректно в текст сихраняет.
#71 by ДенисЧ
использовать ридера и sendkeys не предлагать? :-)
#72 by mishaPH
предлагай. как сделать
#73 by mishaPH
скриптом не дает. ругается. Говорит невозможно создание объекта контейнером активХ AcroExch.App
#74 by andrewks
дык это вроде объект "большого" акробата, не?
#75 by mishaPH
@FN  там у тебя в коде ТЗ брось структуру полей какие у тебя были. или там только ТЗ = СоздатьОбъект("ТаблицаЗначений")
#76 by Ёпрст
PDFtransformer 2 или 3-ий Пробовал ?
#77 by VladZ
Неужто нельзя договориться о другом формате?
#78 by mishaPH
не помню. кучу перепробовал с кем договорится ?  с Х5 ? это всеравно что ашану свои условия ставить.
#79 by mishaPH
если ты от абби то он у нас есть. но он 1. тормозной. 2. он не умеет работать без человека
#80 by FN
Пустая ТЗ на форме
#81 by mishaPH
ок
#82 by smaharbA
закинь в [HKEY_LOCAL_MACHINESOFTWAREPoliciesAdobeAcrobat Reader9.0FeatureLockDowncDefaultExecMenuItems] tWhiteList=...|ADBE:SaveAsAccText|SelectAll|Copy к тому что уже есть и в папку усерских скриптов файлик с одной строкой app.setTimeOut('app.execMenuItem("SelectAll");app.execMenuItem("Copy");',3000); и открой какой нибудь пдф - увидишь эффект, далее думай
#83 by mishaPH
В папке скриптов 2 файлика. glob.js glob.settings.js создать новый со строкой ?
#84 by smaharbA
а просче джехостскрипт
#85 by mishaPH
в реестр строку |ADBE:SaveAsAccText|SelectAll|Copy добавил к имеющимся. теперь при старте пдфки помоему что-то промелькнуло. но эффекта не вижу
#86 by smaharbA
Да и просто открой какой нибудь пдф интерактивно (конечно содержащий текст, страниц 10 хотя бы)
#87 by mishaPH
?
#88 by smaharbA
посмотри в буфере обмена ))
#89 by mishaPH
есть на 200 счет от билайна
#90 by mishaPH
при открытии накладной эффекта нет кроме мелькающего окошка, при открытии счета от билайна получается выделенным весь текст. но в буфер не копирует. Это отдельным файликом скрипта или встроить в какой.или имя у него должно быть определенное
#91 by sttt
может еще CuneiForm и openoffice. еще мс офис картинки распознавать умеет
#92 by mishaPH
не нужны мне картинки.
#93 by sttt
так если текст не получается получить, тогда в картинку а от туда текст
#94 by FN
мой вариант уже испробовал?
#95 by sttt
вот по openoffice
#96 by sttt
вот расширение
#97 by mishaPH
да такст какой-то мусор выдает и все.
Тэги: 1С 7.7 и ранее
Ответить:
Комментарии доступны только авторизированным пользователям

В этой группе 1С