Norėdami pasiekti ištrauktą tekstą iš vaizdo naudodami „Google Vision“ API, galite atlikti kelis veiksmus, apimančius API optinio simbolių atpažinimo (OCR) galimybes. „Google Vision“ API OCR technologija leidžia aptikti ir išgauti tekstą iš vaizdų, įskaitant rašymą ranka. Ši funkcija ypač naudinga programose, kurioms reikalinga vaizdiniuose duomenyse esančios tekstinės informacijos analizė ir supratimas.
Pirmiausia turite nustatyti reikiamą aplinką, kad galėtumėte dirbti su „Google Vision“ API. Tai apima projekto sukūrimą „Google Cloud Console“, „Vision“ API įgalinimą ir reikiamų autentifikavimo kredencialų, pvz., API rakto arba paslaugos paskyros rakto, gavimą.
Kai jūsų aplinka bus nustatyta, galite naudoti Vision API metodą „asyncBatchAnnotateFiles“, kad atliktumėte vaizdo failo OCR. Šis metodas leidžia perduoti vaizdo failų sąrašą apdoroti ir gauti rezultatus asinchroniškai. Arba galite naudoti „asyncBatchAnnotateImages“ metodą, kad tiesiogiai apdorotumėte vaizdų sąrašą.
Norėdami išgauti tekstą iš vaizdo, turite sukurti objekto „AnnotateImageRequest“ egzempliorių ir nurodyti norimas funkcijas. Tokiu atveju turėtumėte nustatyti funkciją „TEXT_DETECTION“, kad būtų parodyta, jog norite išgauti tekstą iš vaizdo. Taip pat galite nurodyti papildomus parametrus, pvz., kalbos užuominą, kad pagerintumėte OCR tikslumą.
Tada turite užkoduoti vaizdo failą į base64 koduotą eilutę ir sukurti objekto „Vaizdas“ egzempliorių naudodami užkoduotus vaizdo duomenis. Šis objektas „Vaizdas“ turėtų būti pridėtas prie anksčiau sukurto objekto „AnnotateImageRequest“.
Nustatę užklausą, galite nusiųsti ją į „Vision“ API naudodami „batchAnnotateImages“ arba „batchAnnotateFiles“ metodą, atsižvelgiant į pasirinktą metodą. API apdoros vaizdą ir pateiks atsakymą su ištrauktu tekstu.
Norėdami pasiekti ištrauktą tekstą iš atsakymo, galite kartoti objekto „AnnotateImageResponse“ lauką „textAnnotations“. Šiame lauke yra objektų „EntityAnnotation“ sąrašas, kiekvienas iš jų vaizduoja aptiktą teksto elementą vaizde. Kiekvieno objekto „EntityAnnotation“ lauke „Aprašymas“ yra ištrauktas tekstas.
Čia yra Python kodo fragmento pavyzdys, rodantis, kaip pasiekti ištrauktą tekstą iš vaizdo naudojant „Google Vision“ API:
python from google.cloud import vision def extract_text_from_image(image_path): client = vision.ImageAnnotatorClient() with open(image_path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) request = vision.AnnotateImageRequest( image=image, features=[{'type': vision.Feature.Type.TEXT_DETECTION}] ) response = client.batch_annotate_images(requests=[request]) for annotation in response.responses[0].text_annotations: extracted_text = annotation.description print(extracted_text) # Usage extract_text_from_image('path_to_image.jpg')
Šiame pavyzdyje funkcija „extract_text_from_image“ kaip įvestį paima kelią į vaizdo failą ir naudoja „Google Cloud Vision“ kliento biblioteką, kad nusiųsti užklausą „Vision“ API. Tada ištrauktas tekstas išspausdinamas.
Norėdami pasiekti ištrauktą tekstą iš vaizdo naudodami „Google Vision“ API, turite nustatyti aplinką, sukurti objektą „AnnotateImageRequest“ su norimomis funkcijomis, užkoduoti vaizdo failą, nusiųsti užklausą API ir nuskaityti ištrauktą tekstą. nuo atsakymo. Vision API OCR galimybės leidžia aptikti ir išgauti tekstą iš vaizdų, įskaitant rašymą ranka.
Kiti naujausi klausimai ir atsakymai apie Teksto aptikimas ir ištraukimas iš rašysenos:
- Kokie apribojimai gali kilti ištraukiant tekstą iš sudėtingų dokumentų naudojant „Google Vision“ API?
- Kokia yra patikimumo lygių reikšmė „Google Vision API“ teksto interpretacijoje?
- Kaip „Google Vision“ API gali tiksliai atpažinti ir išgauti tekstą iš ranka rašytų užrašų?
- Kokie iššūkiai kyla aptinkant ir ištraukiant tekstą iš ranka rašytų vaizdų?
- Ar „Google Vision“ atpažįsta rašyseną?