Biuletyn Informacji Publicznej

WG 2019-4

Wikimedia Polska, polski partner Fundacji Wikimedia.
Przejdź do nawigacji Przejdź do wyszukiwania


Strona główna Złóż wniosek Najczęstsze pytania Regulamin Wikigrantów Zasady refundacji Aktualne projekty Archiwum
Nazwa użytkownika Comp1089 Status wycofany
Uzasadnienie Grant ma być przeznaczony na rozpoznanie programem OCR 1. tomu słownika turecko-tureckiego. Jest to niezbędne, abym mógł korzystać z ww. tekstu, używając programu odczytu ekranu (np. NVDA, z którego na co dzień korzystam). Adaptacja tego słownika ułatwi mi uzupełnienie oraz utworzenie odpowiednich haseł na polskim Wikisłowniku. Obecnie mam ten słownik w postaci drukowanej, dokładna liczba stron w 1. tomie jest do doprecyzowania.
Harmonogram realizacji projektu
01.08.2019 (pierwszy etap, 1500 haseł)
01.01.2020 (drugi etap, kolejne 1500 haseł)
Kosztorys ok. 300 zł, dokładna kwota do doprecyzowania Suma 300,00 PLN
Komisja rozpoznała wniosek w trybie § 14 ust. 4 Regulaminu. W głosowaniu przez e-mail Komisja stosunkiem głosów 3/0/0 [za/przeciw/wstrz. się], przy czym dwóch członków Komisji nie wzięło udziału w głosowaniu, postanowiła o przyznaniu dofinansowania zgodnie z wnioskiem.

Prosimy o dokładne zapoznanie się z zasadami refundacji, w szczególności z punktem dotyczącym informacji przesyłanych do Stowarzyszenia. Prosimy również o to, by dokumentacja przesłana do Stowarzyszenia zawierała informacje pozwalające zidentyfikować jej przeznaczenie, co ułatwi rozliczenie grantu. Dziękujemy za zgłoszenie i życzymy owocnej pracy. W imieniu Komisji, Ankry (dyskusja) 22:20, 31 sty 2019 (CET)[odpowiedz]

Sprawozdanie użytkownika WG 2019-4/sprawozdanie Data zakończenia 31 grudnia 2021
Podsumowanie Komisji Grant uznany za niezrealizowany w związku z brakiem podjęcia działań przez wnioskodawcę. Wobec braku udokumentowania poniesienia kosztów, prawdopodobnie stał się również bezprzednmiotowy, Ankry (dyskusja) 18:30, 31 gru 2021 (CET) W związku z brakiem potrzeby finansowania projektu przez Stowarzyszenie status wniosku zmieniono na wycofany. Wiktoryn (dyskusja) 19:33, 7 kwi 2023 (CEST)[odpowiedz]


Dyskusja i uwagi
  • Mam dwa pytania:
  1. Czy mógłbyś z grubsza oszacować jaką liczbę haseł będziesz w stanie uzupełnić / opracować w podanym terminie?
  2. W oparciu o co oszacowałeś koszt skanowania / OCR-u?
Ankry (dyskusja) 18:09, 26 sty 2019 (CET)[odpowiedz]
  • Rozmawiałem z wnioskodawcą (jesteśmy na ZZ). Ma w domu 10 tomów i deklaruje chęć wrzucenia całości do Wikisłownika (z koniecznymi zmianami). Do tego potrzebuje zrobić OCR z "normalnego" tekstu na Braille'a. Poradziłem mu, żeby zaczął pilotażowo od jednego tomu. Liczba haseł zostanie oszacowana, kiedy wnioskodawca wróci do domu (osoba widząca musi spojrzeć ile haseł mieści się na jednej stronie, może na okładce jest to napisane - w internecie opis tego słownika nie jest łatwy do znalezienia). Koszt został oszacowany na podstawie cennika wyspecjalizowanej jednostki UW. Tar Lócesilion (queta) 18:33, 26 sty 2019 (CET)[odpowiedz]
  • Poprawię, że nie "z normalnego tekstu na Braille'a", tylko z czarnodruku do postaci, którą można byłoby odczytać, używając czytnika z ekranu. Z tej strony wynika, iż skanowanie kosztowałoby 10 gr za stronę, nie znalazłem tam natomiast informacji o dodatkowej cenie za rozpoznawanie (w związku z czym kwota końcowa może się okazać nieco większa, niż 300 zł). Tom I ww. słownika zawiera 702 strony, na każdej ze stron zmieściłoby się od 20 do 40 haseł (zależy to od długości komentarza do każdego hasła). --Comp1089 (dyskusja) 18:51, 28 sty 2019 (CET)[odpowiedz]
    • Muszę się wtrącić. Stopa błędów w OCR. Prawie 20 lat temu powstała Polska Biblioteka Internetowa, zawierająca i skany, i teksty z OCR. Te ostatnie były często bezużyteczne - po prostu w umowie z wykonawcą nie było słowa o weryfikacji odczytanego tekstu. Co prawda pierwszy program OCR, jaki spotkałem - Recognita - był napisany przez Węgrów i demonstrowany na tekstach w języku tureckim. Potrzebna będzie pewnie pomoc przy weryfikacji OCR (porównanie skanu z OCR). Litwin Gorliwy (dyskusja) 22:04, 28 sty 2019 (CET)[odpowiedz]
      • Też się wtrącę: przez 20 lat wiele się zmieniło. Na polskojęzycznych Wikiźródłach obecnie masowo wykorzystujemy OCR, czy to wykonany samodzielnie, czy przez biblioteki cyfrowe (najczęściej za pomocą programu ABBYY), czy też przez Google (ichnie natywne narzędzia) i stopa błędów dla języka polskiego przy dobrej jakości skanów jest tak niska, że zwłaszcza w przypadku nowszych książek (gdzie nie ma problemu starych form językowych) błędów praktycznie nie ma (aż bywa nudno). Z drugiej strony, o ile dobrze zrozumiałem wniosek, nie chodzi o przepisanie słownika do wikisłownika tureckiego (co byłoby pewnie niezgodne z prawem autorskim), lecz o przeczytanie go i wprowadzenie informacji z niego do wikisłownika polskiego (zgaduję, że po przetłumaczeniu). Chciałem zwrócić uwagę, że wnioskodawca deklaruje podstawową znajomość języka tureckiego, jak też pewną znajomość języków pokrewnych (baszkirskiego, tatarskiego). Nie wiem, jak wygląda kwestia jakości OCR dla języka tureckiego, ale myślę, że warto spróbować. Ankry (dyskusja) 23:16, 28 sty 2019 (CET)[odpowiedz]
  • Od czasu tej deklaracji też wiele się zmieniło, teraz śmiało mogę powiedzieć, że po turecku mówię na poziomie tr-2. --Comp1089 (dyskusja) 10:57, 29 sty 2019 (CET)[odpowiedz]
Dodam jeszcze, iż dodanie 14-15 tys. haseł w tak krótkim terminie byłoby dla mnie trudne (m.in. z powodów technicznych). W podanym terminie jestem gotów dodać / uzupełnić pierwsze 1500 haseł z I tomu, zaś w ciągu kolejnych 6 miesięcy -- kolejne 1500. Moim zdaniem, taki wniosek do tureckiej kategorii pl.wikt byłby dosyć istotny. --Comp1089 (dyskusja) 21:48, 29 sty 2019 (CET)[odpowiedz]